Chatbot-Vergleich: ChatGPT enttäuscht, andere Modelle punkten
Eine «Stange» ist ein langes Brot. Diese Antwort lieferten nach einer Anfrage gleich zwei KI-Chatbots.
Für den Kassensturz testete die Fachhochschule Nordwestschweiz FHNW zehn weitverbreitete Chatbots auf ihre Praxistauglichkeit. Dabei wurden über 300 Fragen aus den Bereichen Alltag, Wissen, Recht und Gesundheit gestellt.
«Vor allem bei Fragen mit Schweiz-Bezug stolpern mehrere Chatbots», sagt Simon Felix, Experte für künstliche Intelligenz an der FHNW, gegenüber der Sendung. «Entweder erfinden sie Antworten – oder sie beantworten die Fragen mit Fokus auf Deutschland.»
Am schlechtesten bewertet wurde der Chatbot Lumo des Schweizer Unternehmens Proton. «Teilweise liefert Lumo Antworten mit nur drei Wörtern – oder sehr lange oder erfundene Antworten», sagt Simon Felix.
Ebenfalls als «ungenügend» eingestuft wurden der chinesische Chatbot Deepseek sowie das Modell von Meta, dem Konzern hinter Facebook, Instagram und WhatsApp.
ChatGPT überzeugt im Test nicht
Das Unternehmen Lumo sagt in einer Stellungnahme: «Lumo ist seit weniger als fünf Monaten auf dem Markt, daher hatten wir im Vergleich zu US- und chinesischen Unternehmen weniger Zeit, die Leistung feinzujustieren.» Die kommenden Modell- und Websuche-Verbesserungen würden den Rückstand weiter verringern.
Auch der meistgenutzten KI-Chatbot ChatGPT konnte nicht überzeugen: «Das Produkt liefert keine schlechten, aber auch keine richtig guten Antworten», so der KI-Experte.
Die brauchbarsten Antworten lieferte Chatbot Claude des Unternehmens Anthropic, der von den ehemaligen Forschern von Open AI gegründet wurde. Ebenfalls eine gute Note erhalten haben Copilot von Microsoft und Gemini von Google. (cst)
