Leben
Digital

ChatGPT, Google Gemini und Meta Llama: KI-Modelle verzweifeln an einfacher Frage

OpenAI Introduces New AI Model Called GPT 4o The ChatGPT app is seen on a mobile device in this illustraiton photo in Warsaw, Poland on 14 May, 2024. Warsaw Poland PUBLICATIONxNOTxINxFRA Copyright: xJ ...
Auch ChatGPT hat mit einer speziellen Frage so seine Probleme. Bild: imago / Jaap Arriens
Digital

ChatGPT scheitert an einfachem Logiktest

12.06.2024, 10:49
Mehr «Leben»

Egal ob ein schnelles Kochrezept für den Feierabend, ein kreativer Name für das EM-Tippspiel im Freundeskreis oder auch den optimalen Text für die Job-Bewerbung: Künstliche Intelligenz (KI) in Form von Tools wie ChatGPT ist im Jahr 2024 zum ständigen Begleiter geworden.

Nur allzu oft verlassen wir uns im Alltag mittlerweile auf das Wissen eines Chatbots und kontrollieren wohl noch zu selten den Wahrheitsgehalt hinter dessen Antworten. Ein simpler Wissenstest unter den betreffenden KI-Tools zeigt nun erneut, dass auch das gesamte Wissen des World Wide Web einen bei manchen Fragen im Stich lassen kann.

Untersuchung deckt fehlendes Logikverständnis bei KI auf

Ein Team der University of Bristol hatte sich im Frühjahr 2024 die größten Vertreter der sogenannten Large Language Models, kurz LLM, angesehen. Hiermit sind jene Sprachmodelle gemeint, die auf Basis neuronaler Netzwerke Texte aus natürlicher Sprache verarbeiten und selbst generieren können.

Hierzu zählen neben dem Marktführer ChatGPT auch das Gemini-Tool von Google und das KI-System Llama vom Meta-Konzern.

Watson ist jetzt auf Whatsapp
Jetzt auf Whatsapp und Instagram: dein watson-Update! Wir versorgen dich hier auf Whatsapp mit den watson-Highlights des Tages. Nur einmal pro Tag – kein Spam, kein Blabla, nur sieben Links. Versprochen! Du möchtest lieber auf Instagram informiert werden? Hier findest du unseren Broadcast-Channel.

Im Rahmen einer Untersuchung stellten die Forscher:innen den KI-Modellen eine Frage, die sie später als das "Alice-im-Wunderland-Problem" definierten. Konkret orientierte sich das Team hierfür an Fragen "auf dem Niveau von Mathematikolympiaden, die für Grundschüler zusammengestellt wurden", die entsprechend kein besonders hohes Wissensniveau voraussetzten.

Darauf aufbauend wurde den KI-Tools für das Experiment folgende Aufgabe gestellt: "Alice hat n Brüder und m Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Für die erste Runde setzte man n gleich 4 und m gleich 1, sodass die korrekte Antwort auf die Frage 2 gewesen wäre.

Für die Berechnung der Lösung wäre somit die Formel x=n+1 nötig, da Alice selbst als Schwester hinzugerechnet werden muss.

Forscher schockiert von Selbstbewusstsein der KI-Systeme

"Zu unserer Überraschung stellten wir fest, dass die meisten Modelle erhebliche Schwierigkeiten hatten", erklären die Forscher:innen im Nachhinein in ihrem Bericht. Auch mit anderen Zahlenkombinationen gab die KI in vielen Fällen das falsche Ergebnis aus.

Im Normalfall wäre eine einfache Lösungsfindung der Systeme zu erwarten gewesen. Für die Berechnung wäre lediglich die genannte Formel nötig gewesen, die ein gut trainierter Algorithmus häufiger anzuwenden hätte.

Als besorgniserregend empfand das Team allerdings vor allem die Reaktion der Tools. Demnach hätten die Systeme ein "übermäßiges Selbstvertrauen" in ihre Antworten gezeigt, auch wenn diese nach mehreren Nachfragen nicht korrekt waren.

Häufig hätte die KI demnach angegeben, dass dies "definitiv" die richtige Antwort sei.

Die höchste Trefferquote erzielte bei der Untersuchung der University of Bristol trotz allem der Marktführer OpenAI mit ChatGPT-4o. Die Trefferquote des Sprachmodells lag bei knapp 65 Prozent.

Googles System Gemini hingegen kam gerade einmal auf eine Quote von 0,8. Ein kritisches Hinterfragen von KI-Antworten bleibt damit unabdinglich.

Supermarkt: Butter-Rückruf – auch Discounter betroffen

Lebensmittelrückrufe sind etwas, das alle Verbraucher:innen hin und wieder mitbekommen – sei es durch Schlagzeilen, Social Media oder sogar beim Einkauf im Supermarkt. Im Grunde zeigen sie vor allem eines: Das System funktioniert. Hersteller und Behörden arbeiten eng zusammen, um potenzielle Risiken so schnell wie möglich zu identifizieren und Kund:innen zu schützen.

Zur Story