OpenAI Introduces New AI Model Called GPT 4o The ChatGPT app is seen on a mobile device in this illustraiton photo in Warsaw, Poland on 14 May, 2024. Warsaw Poland PUBLICATIONxNOTxINxFRA Copyright: xJ ...

Auch ChatGPT hat mit einer speziellen Frage so seine Probleme. Bild: imago / Jaap Arriens

Digital

ChatGPT scheitert an einfachem Logiktest

12.06.2024, 10:4912.06.2024, 10:49

Mehr «Leben»

Egal ob ein schnelles Kochrezept für den Feierabend, ein kreativer Name für das EM-Tippspiel im Freundeskreis oder auch den optimalen Text für die Job-Bewerbung: Künstliche Intelligenz (KI) in Form von Tools wie ChatGPT ist im Jahr 2024 zum ständigen Begleiter geworden.

Nur allzu oft verlassen wir uns im Alltag mittlerweile auf das Wissen eines Chatbots und kontrollieren wohl noch zu selten den Wahrheitsgehalt hinter dessen Antworten. Ein simpler Wissenstest unter den betreffenden KI-Tools zeigt nun erneut, dass auch das gesamte Wissen des World Wide Web einen bei manchen Fragen im Stich lassen kann.

Untersuchung deckt fehlendes Logikverständnis bei KI auf

Ein Team der University of Bristol hatte sich im Frühjahr 2024 die größten Vertreter der sogenannten Large Language Models, kurz LLM, angesehen. Hiermit sind jene Sprachmodelle gemeint, die auf Basis neuronaler Netzwerke Texte aus natürlicher Sprache verarbeiten und selbst generieren können.

Hierzu zählen neben dem Marktführer ChatGPT auch das Gemini-Tool von Google und das KI-System Llama vom Meta-Konzern.

Watson ist jetzt auf Whatsapp

Jetzt auf Whatsapp und Instagram: dein watson-Update! Wir versorgen dich hier auf Whatsapp mit den watson-Highlights des Tages. Nur einmal pro Tag – kein Spam, kein Blabla, nur sieben Links. Versprochen! Du möchtest lieber auf Instagram informiert werden? Hier findest du unseren Broadcast-Channel.

Im Rahmen einer Untersuchung stellten die Forscher:innen den KI-Modellen eine Frage, die sie später als das "Alice-im-Wunderland-Problem" definierten. Konkret orientierte sich das Team hierfür an Fragen "auf dem Niveau von Mathematikolympiaden, die für Grundschüler zusammengestellt wurden", die entsprechend kein besonders hohes Wissensniveau voraussetzten.

Darauf aufbauend wurde den KI-Tools für das Experiment folgende Aufgabe gestellt: "Alice hat n Brüder und m Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Für die erste Runde setzte man n gleich 4 und m gleich 1, sodass die korrekte Antwort auf die Frage 2 gewesen wäre.

Für die Berechnung der Lösung wäre somit die Formel x=n+1 nötig, da Alice selbst als Schwester hinzugerechnet werden muss.

Forscher schockiert von Selbstbewusstsein der KI-Systeme

"Zu unserer Überraschung stellten wir fest, dass die meisten Modelle erhebliche Schwierigkeiten hatten", erklären die Forscher:innen im Nachhinein in ihrem Bericht. Auch mit anderen Zahlenkombinationen gab die KI in vielen Fällen das falsche Ergebnis aus.

Im Normalfall wäre eine einfache Lösungsfindung der Systeme zu erwarten gewesen. Für die Berechnung wäre lediglich die genannte Formel nötig gewesen, die ein gut trainierter Algorithmus häufiger anzuwenden hätte.

Als besorgniserregend empfand das Team allerdings vor allem die Reaktion der Tools. Demnach hätten die Systeme ein "übermäßiges Selbstvertrauen" in ihre Antworten gezeigt, auch wenn diese nach mehreren Nachfragen nicht korrekt waren.

Häufig hätte die KI demnach angegeben, dass dies "definitiv" die richtige Antwort sei.

Spaß

Wir machen keine Witze: 10 Simulatoren, die es wirklich gibt

Die höchste Trefferquote erzielte bei der Untersuchung der University of Bristol trotz allem der Marktführer OpenAI mit ChatGPT-4o. Die Trefferquote des Sprachmodells lag bei knapp 65 Prozent.

Googles System Gemini hingegen kam gerade einmal auf eine Quote von 0,8. Ein kritisches Hinterfragen von KI-Antworten bleibt damit unabdinglich.

Themen

Sophie Turner spricht über Kuss-Szene mit Kit Harington – "wirklich abscheulich"

Mallorca-Gastro in der Krise – "Urlauber nicht ewig für dumm verkaufen"

Spekulationen um kranken Putin: Körpersprachen-Experte gibt Einschätzung ab

ARD-Jägerin mit einer der schlechtesten Leistungen aller Zeiten bei "Gefragt – Gejagt"

Verbraucherzentrale warnt vor Betrug an Targobank-Kunden

Helene Fischer im Porträt: Schwangerschaft, Tour, Kinder und Florian Silbereisen

Tiktok wird durch Jassin zum Beichtstuhl der Gen Z

Über Ängste wird selten gesprochen – sie gelten als Schwäche, als Makel. Und dann kommt Jassin mit "Bitte sei vorsichtig". Einem Lied, das genau diese Verletzlichkeit ins Zentrum rückt. Das Ergebnis: Ein Tabu zerbricht, und ausgerechnet das viel gescholtene Tiktok wird zur kollektiven Therapiesitzung.

Für meinen Tiktok-Algorithmus schäme ich mich manchmal ein bisschen. Der ist so wirr, hat so viele verschiedene Einflüsse. Zwischen Brainrot, Tanz-Trends, Travel-Vlogs und Einrichtungstipps schafft es manchmal ein Video, in mir echte Emotionen auszulösen.

Zur Story

ChatGPT, Google Gemini und Meta Llama: KI-Modelle verzweifeln an einfacher Frage

ChatGPT scheitert an einfachem Logiktest

Untersuchung deckt fehlendes Logikverständnis bei KI auf

Watson ist jetzt auf Whatsapp

Forscher schockiert von Selbstbewusstsein der KI-Systeme