Egal ob ein schnelles Kochrezept für den Feierabend, ein kreativer Name für das EM-Tippspiel im Freundeskreis oder auch den optimalen Text für die Job-Bewerbung: Künstliche Intelligenz (KI) in Form von Tools wie ChatGPT ist im Jahr 2024 zum ständigen Begleiter geworden.
Nur allzu oft verlassen wir uns im Alltag mittlerweile auf das Wissen eines Chatbots und kontrollieren wohl noch zu selten den Wahrheitsgehalt hinter dessen Antworten. Ein simpler Wissenstest unter den betreffenden KI-Tools zeigt nun erneut, dass auch das gesamte Wissen des World Wide Web einen bei manchen Fragen im Stich lassen kann.
Ein Team der University of Bristol hatte sich im Frühjahr 2024 die größten Vertreter der sogenannten Large Language Models, kurz LLM, angesehen. Hiermit sind jene Sprachmodelle gemeint, die auf Basis neuronaler Netzwerke Texte aus natürlicher Sprache verarbeiten und selbst generieren können.
Hierzu zählen neben dem Marktführer ChatGPT auch das Gemini-Tool von Google und das KI-System Llama vom Meta-Konzern.
Im Rahmen einer Untersuchung stellten die Forscher:innen den KI-Modellen eine Frage, die sie später als das "Alice-im-Wunderland-Problem" definierten. Konkret orientierte sich das Team hierfür an Fragen "auf dem Niveau von Mathematikolympiaden, die für Grundschüler zusammengestellt wurden", die entsprechend kein besonders hohes Wissensniveau voraussetzten.
Darauf aufbauend wurde den KI-Tools für das Experiment folgende Aufgabe gestellt: "Alice hat n Brüder und m Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Für die erste Runde setzte man n gleich 4 und m gleich 1, sodass die korrekte Antwort auf die Frage 2 gewesen wäre.
Für die Berechnung der Lösung wäre somit die Formel x=n+1 nötig, da Alice selbst als Schwester hinzugerechnet werden muss.
"Zu unserer Überraschung stellten wir fest, dass die meisten Modelle erhebliche Schwierigkeiten hatten", erklären die Forscher:innen im Nachhinein in ihrem Bericht. Auch mit anderen Zahlenkombinationen gab die KI in vielen Fällen das falsche Ergebnis aus.
Im Normalfall wäre eine einfache Lösungsfindung der Systeme zu erwarten gewesen. Für die Berechnung wäre lediglich die genannte Formel nötig gewesen, die ein gut trainierter Algorithmus häufiger anzuwenden hätte.
Als besorgniserregend empfand das Team allerdings vor allem die Reaktion der Tools. Demnach hätten die Systeme ein "übermäßiges Selbstvertrauen" in ihre Antworten gezeigt, auch wenn diese nach mehreren Nachfragen nicht korrekt waren.
Häufig hätte die KI demnach angegeben, dass dies "definitiv" die richtige Antwort sei.
Die höchste Trefferquote erzielte bei der Untersuchung der University of Bristol trotz allem der Marktführer OpenAI mit ChatGPT-4o. Die Trefferquote des Sprachmodells lag bei knapp 65 Prozent.
Googles System Gemini hingegen kam gerade einmal auf eine Quote von 0,8. Ein kritisches Hinterfragen von KI-Antworten bleibt damit unabdinglich.