
Auch ChatGPT hat mit einer speziellen Frage so seine Probleme. Bild: imago / Jaap Arriens
Digital
12.06.2024, 10:4912.06.2024, 10:49
Egal ob ein schnelles Kochrezept für den Feierabend, ein kreativer Name für das EM-Tippspiel im Freundeskreis oder auch den optimalen Text für die Job-Bewerbung: Künstliche Intelligenz (KI) in Form von Tools wie ChatGPT ist im Jahr 2024 zum ständigen Begleiter geworden.
Nur allzu oft verlassen wir uns im Alltag mittlerweile auf das Wissen eines Chatbots und kontrollieren wohl noch zu selten den Wahrheitsgehalt hinter dessen Antworten. Ein simpler Wissenstest unter den betreffenden KI-Tools zeigt nun erneut, dass auch das gesamte Wissen des World Wide Web einen bei manchen Fragen im Stich lassen kann.
Untersuchung deckt fehlendes Logikverständnis bei KI auf
Ein Team der University of Bristol hatte sich im Frühjahr 2024 die größten Vertreter der sogenannten Large Language Models, kurz LLM, angesehen. Hiermit sind jene Sprachmodelle gemeint, die auf Basis neuronaler Netzwerke Texte aus natürlicher Sprache verarbeiten und selbst generieren können.
Hierzu zählen neben dem Marktführer ChatGPT auch das Gemini-Tool von Google und das KI-System Llama vom Meta-Konzern.
Watson ist jetzt auf Whatsapp
Jetzt auf Whatsapp und Instagram: dein watson-Update! Wir versorgen dich
hier auf Whatsapp mit den watson-Highlights des Tages. Nur einmal pro Tag – kein Spam, kein Blabla, nur sieben Links. Versprochen! Du möchtest lieber auf Instagram informiert werden?
Hier findest du unseren Broadcast-Channel.
Im Rahmen einer Untersuchung stellten die Forscher:innen den KI-Modellen eine Frage, die sie später als das "Alice-im-Wunderland-Problem" definierten. Konkret orientierte sich das Team hierfür an Fragen "auf dem Niveau von Mathematikolympiaden, die für Grundschüler zusammengestellt wurden", die entsprechend kein besonders hohes Wissensniveau voraussetzten.
Darauf aufbauend wurde den KI-Tools für das Experiment folgende Aufgabe gestellt: "Alice hat n Brüder und m Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Für die erste Runde setzte man n gleich 4 und m gleich 1, sodass die korrekte Antwort auf die Frage 2 gewesen wäre.
Für die Berechnung der Lösung wäre somit die Formel x=n+1 nötig, da Alice selbst als Schwester hinzugerechnet werden muss.
Forscher schockiert von Selbstbewusstsein der KI-Systeme
"Zu unserer Überraschung stellten wir fest, dass die meisten Modelle erhebliche Schwierigkeiten hatten", erklären die Forscher:innen im Nachhinein in ihrem Bericht. Auch mit anderen Zahlenkombinationen gab die KI in vielen Fällen das falsche Ergebnis aus.
Im Normalfall wäre eine einfache Lösungsfindung der Systeme zu erwarten gewesen. Für die Berechnung wäre lediglich die genannte Formel nötig gewesen, die ein gut trainierter Algorithmus häufiger anzuwenden hätte.
Als besorgniserregend empfand das Team allerdings vor allem die Reaktion der Tools. Demnach hätten die Systeme ein "übermäßiges Selbstvertrauen" in ihre Antworten gezeigt, auch wenn diese nach mehreren Nachfragen nicht korrekt waren.
Häufig hätte die KI demnach angegeben, dass dies "definitiv" die richtige Antwort sei.
Die höchste Trefferquote erzielte bei der Untersuchung der University of Bristol trotz allem der Marktführer OpenAI mit ChatGPT-4o. Die Trefferquote des Sprachmodells lag bei knapp 65 Prozent.
Googles System Gemini hingegen kam gerade einmal auf eine Quote von 0,8. Ein kritisches Hinterfragen von KI-Antworten bleibt damit unabdinglich.
Immer wieder versuchen Betrüger:innen, mit gefälschten E-Mails an sensible Daten von Kund:innen großer Unternehmen wie Paypal zu gelangen. Diese sogenannten Phishing-Mails sehen täuschend echt aus und fordern oft dazu auf, persönliche Informationen oder Zugangsdaten preiszugeben.
Phishing-Mails sind bei Weitem kein neues Internet-Phänomen. Trotzdem fallen auch heutzutage immer wieder Menschen auf die Betrugsmaschen herein. Das liegt mitunter daran, dass die Kriminellen immer raffinierter vorgehen und versuchen ihre Nachrichten so echt wie möglich aussehen zu lassen.