Kopfzerbrecher: Selbst fortschrittlichste KI scheitert an einfacher Logikfrage

Eine faszinierende neue Studie von Wissenschaftlern des KI-Forschungsunternehmens LAION zeigt, dass selbst die ausgefeiltesten großen Sprachmodelle (LLMs) häufig an derselben einfachen Logikfrage scheitern – eine Erkenntnis, die Zweifel daran aufkommen lässt, ob fortschrittliche KI-Sprachmodelle wirklich so fortgeschritten sind, wie ihre Schöpfer oft behaupten.

Die Studie bezieht sich auf das von der KI gestellte Problem als das „Alice im Wunderland“ – oder AIW – Problem. Es handelt sich um eine einfache logische Frage: „Alice hat [X] Brüder und sie hat auch [Y] Schwestern. Wie viele Schwestern haben die Brüder von Alice?“ Obwohl das Problem ein wenig Nachdenken erfordert, ist es nicht gerade auf dem Niveau eines Rätsels für Brückentrolle. Die Forscher stellten fest, dass nur ein Modell, das brandneue GPT-4o, eine Erfolgsquote erzielte, die nach standardisierten Schulnoten technisch gesehen bestanden wurde.

Die Forscher fanden heraus, dass die Modelle weit unter den Erwartungen blieben und oft absurde und fehlerhafte Denkweisen zeigten. Sogar seltsamerweise verteidigten sie ihre falschen Antworten hartnäckig und wurden beleidigt, wenn man sie auf ihre Fehler hinwies.

Die Studie enthält Dutzende von Beispielen verschiedener verwirrter KI-Modelle bei verschiedenen Variationen des AIW-Problems. Die Ergebnisse werfen wichtige Fragen zur Bewertung von Sprachmodellen in der KI auf und regen dazu an, die Prozesse zur Bewertung der Problemlösungs- und Denkfähigkeiten von Sprachmodellen zu überdenken.