OpenAI gesteht: GPT-4.5 halluziniert bei 37 Prozent der Antworten

In der Welt der künstlichen Intelligenz ist es ein großes Problem, wenn ein KI-Modell in einem erheblichen Teil der Fälle falsche Informationen ausgibt. Ein Partner oder Freund, der bei jeder dritten Frage lügt, würde das Vertrauen in jede Beziehung stark erschüttern. Für OpenAI, das Unternehmen hinter dem neuen KI-Modell GPT-4.5, scheint dies jedoch eine andere Realität zu sein.

In einer kürzlich veröffentlichten Ankündigung gab OpenAI bekannt, dass das neue große Sprachmodell (Large Language Model, LLM) beim Einsatz des unternehmenseigenen Benchmarking-Tools SimpleQA 37 Prozent seiner Antworten „halluziniert“. In der Fachsprache bedeutet dies, dass die KI fälschlicherweise Informationen generiert und diese mit Überzeugung als wahr präsentiert.

Schockierenderweise behauptet OpenAI sogar, dass diese Halluzinationen eine positive Entwicklung seien, da das GPT-4.5-Modell weniger halluziniert als frühere Modelle des Unternehmens. Laut den bereitgestellten Daten halluziniert ein als „fortgeschritten“ bezeichnetes Modell namens GPT-4o sogar 61,8 Prozent der Zeit, während eine günstigere Variante, das o3-mini, alarmierende 80,3 Prozent belegt.

Die Problematik der Halluzinationen ist jedoch nicht nur auf OpenAI beschränkt. Wissenschaftler, darunter Wenting Zhao, ein Doktorand der Cornell Universität, haben in einem Interview erklärt, dass selbst die besten verfügbaren Modelle heute nur etwa 35 Prozent halluzinationsfreie Texte generieren können. Zhao war Mitautor eines Berichts über die Raten von KI-Halluzinationen und betont: „Das Wichtigste aus unserer Forschung ist, dass wir den Ausgaben der Modellgenerierungen noch nicht voll vertrauen können.“

Es ist bemerkenswert, dass ein Unternehmen, das Milliarden an Investitionen erhält, Produkte vermarktet, die mit solchen grundlegenden Wahrheitsproblemen kämpfen. Gleichzeitig wirft es Fragen zur ganzen Branche der KI auf, die uns teure und ressourcenintensive Systeme anbieten, die angeblich dem menschlichen Intelligenzniveau näher kommen, aber immer noch nicht in der Lage sind, grundlegende Fakten korrekt wiederzugeben.

Angesichts der stagnierenden Leistungsfähigkeit der LLMs versucht OpenAI verzweifelt, den Hype um seine Produkte zurückzubeleben, der mit dem ersten Erscheinen von ChatGPT begann. Doch um dieses Ziel zu erreichen, bedarf es tatsächlich echter Durchbrüche, nicht nur des gewohnten Angebots. Für die Zukunft der AI sind die Fragen der Genauigkeit und Zuverlässigkeit grundlegende Herausforderungen, die es zu meistern gilt, bevor wir in die nächste Phase technologischen Fortschritts eintreten.