Fehlende Genauigkeit: OpenAI-Forschung zeigt, dass selbst die besten Modelle oft falsche Antworten liefern

Neue Erkenntnisse von OpenAI enthüllen die mangelnde Genauigkeit ihrer neuesten KI-Modelle

OpenAI hat eine neue Benchmark namens ‚SimpleQA‘ veröffentlicht, um die Genauigkeit der Ausgabe seiner eigenen und konkurrierenden künstlichen Intelligenzmodelle zu messen. In eigenen Tests erzielte das modernste Modell von OpenAI, das letzten Monat veröffentlichte o1-preview-Modell, eine erschreckend niedrige Erfolgsquote von 42,7 Prozent auf der neuen Benchmark.

Das bedeutet, dass selbst die Spitze der kürzlich angekündigten großen Sprachmodelle (LLMs) viel wahrscheinlicher eine völlig falsche Antwort liefert als eine richtige – eine besorgniserregende Anklage, insbesondere da die Technologie beginnt, viele Aspekte unseres täglichen Lebens zu durchdringen.

Konkurrierende Modelle wie Anthropics erzielten noch niedrigere Ergebnisse auf OpenAIs SimpleQA-Benchmark. Ihr kürzlich veröffentlichtes Claude-3.5-Sonett-Modell erzielte nur 28,9 Prozent richtiger Antworten. Allerdings war das Modell viel eher geneigt, seine eigene Unsicherheit zu zeigen und sich zu weigern zu antworten – was angesichts der verheerenden Ergebnisse wahrscheinlich das Beste ist.

OpenAI stellte fest, dass seine eigenen KI-Modelle dazu neigen, ihre eigenen Fähigkeiten weit übermäßig einzuschätzen, was dazu führen kann, dass sie sich in den Unwahrheiten, die sie erfinden, äußerst sicher fühlen.

Ob dieses Problem mit noch größeren Trainingsdatensätzen gelöst werden kann – etwas, wofür KI-Führer Investoren eilig beruhigen wollen – bleibt eine offene Frage.

Weitere Informationen zu OpenAI: Von Krankenhäusern verwendete KI-Modelle erfinden Details über Patienten und nicht existierende Medikamente und Handlungen

Teile den Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert