OpenAI o1: Ein bahnbrechendes Sprachmodell für komplexe Denkprozesse

Erfahren Sie mehr über die Leistungsfähigkeit von OpenAI o1 und andere führende Modelle in der KI-Forschung

OpenAI o1 ist ein neues großes Sprachmodell, das mit Hilfe von Verstärkungslernen trainiert wurde, um komplexe Denkprozesse durchzuführen. Es denkt vor dem Antworten – es kann eine lange interne Gedankenkette produzieren, bevor es dem Benutzer antwortet. OpenAI o1 rangiert im 89. Perzentil bei Wettbewerbsprogrammierungsfragen (Codeforces), platziert sich unter den Top 500 Studenten in den USA in einem Qualifikationsturnier für die USA Mathematik-Olympiade (AIME) und übertrifft die menschliche Genauigkeit auf PhD-Niveau bei einem Benchmark für Physik, Biologie und Chemieprobleme (GPQA).

Obwohl die Arbeit zur Vereinfachung der Nutzung dieses neuen Modells noch im Gange ist, veröffentlichen wir eine frühe Version dieses Modells, OpenAI o1-preview, zur sofortigen Verwendung in ChatGPT und bei vertrauenswürdigen API-Benutzern. Unser groß angelegter Verstärkungslernalgorithmus lehrt das Modell, produktiv zu denken, indem es seine Gedankenkette in einem hoch dateneffizienten Schulungsprozess verwendet.

Wir haben festgestellt, dass die Leistung von o1 mit mehr Verstärkungslernen (Trainingszeit-Computing) und mehr Zeit zum Nachdenken (Testzeit-Computing) kontinuierlich verbessert wird. Die Einschränkungen beim Skalieren dieses Ansatzes unterscheiden sich erheblich von denen des LLM-Vortrainings, und wir setzen unsere Untersuchungen fort.

Claude 3.5 Sonnet von Anthropic erreichte einen Wert von 59,4% bei der Zero-Shot Chain-of-Thought-Genauigkeit und führt die Bestenliste vom 26. Juni 2024 an. Es wurde auch erwähnt, dass mit verschiedenen Aufforderungsmethoden Punktzahlen von bis zu 67,2% erzielt wurden, was den Durchschnittswert menschlicher Experten mit Promotion in den entsprechenden Bereichen übertraf.

Grok-2 von xAI hat keine direkt genannte Punktzahl für GPQA in den bereitgestellten Informationen, aber seine Leistung in verwandten Benchmarks lässt vermuten, dass es wettbewerbsfähig wäre, obwohl uns die genaue Zahl für GPQA fehlt.

Google Gemini, insbesondere Modelle wie Gemini Ultra, wurden zwar nicht direkt für GPQA bewertet, wurden jedoch hervorgehoben als übertreffend im Bereich verschiedener Benchmarks des Standes der Technik – was darauf hindeutet, dass sie gut abschneiden würden. Auch hier wurde keine spezifische GPQA-Punktzahl erwähnt.

Brian Wang ist ein Futurist Thought Leader und beliebter Science-Blogger mit einer Leserschaft von 1 Million pro Monat. Sein Blog Nextbigfuture.com ist auf Platz #1 der Wissenschaftsnachrichtenblogs gerankt. Er deckt viele disruptive Technologien und Trends ab, darunter Raumfahrt, Robotik, Künstliche Intelligenz, Medizin sowie Anti-Aging-Biotechnologie und Nanotechnologie.

Bekannt für die Identifizierung wegweisender Technologien ist er derzeit Mitbegründer eines Startups und Geldgeber für vielversprechende Frühphasenunternehmen. Er ist Leiter der Forschung für Allokationen im Bereich Deep-Tech-Investitionen sowie Angel-Investor bei Space Angels.

Ein häufiger Redner bei Unternehmen war er ein TEDx-Sprecher sowie Sprecher an der Singularity University und Gast zahlreicher Interviews für Radio und Podcasts. Er steht öffentlichen Vorträgen und Beratungsengagements offen gegenüber.

Teile den Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert