Die Verschiebung könnte um viele Größenordnungen mehr Rechenleistung und Energie für die Inferenz erfordern, um das verbesserte Denken im OpenAI Strawberry (QStar)-Ansatz zu bewältigen. Dies könnte bedeuten, dass weit leistungsstärkere und energieintensive Chips benötigt werden, um die Inferenz auszuführen. Nextbigfuture hatte zuvor die Skalierung des KI-Trainings und der KI-Inferenz analysiert und geschätzt. Diese neue Arbeit legt nahe, dass sich das Verhältnis von KI-Training zu KI-Inferenz ändern könnte. Das alte Verhältnis war, dass die KI-Inferenz etwa die Quadratwurzel des KI-Trainings betrug. Wir wissen immer noch nicht, wie sich der Rechen- und Energiebedarf bei großen KI-Sprachmodellen entwickeln wird. Was wird in zentralisierten Trainingsclustern benötigt sein und was wird in verteilten KI-Inferenzsystemen benötigt sein? Werden unsere Laptops und Handys ausreichen oder muss sich die Hardware ändern?
OpenAI Strawberry (o1) ist da! Wir sehen endlich das Paradigma des Inferenz-Zeit-Scalings, das populär geworden ist und in der Produktion eingesetzt wird. Wie Sutton im Bitter Lesson sagte, gibt es nur 2 Techniken, die unbegrenzt mit Rechenleistung skalieren: Lernen & Suche. Es ist an der Zeit, den Fokus auf Letzteres zu richten.
1. Du brauchst kein riesiges Modell, um Schlussfolgerungen zu ziehen. Viele Parameter sind darauf ausgelegt, Fakten zu memorieren, um in Benchmarks wie Trivia QA gut abzuschneiden. Es ist möglich, Schlussfolgerungen vom Wissen abzutrennen, d.h. einen kleinen „Schlussfolgerungskern“, der weiß, wie man Tools wie Browser und Codeprüfer aufruft. Die Vorabtrainingsrechenleistung kann verringert werden.
2. Eine enorme Menge an Rechenleistung wird darauf verwendet, Inferenzen statt Vorab-/Nachbearbeitung durchzuführen. LLMs sind textbasierte Simulatoren. Indem viele mögliche Strategien und Szenarien im Simulator durchgeführt werden, wird das Modell schließlich zu guten Lösungen konvergieren. Der Prozess ist ein gut erforschtes Problem wie Alphagos Monte-Carlo-Baumsuche (MCTS).
3. OpenAI muss das Gesetz des Inferenz-Zeit-Scalings schon vor langer Zeit herausgefunden haben, was die Akademie erst kürzlich entdeckt hat. Zwei Arbeiten wurden letzten Monat eine Woche hintereinander auf Arxiv veröffentlicht: – Große Sprachaffen: Skalierung der Inferenzrechenleistung durch wiederholte Probenahme. Brown et al. stellt fest, dass DeepSeek-Coder von 15,9% mit einer Probe auf 56% mit 250 Proben auf SWE-Bench steigt und Sonnet-3.5 schlägt.
4.Produktionalisierung von o1 ist viel schwieriger als das Erreichen der akademischen Benchmarks bei Problemen in freier Wildbahn: Wie entscheidet man wann man mit der Suche aufhört? Was ist die Belohnungsfunktion? Erfolgskriterium? Wann ruft man Tools wie Codeinterpreter in der Schleife auf? Wie berücksichtigt man die Rechenkosten dieser CPU-Prozesse? Ihre Forschungsarbeit hat nicht viel geteilt.
5.Strawberry wird leicht zum Datenflügelrad.Wenn die Antwort richtig ist,wird der gesamte Suchverlauf zu einem Mini-Datensatz von Trainingsbeispielen,die sowohl positive als auch negative Belohnungen enthalten.Dies verbessert wiederum den Schlussfolgerungskern für zukünftige Versionen von GPT,auf ähnliche Weise,wie Alphagos Wertungsnetzwerk – verwendet,wird um Qualität jeder Brettposition zu bewerten – verbessert sich,während MCTS immer raffiniertere Trainingsdaten generiert.