Durchbruch in der Compute-Leistung: Neue Modelle übertreffen OpenAI GPT-4

Neue Modelle erreichen höhere Rechenleistung als bisheriger Spitzenreiter GPT-4

Bis Ende 2024 konnte niemand die Rechenleistung für ein einzelnes Modell massiv über das Niveau des OpenAI GPT-4-Modells hinaus erhöhen. Diese Information stammt aus einer Semi-Analyse und EIA. Google’s Gemini Ultra, Nvidia Nemotron 340B und Meta LLAMA 3 405B hatten eine ähnliche oder leicht höhere Rechenleistung als GPT-4, aber eine minderwertige Architektur wurde verwendet. Diese Modelle konnten keine neuen Fähigkeiten freischalten.

OpenAI’s Training BF16 FLOPS für GPT-4 betrug 21,5 Millionen ExaFLOPs auf ~20.000 A100s für 90 bis 100 Tage. Ein H100-Cluster mit 100.000 Knoten hat das 15-31-fache der Rechenleistung. Ein Trainingslauf eines 100.000 H100-Clusters für 100 Tage kann 600 Millionen ExaFLOPs erreichen.

Die Zuverlässigkeitsprobleme bei der Hardware reduzieren die effektive Rechenleistung auf 35% des theoretischen Niveaus. Um das Netzwerkdesign, die Topologie, Zuverlässigkeitsbedenken und Checkpointing-Strategien zu verstehen, müssen wir verstehen, wie LLM Daten verarbeiten und den Datenaustausch minimieren.

Datenparallelismus ist die einfachste Form des Parallelismus, bei dem jede GPU eine vollständige Kopie der Modellgewichte enthält und jedes GPU-Ranking einen anderen Datensubset erhält. Diese Art des Parallelismus hat das geringste Kommunikationsniveau, da nur die Gradienten zwischen jeder GPU summiert werden müssen (all reduce). Dies funktioniert nur, wenn jede GPU genügend Speicher hat, um die gesamten Modellgewichte, Aktivierungen und Optimizer-Zustände zu speichern.

Tensorparallelismus reduziert den Gesamtspeicher pro GPU um die Anzahl der Tensorparallelitätsränge. Mit Pipeline-Parallelismus hat jede GPU nur einen Teil der Schichten und führt nur die Berechnung für diese Schicht durch und gibt das Ergebnis an die nächste GPU weiter.

Teile den Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert