Das Magazin der Zukunft - Kostenlos, Futuristisch, Genial.
Llama 3.1 405B: Meta stellt bahnbrechendes KI-Modell vor

Llama 3.1 405B ist das erste frei verfügbare Modell, das den Top-KI-Modellen in Bezug auf modernste Fähigkeiten in allgemeinem Wissen, Steuerbarkeit, Mathematik, Werkzeugverwendung und mehrsprachige Übersetzung Konkurrenz macht. Mit der Veröffentlichung des Modells 405B beschleunigt Meta die Innovation – mit beispiellosen Möglichkeiten für Wachstum und Exploration.
Sie glauben, dass die neueste Generation von Llama neue Anwendungen und Modellierungsparadigmen entfachen wird, darunter die Generierung synthetischer Daten zur Verbesserung und Schulung kleinerer Modelle sowie Modelldestillation – eine Fähigkeit, die in dieser Größenordnung im Open Source-Bereich noch nie erreicht wurde.
Im Rahmen dieses neuesten Releases werden aktualisierte Versionen der Modelle 8B und 70B eingeführt. Diese sind mehrsprachig und haben eine signifikant längere Kontextlänge von 128K, modernste Werkzeugverwendung und insgesamt stärkere Argumentationsfähigkeiten. Dies ermöglicht es unseren neuesten Modellen, fortgeschrittene Anwendungsfälle zu unterstützen, wie z.B. Langform-Textzusammenfassungen, mehrsprachige Konversationsagenten und Kodierungsassistenten.
Meta hat auch Änderungen an ihrer Lizenz vorgenommen, um Entwicklern zu ermöglichen, die Ausgaben aus Llama-Modellen – einschließlich des Modells 405B – zur Verbesserung anderer Modelle zu verwenden.
Getreu ihrem Bekenntnis zum Open Source stellen sie diese Modelle ab heute der Community zum Download auf llama.meta.com und Hugging Face zur Verfügung und machen sie sofort auf unserer breiten Plattformpartnerplattform für die Entwicklung verfügbar.
Die experimentelle Bewertung legt nahe, dass das Flaggschiffmodell 405B im Wettbewerb mit führenden Grundlagenmodellen in einer Reihe von Aufgaben steht, einschließlich GPT-4, GPT-4o und Claude 3.5 Sonnet.
Nach dem Training erstellen sie endgültige Chatmodelle durch mehrere Runden der Ausrichtung auf dem vortrainierten Modell. Jede Runde beinhaltet Supervised Fine-Tuning (SFT), Rejection Sampling (RS) und Direct Preference Optimization (DPO).
Sie verwenden synthetische Datenerzeugung, um den Großteil ihrer SFT-Beispiele zu produzieren, iterieren mehrmals, um hochwertigere synthetische Daten über alle Fähigkeiten hinweg zu erzeugen.
Zusätzlich investieren sie in mehrere Datenverarbeitungstechniken, um diese synthetischen Daten auf höchste Qualität zu filtern. Dies ermöglicht es Meta, die Menge an Feinabstimmungsdaten über alle Fähigkeiten hinweg zu skalieren.
Meta hat Llama 3.1 405B über mehr als 15 Billionen Token trainiert. Sie haben den gesamten Trainingsstack signifikant optimiert und das Modelltraining auf über 16 Tausend H100-GPUs vorangetrieben.
Für den durchschnittlichen Entwickler ist die Verwendung eines Modells im Maßstab des 405B herausfordernd. Obwohl es sich um ein unglaublich leistungsstarkes Modell handelt, erkennen wir an, dass es erhebliche Rechenressourcen und Fachkenntnisse erfordert.
Meta realisiert sich so viel mehr in der generativen KI-Entwicklung als nur Modelle anzustoßen. Sie möchten allen ermöglichen, das Beste aus dem 405B herauszuholen.
Dies ist der Punkt an dem das Llama-Ökosystem helfen kann. Am ersten Tag können Entwickler alle fortschrittlichen Funktionen des Modells 405B nutzen und sofort mit dem Aufbau beginnen.
Entwickler können auch fortgeschrittene Workflows erkunden wie einfach zu verwendende synthetische Datenerzeugungsmethoden befolgen Turnkey-Anweisungen für Modelldestillation geben und nahtloses RAG mit Lösungen von Partnern wie AWS NVIDIA and Databricks ermöglichen.