Cerebras revolutioniert KI-Inferenz mit superschnellen AI-Chips

Cerebras stellt Llama3.1-70B vor: 450 Token/s und 20x schneller als GPUs

Cerebras ist ein Startup, das KI-Chips in Wafer-Größe herstellt. Sie entwickeln ein Rechenzentrum mit diesen AI-Wafer-Chips, um superschnelle KI-Inferenz bereitzustellen. Im Gegensatz dazu nutzt Nvidia seine KI-Inferenzchips für Multi-Tasking, um mehr Menschen bei der KI-Inferenz zu unterstützen.

Ein Cluster von Nvidias H200s ist darauf ausgelegt, KI-Antworten gleichzeitig an Tausende von Personen zu liefern. Mit 60-90 Tokens pro Sekunde ist dies schneller als die meisten Menschen lesen können. Computerprogramme können jedoch Ergebnisse schneller liefern, als wir sie lesen können. Es wird angenommen, dass wir ein Ergebnis aus einer Google-Suche scannen könnten, um die gewünschten Informationen zu erhalten.

Es ist also wertvoll, KI-Inferenzergebnisse mit einer höheren Token pro Sekunde-Geschwindigkeit zu erhalten. Man könnte sich eine Zukunft vorstellen, in der diese Geschwindigkeit genutzt wird, um immer eine schnelle nützliche Zusammenfassung darüber bereitzustellen, wie die Antwort geliefert werden könnte und um schnell eine Ausarbeitung und Details zu ermöglichen, wo gewünscht, basierend auf schneller menschlicher Interaktion.

Cerebras stellt den Llama3.1-70B bei 450 Token/s vor – 20-mal schneller als GPUs. Mit einem Preis von 60 Cent pro M Tokens ist er ein Fünftel des Preises von Hyperscalern. Die volle 16-Bit-Präzision sorgt für volle Modellgenauigkeit und großzügige Rate-Limits für Entwickler.

Jetzt ausprobieren

Teile den Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert