Das Magazin der Zukunft - Kostenlos, Futuristisch, Genial.
Das Ende des Datenfutters: Künstliche Intelligenz steht vor einer Herausforderung

Forscher schlagen Alarm und warnen davor, dass Unternehmen wie OpenAI und Google schnell an menschlich verfassten Trainingsdaten für ihre KI-Modelle zu knapp werden.
Ohne neue Trainingsdaten ist es wahrscheinlich, dass die Modelle nicht intelligenter werden können, ein Wendepunkt für die aufstrebende KI-Branche.
Es ist eine existenzielle Bedrohung für KI-Tools, die sich darauf verlassen, ausgiebig von Daten zu profitieren, die oft willkürlich aus öffentlich verfügbaren Archiven im Internet stammen.
Die kontroverse Praxis hat bereits dazu geführt, dass Verlage wie die New York Times OpenAI wegen Urheberrechtsverletzungen verklagen, weil sie ihr Material zur Schulung von KI-Modellen verwendet haben.
Die neueste Studie von Forschern des in San Francisco ansässigen Think Tanks Epoch legt nahe, dass die Menge der Textdaten, auf denen KI-Modelle trainiert werden, etwa 2,5-mal pro Jahr wächst. Die Rechenleistung hat das jedoch erheblich übertroffen und wächst viermal im Jahr.
Extrapolieren auf einem Diagramm bedeutet dies, dass große Sprachmodelle wie Metas Llama 3 oder OpenAIs GPT-4 laut den Forschern bereits bis 2026 vollständig ohne frische Daten auskommen könnten.
Sobald KI-Unternehmen tatsächlich keine Trainingsdaten mehr haben – etwas, was auch von anderen Forschern vorhergesagt wurde – werden sie wahrscheinlich versuchen, ihre großen Sprachmodelle stattdessen mit KI-generierten Daten zu trainieren. Unternehmen wie OpenAI, Google und Anthropic arbeiten bereits an Möglichkeiten zur Erzeugung von ’synthetischen Daten‘ zu diesem Zweck.
Ob dies tatsächlich ein Problem darstellen wird, bleibt jedoch Gegenstand der Debatte. Es ist möglich, dass KI-Algorithmen selbst effizienter werden und bessere Ergebnisse mit weniger Trainingsdaten oder Rechenleistung liefern können.