Frankenstein hat Hunger: Wenn KI mit KI-generierten Daten trainiert wird, beginnt sie wirres Zeug zu reden

Was passiert, wenn man KI-generierte Inhalte zurück in ein KI-Modell einspeist? Absolute Chaos entsteht. Eine neue Studie in Nature zeigt, dass KI-Modelle, die auf solchem Material trainiert sind, rasch ‚zusammenbrechen‘. Die Ausgaben werden immer bizarrer und unsinniger.

Die Ergebnisse der Studie verdeutlichen erneut, wie empfindlich KI-Modelle auf ihre Trainingsdaten reagieren und welche schwerwiegenden Folgen es haben kann, wenn KI-generierte Inhalte in diese Datensätze gelangen. Es wird deutlich, dass hochwertige menschliche Materialien für das Training von entscheidender Bedeutung sind.

Das Team der Studie verwendete ein vortrainiertes großes Sprachmodell (LLM), das mit einem HuggingFace-Datensatz kalibriert wurde. Die Forscher führten eine Reihe von Generationen durch und speisten jedes Mal die Ausgabe der KI zurück in den Trainingsdatensatz.

Die Ergebnisse waren bemerkenswert. Ein Anstoß über Gebäude in Somerset, England – der Text stammte von einer Nischen-Wikipedia-Seite – lieferte zunächst eine relativ normale Antwort. Doch nach neun Iterationen war die Antwort des Modells total wirres Zeug über… Hasenschwänze.

Der Prozess des Zusammenbruchs des Modells ist eigentlich recht einfach. Ein KI-System hat nur Zugriff auf die ihm bereitgestellten Daten; mehr originale menschengemachte Daten bedeuten im Allgemeinen ein besser funktionierendes generatives KI-System.

Die Studie hebt auch die Unsicherheit hervor, die sich aus der zunehmenden Menge an KI-generierten Inhalten im Internet ergibt und wie dies die Nachhaltigkeit des Web-Scrapings beeinflusst. Es wird immer schwieriger zu unterscheiden, ob Inhalte von Menschen oder von AI erstellt wurden.

Ein Silberstreif für KI-Unternehmen ist jedoch, dass der Zusammenbruch des Modells verlangsamt werden kann, indem mehr originale menschliche Daten in den Trainingsdatensatz eingebracht werden. Dennoch bleibt festzuhalten: KI-Modelle sind hungrig und benötigen hochwertige und originale Daten.