Die Algorithmen hinter Chatbots wie ChatGPT lernen, menschenähnliche Inhalte zu erstellen, indem sie Terabyte an Online-Artikeln, Reddit-Beiträgen, TikTok-Bildunterschriften oder YouTube-Kommentaren durchsuchen. Sie finden komplexe Muster im Text und geben dann Suchzusammenfassungen, Artikel, Bilder und andere Inhalte aus. Damit die Modelle anspruchsvoller werden, müssen sie neue Inhalte erfassen. Aber je mehr Menschen sie nutzen, um Texte zu generieren und dann die Ergebnisse online zu posten, desto wahrscheinlicher ist es, dass die Algorithmen beginnen, von ihren eigenen Ausgaben zu lernen, die nun im Internet verstreut sind. Das ist ein Problem.
Eine Studie in Nature hat diese Woche herausgefunden, dass ein textbasiertes generatives KI-Algorithmus bei intensivem Training mit KI-generierten Inhalten nach nur wenigen Trainingszyklen völligen Unsinn produziert. „Die Verbreitung von KI-generierten Inhalten online könnte für die Modelle selbst verheerend sein“, schrieb Dr. Emily Wenger von der Duke University, die nicht an der Studie beteiligt war.
Obwohl sich die Studie auf Texte konzentrierte, könnten die Ergebnisse auch multimodale KI-Modelle beeinflussen. Diese Modelle stützen sich ebenfalls auf Online-Daten zum Generieren von Texten, Bildern oder Videos. Das letztendliche Ende könnte ein Modellzusammenbruch sein, bei dem KI zunehmend mit Daten überflutet wird, die von KI erzeugt wurden und nur noch zusammenhanglose Nonsens produziert.
…