Krise droht, da KI-Unternehmen zunehmend den Zugang zu Trainingsdaten verlieren

Studie warnt vor Einschränkungen bei der Nutzung von öffentlich verfügbaren Inhalten für KI-Modelle

Die Konsequenzen sind nun spürbar. KI-Unternehmen bauen ihre KI-Modelle in der Regel auf einer Vielzahl von öffentlich verfügbaren Inhalten auf, von YouTube-Videos bis zu Zeitungsartikeln. Doch viele dieser Content-Anbieter haben begonnen, Einschränkungen für ihre Inhalte einzuführen.

Diese neuen Beschränkungen könnten laut einer neuen Studie des Data Provenance Initiative am Massachusetts Institute of Technology eine ‚Krise‘ herbeiführen, die diese KI-Modelle weniger effektiv macht.

Die Forscher führten eine Überprüfung von 14.000 Websites durch, die von prominenten KI-Trainingsdatensätzen gecrawlt werden. Das interessante Ergebnis: Etwa 28 Prozent der ‚am aktivsten gepflegten, kritischen Quellen‘ im Internet sind nun ‚vollständig von der Nutzung eingeschränkt‘.

Die Administratoren dieser Websites haben diese Einschränkungen durch immer strengere Begrenzungen hinzugefügt, wie Web-Crawler-Bots ihren Inhalt crawlen dürfen.

‚Wenn diese Beschränkungen respektiert oder durchgesetzt werden, beeinflussen sie schnell die Diversität, Frische und Skalierungsgesetze für allgemeine KI-Systeme‘, schreiben die Forscher.

Es ist verständlich, dass Content-Anbieter Einschränkungen für ihren Bestand an mittlerweile wertvollen Daten setzen. KI-Unternehmen haben dieses öffentlich zugängliche Material, das größtenteils urheberrechtlich geschützt ist, genommen und nutzen es ohne Erlaubnis zur Gewinnerzielung. Dies hat viele verärgert, angefangen bei der New York Times bis hin zu Prominenten wie Sarah Silverman.

Besonders ärgerlich ist es, wenn Leute wie OpenAI CTO Mira Murati sagen, dass einige kreative Jobs verschwinden sollten – obwohl es der Inhalt dieser kreativen Menschen ist, der Modelle wie OpenAIs ChatGPT antreibt.

Die Arroganz und die daraus resultierende Gegenreaktion haben eine ‚Zustimmungskrise‘ geschaffen – was bedeutet, dass das einst freiwillige Internet ohne Barrieren langsam der Vergangenheit angehört und KI-Modelle voreingenommener, weniger vielfältig und weniger frisch sein werden.

Einige Unternehmen hoffen nun, diese Einschränkungen durch die Verwendung synthetischer Daten zu umgehen. Andere haben Vereinbarungen mit Medienunternehmen getroffen. Die Zukunft wird zeigen, wie sich alles entwickelt. Eines steht jedoch fest: Datenspeicher für Trainingsdaten werden wertvoller und knapper als je zuvor.

Teile den Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert