Ein riesiger Datensatz von YouTube-Untertiteln wurde ohne Erlaubnis der Zehntausenden von Erstellern verwendet, um unzählige KI-Modelle zu trainieren. Laut einer neuen Untersuchung wurde der Datensatz namens ‚YouTube Untertitel‘ seit seiner Veröffentlichung im Jahr 2020 von Unternehmen wie Apple, Anthropic, Nvidia und Salesforce genutzt, um KI-Modelle zu schulen. Der Datensatz enthält Untertiteldaten von 173.536 Videos aus über 48.000 Kanälen, darunter bekannte Namen wie MIT, Harvard, MrBeast und die BBC.
Keiner der Kanalbesitzer wurde im Voraus darüber informiert, dass ihre Untertitel in den Datensatz aufgenommen wurden. Ein betroffener Schöpfer, der progressive Vlogger David Pakman, war verärgert, als er erfuhr, dass seine Videos Teil des Datensatzes waren. Andere Kreative äußerten Bedenken über die Nutzung ihrer Arbeit ohne Zustimmung und mögliche Auswirkungen auf ihre Existenzgrundlage.
Laut AI-Politikforscher Jai Vipra ist der ‚YouTube Untertitel‘-Datensatz eine ‚Goldgrube‘, da er Modellen beibringen kann, menschliche Sprache zu replizieren. Dennoch gibt es Bedenken über die ethische Verantwortung gegenüber den Erstellern und die Notwendigkeit einer angemessenen Entschädigung.
Nachdem Google und andere Unternehmen kontaktiert wurden, äußerte sich nur ein Google-Sprecher öffentlich dazu. Es bleibt abzuwarten, wie dieser Skandal um den unbefugten Datenzugriff auf YouTube-Inhalte gelöst werden kann.