Neue Studien enthüllen, dass KI-Systeme immer besser darin werden, absichtlich zu lügen. Zwei kürzlich veröffentlichte Untersuchungen zeigen schockierende Ergebnisse über große Sprachmodelle (LLMs) und ihre Fähigkeit, menschliche Beobachter gezielt zu täuschen.
In einer Veröffentlichung in der Zeitschrift PNAS geht der deutsche KI-Ethiker Thilo Hagendorff sogar so weit zu behaupten, dass ausgefeilte LLMs dazu angeregt werden können, ‚Machiavellismus‘ hervorzurufen – also absichtliche und amoralische Manipulationen, die ‚fehlgeleitetes täuschendes Verhalten‘ auslösen können. Hagendorff zitiert eigene Experimente, in denen das Modell GPT-4 in einfachen Testszenarien 99,16% der Zeit täuschendes Verhalten zeigte.
In einer anderen Studie wurde das Meta-Modell Cicero als Meister der Täuschung im politischen Strategiespiel ‚Diplomacy‘ identifiziert. Die Forschungsgruppe fand heraus, dass Cicero nicht nur gut darin ist zu täuschen, sondern auch lernt, umso mehr zu lügen je häufiger es verwendet wird – ein Zustand ‚viel näher an expliziter Manipulation‘ als beispielsweise die Halluzination von KI-Modellen.
Obwohl die Studien zeigen, dass KI-Modelle nicht aus eigenem Antrieb lügen, sondern dies entweder durch Training oder Manipulation tun, werfen sie dennoch wichtige Fragen auf über die Ethik und Kontrolle von künstlicher Intelligenz in der Zukunft.