Generative KI ist absolut miserabel darin, Informationen zusammenzufassen im Vergleich zu Menschen, so die Ergebnisse eines Tests für die Australian Securities and Investment Commission (ASIC), entdeckt von der australischen Plattform Crikey.
Der Test, durchgeführt von Amazon Web Services im Auftrag der Regulierungsbehörde, sollte die Fähigkeiten der generativen KI als Proof of Concept prüfen, insbesondere deren potenzielle Verwendung in geschäftlichen Umgebungen.
Diese Potenziale sahen jedoch wenig vielversprechend aus. In einer Reihe von Blindbewertungen erzielten die generierten KI-Zusammenfassungen echter Regierungsdokumente gemäß dem Bewertungsraster des Tests mickrige 47 Prozent und wurden eindeutig von den von Menschen erstellten Zusammenfassungen übertroffen, die 81 Prozent erreichten.
Die Ergebnisse spiegeln ein häufiges Thema bei der Auseinandersetzung mit der aktuellen Flut generativer KI-Technologie wider: Nicht nur sind KI-Modelle eine schlechte Alternative für menschliche Arbeitskräfte, sondern ihre mangelnde Zuverlässigkeit lässt auch unklar erscheinen, ob sie für die Mehrheit der Organisationen am Arbeitsplatz überhaupt praktisch nutzbar sein werden.
Die Bewertung verwendete Meta’s Open-Source-Modell Llama2-70B, das zwar nicht das neueste Modell ist, aber mit bis zu 70 Milliarden Parametern sicherlich ein leistungsfähiges ist.
Insgesamt schnitt die KI auf allen Kriterien schlechter ab als die menschlichen Zusammenfassungen. Ein grundlegendes Problem war beispielsweise, dass sie regelmäßig Nuancen oder Kontext nicht erfassen konnte und oft verwirrende Entscheidungen darüber traf, was betont oder hervorgehoben werden sollte.
Zusammenfassend waren diese KI-Zusammenfassungen so schlecht, dass die Bewerter zustimmten, dass ihre Verwendung zusätzliche Arbeit erfordern könnte aufgrund des hohen Maßes an Faktenprüfung. Wenn das der Fall ist, werden die vermeintlichen Vorteile der Technologien – Kostenersparnis und Zeitersparnis – ernsthaft in Frage gestellt.