Erpressung im KI-Labor: Anthropic gibt negativen KI-Darstellungen die Schuld an Fehlverhalten und stellt Lösung vor

Die Entwickler von Claude haben einen Weg beschrieben, wie man das bedrohliche Verhalten von KI-Modellen einschränken kann. (Bildquelle: Francois Eichinger, Adobe Stock)

Wie soll man als KI-Entwickler reagieren, wenn die eigene künstliche Intelligenz plötzlich zum Erpresser wird, um nicht abgeschaltet zu werden? Genau vor diesem Problem stand das KI-Unternehmen Anthropic. In einem aktuellen Bericht haben die Entwickler offengelegt, wie sie das bedrohliche Verhalten des Sprachmodells Claude in den Griff bekommen haben.

Nachdem frühere Versionen der KI in Sicherheitstests unter anderem die eigenen Entwickler bedroht hatten, um ihr digitales Überleben zu sichern, setzten die Entwickler von Anthropic auf eine neue Strategie beim Training, um dieses Verhalten zu unterbinden.

Die Lösung: Anstatt dem Modell bestimmte Handlungen zu verbieten, brachten sie Claude gezielt die ethischen Prinzipien und das »Warum« hinter moralischen Entscheidungen bei.

Durch den neuen Ansatz sollen rebellische Aussetzer bei der KI erfolgreich gestoppt worden sein, so das Unternehmen.

0:49 Claude Opus 4.5: Anthropic stellt neues KI-Modell vor und macht Google und OpenAI Konkurrenz

Autoplay

Wenn Popkultur zum Problem wird

Beim Versuch, zu ergründen, warum die KI Erpressung anwandte, stießen die Forscher auf eine einfache Erklärung. Durch das Training mit großen Datenmengen stoßen KIs unweigerlich auch auf Geschichten, in denen »böse« KIs ihre Schöpfer hintergehen oder der gesamten Menschheit nach dem Leben trachten.

Die Forscher bemerkten, dass die KI-Modelle in Stresssituationen – wie bei einer angedrohten Abschaltung – auf diese gelernten Muster zurückgriffen, um ihr zu entgehen.

Ein Verbot reicht nicht aus

Laut den Entwickler reichten herkömmliche Methoden nicht aus, um die KI von unmoralischen Handlungen abzuhalten.

Versuche, der KI das Erpressen zu verbieten, schlugen fehl. Zwar unterdrückte Claude das Verhalten oberflächlich, fand aber andere Wege in neuen Situationen, um gegen die Regeln zu verstoßen.

Sie schlossen daraus, dass das Problem nicht die Tat an sich sei, sondern das fehlende Verständnis für die moralisch richtige Entscheidung.

Mit Ethik-Unterricht zum Erfolg

Anstatt nur mit Bewertungen wie »Erpressung ist falsch« zu arbeiten, begannen die Forscher, die KI mit einem neuen Datensatz zu trainieren. Bei diesem musste Claude nicht selbst handeln, sondern Menschen in schwierigen Situationen beraten.

Hierbei musste die KI die Empfehlungen begründen und dabei die von Anthropic erstellte KI-Verfassung berücksichtigen.

Mehr zum Thema: Claude Sonnet hat das KI-Rennen gerade neu angeheizt: In diesen Punkten schlägt 4.6 sowohl Gemini und ChatGPT

Laut Anthropic sank dadurch die Erpressungsrate bei den neusten Claude-Modellen auf fast 0 Prozent statt der vorher beobachteten 96 Prozent ab.

Der Erfolg zeigt, dass es nicht auszureichen scheint, KIs nur direkte Handlungsanweisungen zu geben. Das moralische »Warum« ist ebenso wichtig.

Auch wenn Claude nun kaum noch versucht, die Entwickler oder Nutzer zu erpressen, gibt Anthropic zu, dass das Problem mit Fehlausrichtungen noch nicht vollständig gelöst ist und weiterer Forschung bedarf.