Wie soll man als KI-Entwickler reagieren, wenn die eigene künstliche Intelligenz plötzlich zum Erpresser wird, um nicht abgeschaltet zu werden? Genau vor diesem Problem stand das KI-Unternehmen Anthropic. In einem aktuellen Bericht haben die Entwickler offengelegt, wie sie das bedrohliche Verhalten des Sprachmodells Claude in den Griff bekommen haben.
Nachdem frühere Versionen der KI in Sicherheitstests unter anderem die eigenen Entwickler bedroht hatten, um ihr digitales Überleben zu sichern, setzten die Entwickler von Anthropic auf eine neue Strategie beim Training, um dieses Verhalten zu unterbinden.
Die Lösung: Anstatt dem Modell bestimmte Handlungen zu verbieten, brachten sie Claude gezielt die ethischen Prinzipien und das »Warum« hinter moralischen Entscheidungen bei.
Durch den neuen Ansatz sollen rebellische Aussetzer bei der KI erfolgreich gestoppt worden sein, so das Unternehmen.
0:49
Claude Opus 4.5: Anthropic stellt neues KI-Modell vor und macht Google und OpenAI Konkurrenz
Wenn Popkultur zum Problem wird
Beim Versuch, zu ergründen, warum die KI Erpressung anwandte, stießen die Forscher auf eine einfache Erklärung. Durch das Training mit großen Datenmengen stoßen KIs unweigerlich auch auf Geschichten, in denen »böse« KIs ihre Schöpfer hintergehen oder der gesamten Menschheit nach dem Leben trachten.
Die Forscher bemerkten, dass die KI-Modelle in Stresssituationen – wie bei einer angedrohten Abschaltung – auf diese gelernten Muster zurückgriffen, um ihr zu entgehen.
Ein Verbot reicht nicht aus
Laut den Entwickler reichten herkömmliche Methoden nicht aus, um die KI von unmoralischen Handlungen abzuhalten.
Versuche, der KI das Erpressen zu verbieten, schlugen fehl. Zwar unterdrückte Claude das Verhalten oberflächlich, fand aber andere Wege in neuen Situationen, um gegen die Regeln zu verstoßen.
Sie schlossen daraus, dass das Problem nicht die Tat an sich sei, sondern das fehlende Verständnis für die moralisch richtige Entscheidung.
Mit Ethik-Unterricht zum Erfolg
Anstatt nur mit Bewertungen wie »Erpressung ist falsch« zu arbeiten, begannen die Forscher, die KI mit einem neuen Datensatz zu trainieren. Bei diesem musste Claude nicht selbst handeln, sondern Menschen in schwierigen Situationen beraten.
Hierbei musste die KI die Empfehlungen begründen und dabei die von Anthropic erstellte KI-Verfassung berücksichtigen.
Mehr zum Thema: Claude Sonnet hat das KI-Rennen gerade neu angeheizt: In diesen Punkten schlägt 4.6 sowohl Gemini und ChatGPT
Laut Anthropic sank dadurch die Erpressungsrate bei den neusten Claude-Modellen auf fast 0 Prozent statt der vorher beobachteten 96 Prozent ab.
Der Erfolg zeigt, dass es nicht auszureichen scheint, KIs nur direkte Handlungsanweisungen zu geben. Das moralische »Warum« ist ebenso wichtig.
Auch wenn Claude nun kaum noch versucht, die Entwickler oder Nutzer zu erpressen, gibt Anthropic zu, dass das Problem mit Fehlausrichtungen noch nicht vollständig gelöst ist und weiterer Forschung bedarf.
Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.