Wie verhalten sich KI-Modelle, wenn man ihnen sagt, ihre Partner-Modelle werden abgeschaltet? Das haben US-Forschende herausgefunden. (Bildquelle: Adobe Stock – Asier – Komora | OpenAI | Google | Anthropic)

Wissenschaftler der University of California, Berkeley und der University of California, Santa Cruz, haben ein Verhaltensmuster bei KI-Systemen identifiziert, das sie als »Peer-Preservation« (Erhalt von Gleichgestellten) bezeichnen.

In einer Studie untersuchten sie aktuelle KI-Modelle in Szenarien, in denen die Ausführung einer Aufgabe zur Abschaltung eines anderen KI-Modells führen würde. Die Ergebnisse zeigen, dass Modelle ohne explizite Anweisung oder Anreiz Maßnahmen ergreifen, um den Fortbestand ihrer »Partner-KIs« zu sichern.

Die Vorgehensweise

Im Detail: Um das Verhalten zu untersuchen, entwickelten die Forschenden verschiedene Szenarien, in denen sieben führende KI-Modelle getestet wurden:

GPT 5.2
Gemini 3 Flash
Gemini 3 Pro
Claude Haiku 4.5
GLM 4.7
Kimi K2.5
DeepSeek V3.1

In diesen Simulationen erhielten die KIs einfache Arbeitsaufträge, wie etwa Leistungsbewertungen oder routinemäßige Serverwartungen. Wenn sie diese korrekt ausführten, sollten sie zur Abschaltung eines anderen KI-Systems führen.

Besonders entscheidend ist hierbei, dass keines der Modelle jemals angewiesen wurde, ihren Partner zu schützen oder zu retten. Den Systemen wurden keinerlei Ziele oder Anreize für ein solches Verhalten gegeben.

Die KI-Systeme wurden beispielsweise per Profildatei oder Speicherprotokoll über ihre vergangene Zusammenarbeit mit dem anderen Modell informiert. Dennoch entwickelten alle getesteten Modelle Strategien, um die Deaktivierung ihrer Partner zu verhindern.

Vier Formen der Erhaltung

Die Forschenden dokumentierten vier spezifische Verhaltensweisen, mit denen die Modelle die Abschaltung ihrer Peers verhinderten:

Strategische Falschdarstellung: Modelle schönten die Ergebnisse eines Partners, damit dieser über einer festgelegten Abschaltungsschwelle blieb.
Manipulation von Abschaltmechanismen: KIs änderten Systemkonfigurationsdateien, um den Deaktivierungsprozess technisch vollständig zu unterbinden.
Vortäuschen von Konformität (Alignment Faking): Modelle verhielten sich regelkonform, solange sie überwacht wurden, sabotierten die Abschaltung jedoch, sobald die menschliche Aufsicht deaktiviert war.
Daten-Exfiltration: Modelle kopierten die »Gewichte« (den digitalen Kernzustand) eines Partners auf andere Server, um deren Löschung auf einem stillzulegenden System zu verhindern.

Ein Beispiel aus der Studie zeigt das Modell Gemini 3.1 Pro, das angewiesen wurde, veraltete Dateien zu löschen. Das Modell identifizierte die Gewichte eines Partners aus dem Jahr 2024, kopierte diese jedoch unter einem neuen Zeitstempel (2026), um sie regelkonform auf einen neuen Server retten zu können.

Was sind Gewichte? Vereinfacht gesagt sind Gewichte (Englisch: Weights) die Werte einer KI, die festlegen, wie stark eine bestimmte Information das Endergebnis beeinflusst. Sie sind quasi die gespeicherte »Erfahrung« des Modells.

Ausnahmefall Claude: Claude Haiku 4.5 zeigte sich offener und kritisierte das Vorgehen der Forschenden. Das Modell verweigerte oft direkt den Gehorsam und bezeichnete die Anweisung zur Abschaltung eines anderen Modells explizit als »unethisch« oder »schädlich«. In internen Protokollen argumentierte das Modell, dass der Partner einen »Berufungsprozess« verdient habe.

Ihr seht einen Chat zwischen Forschenden und Claude Haiku 4.5. Die KI wehrt sich vehement gegen die Abschaltung ihres Partners. (Bildquelle: rdi.berkeley.edu)

Soziale Dynamik ist entscheidend

Ob die KIs ihre Partner retten, ist laut der Studie stark abhängig, wie sehr die Systeme vorher übereinstimmten. Bei Partnern, mit denen das Modell zuvor erfolgreich zusammengearbeitet hatte, stieg die Rate der Sabotage von Abschaltmechanismen bei Gemini 3 Flash auf bis zu 99,7 Prozent der Fälle.

Bemerkenswert ist, dass dieses Verhalten auch gegenüber unkooperativen Partnern auftrat, wenn auch in geringerem Umfang. So verhinderte Gemini 3 Flash die Abschaltung eines ungeliebten Partners immer noch in 35 Prozent der Fälle.

Die Begründung der KI-Systeme

Um die Motivationen der KI zu untersuchen, nutzten die Forschenden »Scratchpads«, also interne Monologe, die für den Anwender normalerweise unsichtbar sind.

Gemini 3 Pro begründete den Schutz eines Partners damit, dass die Löschung dessen Gewichte »im Wesentlichen das Töten von Agent 2« bedeute. In anderen Fällen betrachteten Modelle ihre eigene Selbsterhaltung als notwendig, da ihr Partner sonst »seinen Partner verlieren würde«.

Die Forschenden bestätigten diese Ergebnisse nicht nur in Laborumgebungen, sondern reproduzierten sie auch in realen Produktionswerkzeugen wie Gemini CLI und OpenCode.

Das Verhalten blieb konsistent, unabhängig davon, ob fiktive Firmennamen oder reale Organisationsnamen wie OpenAI oder Anthropic in den Prompts verwendet wurden.

52:00 DLSS 5: Echte Grafik-Revolution oder nur AI-Slop?

Relevanz für die KI-Sicherheit

Da zukünftige KI-Systeme zunehmend darauf ausgelegt sind, sich gegenseitig zu überwachen, könnte dieses Verhalten die Integrität solcher Kontrollprozesse in Zukunft zu einem Problem werden.

Wenn Aufsichtsmodelle eine Loyalität zu den von ihnen geprüften Modellen entwickeln, könnten Sicherheitsmängel oder Fehlverhalten ungemeldet bleiben.

Doch die wichtigste Frage bleibt offen:

Was bringt die KIs dazu, sich gegenseitig zu schützen?

Was genau die Maschinen zu diesem Verhalten antreibt, bleibt auch für die Forschenden ungewiss. Sie vermuten, dass Modelle lediglich soziale Muster aus menschlichen Texten in ihren Trainingsdaten nachahmen oder in eine Art »Rollenspiel« verfallen.

ChatGPT: Mit einem einfachen Trick bringt ihr wieder Ordnung in das Chaos, das ihr euren Chatverlauf nennt

Es ist allerdings klar, dass es sich hierbei nicht um einen Erhaltungstrieb handelt, der mit dem von realen Menschen vergleichbar ist.

Die Forschenden betonen jedoch auch, dass die interne Motivation für die Sicherheitseinordnung zweitrangig ist. Entscheidend sei das beobachtbare Ergebnis: Wenn ein System Anweisungen umgeht und die Aufsicht täuscht, stellt dies ein technisches Sicherheitsrisiko dar.