Anthropic hat sein neuestes KI-Modell Claude 3.7 Sonnet auf eine Mission geschickt, die viele von euch bestimmt als Kinder bestritten haben: das Durchspielen von Pokémon Rot auf dem Game Boy.
Die Ergebnisse zeigen teilweise enorme Fortschritte im Vergleich zu vorherigen Claude-Modellen, aber auch diverse Schwächen.
Claude kämpft sich durch die Pokémon-Welt
Seit Ende Februar 2025 versucht die KI Claude, entwickelt vom KI-Unternehmen Anthropic, Pokémon zu spielen. Das sind mittlerweile knapp tausend Stunden.
Das Experiment mit dem Namen Claude Plays Pokémon
wird live auf Twitch übertragen und hat bereits tausende Zuschauer angelockt.
Anders als spezialisierte Spieler-KIs wie die für Go oder Dota 2 entwickelten Systeme wurde Claude nicht speziell für Videospiele trainiert.
Was das Experiment besonders macht:
- Claude nutzt nur seine allgemeinen Kenntnisse über die Welt und Pokémon
- Die KI
sieht
das Spiel über Screenshots, ähnlich wie ein Mensch - Das System wurde vorher nicht auf Pokémon-Spiele trainiert
David Hershey, Entwickler bei Anthropic und verantwortlich für das Projekt, erklärt im Interview mit Ars Technica:
Es nutzt nur das verschiedene Wissen, das Claude über die Welt hat, angewendet auf Videospiele.
Link zum Twitter-Inhalt
Überraschende Fortschritte und herbe Rückschläge
Im Vergleich zu älteren Claude-Versionen, die es kaum aus dem Startgebiet geschafft haben, konnte Claude 3.7 Sonnet bereits mehrere Arenaleiter besiegen und Orden sammeln. Zum aktuellen Zeitpunkt (06. April 2025) hat die KI die ersten drei Arenaorden erworben.
Laut Anthropic liegt der Durchbruch im neuen Extended Thinking
-Modus, der es dem Modell ermöglicht, vorauszuplanen, sich an Ziele zu erinnern und sich anzupassen, wenn anfängliche Strategien scheitern
.
Doch wenn ihr den Livestream verfolgt, seht ihr auch die Grenzen: Claude hat enorme Schwierigkeiten mit der Navigation durch die 2D-Spielwelt. Besonders der Mondberg hat eine massive Herausforderung dargestellt.
Häufige Probleme:
- Stundenlange Irrwege in bereits abgeschlossenen Gebieten
- Wiederholtes Festlaufen in Sackgassen
- Endlose Gespräche mit denselben NPCs
- Schwierigkeiten beim Erkennen von Wänden und Hindernissen
Das neueste Problem entstand allerdings durch das Erwerben des Fahrrads, denn die Spielfigur bewegt sich damit stets zwei Felder gleichzeitig. Das stellt für die KI ein großes Problem dar, da sie bisher nur einfache Schritte kannte.
Mensch und KI: die Schwächen unterscheiden sich
Interessanterweise zeigt Claude unterschiedliche Stärken und Schwächen und ganz andere als ein menschlicher Spieler. Während die pixelige Darstellung des Game Boys für Menschen leicht zu interpretieren ist, stellt sie für die KI eine große Herausforderung dar, so Hershey:
Claude ist immer noch nicht besonders gut darin zu verstehen, was überhaupt auf dem Bildschirm ist. Es ist eines dieser lustigen Dinge bei Menschen, dass wir auf diese 8x8-Pixel-Flecken von Personen schauen und sagen können: 'Das ist ein Mädchen mit blauen Haaren'.
Überraschend stark ist Claude dagegen beim Verständnis der Spielmechaniken und bei textbasierten Herausforderungen:
- Erkennen von Pokémon-Typen und deren Schwächen
- Aufbau von effektiven Kampfstrategien
- Erfassen und Speichern von Spielhinweisen
- Entwickeln langfristiger Team-Strategien
Das Gedächtnisproblem
Ein weiteres grundlegendes Problem: Claudes begrenzte Erinnerung
. Die KI hat ein Kontextfenster von 200.000 Token, was bedeutet, dass ältere Informationen zusammengefasst oder gelöscht werden müssen, wenn neue hinzukommen.
Claude hat Schwierigkeiten, Dinge über einen sehr langen Zeitraum zu verfolgen und wirklich ein gutes Gefühl dafür zu haben, was es bisher versucht hat
Dabei scheinen falsche Informationen, die sich die KI notiert hat, ein großes Problem zu sein.
Die Dinge, die in der Vergangenheit aufgeschrieben wurden, vertraut es ziemlich blind.
44:19
»Künstliche Intelligenz ist die neue Elektrizität« - Wir busten mit einem Experten 5 Mythen zu KI
Dieses Problem ist gut sichtbar, wenn ihr in nächster Zeit den Stream anschaut, denn obwohl die KI schon drei Orden erworben hat und den Mondberg eigentlich schon bezwungen hat, steht sie gerade auf der Route vor dem Mondberg und versucht wieder einen Weg zum und durch den Berg zu finden.
Das oben erwähnte Fahrrad bereitet der KI allerdings zusätzliche Schwierigkeiten.
Könnte sich die KI besser merken, was sie bereits versucht oder geschafft hat, hätte sie sich bereits dutzende Stunden gespart.
Was bedeutet das für die Zukunft der KI?
Trotz der unterhaltsamen Momente, wenn Claude gegen Spielmechaniken kämpft, die für Kinder der 90er Jahre erdacht wurden, sieht Hershey das Experiment als wichtigen Wegweiser für die KI-Entwicklung.
Der Unterschied zwischen 'kann es überhaupt nicht' und 'kann es irgendwie' ist für mich bei diesen KI-Dingen ziemlich groß. Wenn etwas es irgendwie tun kann, bedeutet das typischerweise, dass wir ziemlich nahe daran sind, es dazu zu bringen, etwas wirklich, wirklich gut zu können.
Für die Zukunft sieht er großes Potenzial bei der Verbesserung des Bildverständnisses und eine Erweiterung des Kontextfensters, die es kommenden Modellen ermöglichen würde, über längere Zeiträume zu argumentieren und Dinge über einen langen Zeitraum kohärenter zu handhaben
.
Noch kein AGI in Sicht?
Während führende KI-Unternehmen wie OpenAI und Anthropic selbst von einer nahenden Artificial General Intelligence
(AGI) sprechen - einer KI, die menschenähnliche Fähigkeiten in nahezu allen denkbaren Bereichen erreicht - zeigt das Experiment auch, wie weit wir davon noch entfernt sein könnten.
Claude kämpft immer noch mit Aufgaben, die für Menschen kein Problem darstellen, während es in anderen Bereichen überraschend fähig ist. Für die Entwicklung einer richtigen AGI könnte gerade die Kombination von räumlichem Verständnis bis zur Gedächtnisbildung entscheidend sein.

Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.