Länger als ein Jahr spielt eine KI nun Pokémon Rot. Heute hat sie zwar das Fahrrad, aber noch keinen Plan

So lange habt ihr damals wohl nicht gebraucht, doch die KI wird besser und besser. (Bild: Game Freak | KI-generiert mit Adobe Firefly)

Anthropic hat sein KI-Modell Claude 3.7 Sonnet im Februar 2025 auf eine Mission geschickt, die viele von euch bestimmt als Kinder bestritten haben: das Durchspielen von Pokémon Rot auf dem Game Boy.

Heute wird mit dem brandneuen Claude Opus 4.7 (Release im April 2026) gespielt. Die Ergebnisse sind zwar beeindruckender, aber die KI dreht sich – teilweise wörtlich – immer noch im Kreis.

Der Stand der Dinge: 14 Monate Frust und Freude

Seit dem Start vor 14 Monaten hat Claude enorme Fortschritte gemacht, aber die Mauer im Kopf bleibt.

Damals (April 2025): Claude 3.7 scheiterte fast am Fahrrad und der doppelten Schrittgeschwindigkeit.
Heute (April 2026): Claude Opus 4.7 nutzt zwar ein massives Multimodal Thinking-Fenster, um Screenshots besser zu interpretieren, doch das Looping-Problem bleibt. Zuletzt verbrachte die KI drei Tage damit, in der Arena von Prismania City gegen eine Wand zu laufen, weil sie den Eingang zur Leiter nicht als solchen erkannte.

Claude kämpft sich durch die Pokémon-Welt

Seit Ende Februar 2025 versucht die KI Claude, entwickelt vom KI-Unternehmen Anthropic, Pokémon zu spielen. Das sind mittlerweile knapp tausend Stunden.

Das Experiment mit dem Namen Claude Plays Pokémon wird live auf Twitch übertragen und hat bereits tausende Zuschauer angelockt.

Im Twitch-Stream seht ihr immer, wie die KI ihre Entscheidungen begründet und was sie aus Aktionen lernt - auch wenn die gezogenen Lektionen nicht immer korrekt sind. (Bild: Anthropic)

Anders als spezialisierte Spieler-KIs wie die für Go oder Dota 2 entwickelten Systeme wurde Claude nicht speziell für Videospiele trainiert.

Was das Experiment besonders macht:

Claude nutzt nur seine allgemeinen Kenntnisse über die Welt und Pokémon
Die KI sieht das Spiel über Screenshots, ähnlich wie ein Mensch
Das System wurde vorher nicht auf Pokémon-Spiele trainiert

David Hershey, Entwickler bei Anthropic und verantwortlich für das Projekt, erklärt im Interview mit Ars Technica:

Es nutzt nur das verschiedene Wissen, das Claude über die Welt hat, angewendet auf Videospiele.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von Twitter, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

Twitter-Inhalte erlauben

Ich bin damit einverstanden, dass mir Inhalte von Twitter angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum Twitter-Inhalt

Überraschende Fortschritte und herbe Rückschläge

Im Vergleich zu älteren Claude-Versionen, die es kaum aus dem Startgebiet geschafft haben, konnte Claude 3.7 Sonnet bereits mehrere Arenaleiter besiegen und Orden sammeln. Zum Zeitpunkt am 06. April 2025 hat die KI die ersten drei Arenaorden erworben.

Laut Anthropic liegt der Durchbruch im neuen Extended Thinking-Modus, der es dem Modell ermöglicht, vorauszuplanen, sich an Ziele zu erinnern und sich anzupassen, wenn anfängliche Strategien scheitern.

Jede Version von Claude Sonnet wird immer besser im Spielen von Pokémon. (Bild: Anthropix

Doch wenn ihr den Livestream verfolgt, seht ihr auch die Grenzen: Claude hat enorme Schwierigkeiten mit der Navigation durch die 2D-Spielwelt. Besonders der Mondberg hat eine massive Herausforderung dargestellt.

Häufige Probleme:

Stundenlange Irrwege in bereits abgeschlossenen Gebieten
Wiederholtes Festlaufen in Sackgassen
Endlose Gespräche mit denselben NPCs
Schwierigkeiten beim Erkennen von Wänden und Hindernissen

Das neueste Problem entstand allerdings durch das Erwerben des Fahrrads, denn die Spielfigur bewegt sich damit stets zwei Felder gleichzeitig. Das stellt für die KI ein großes Problem dar, da sie bisher nur einfache Schritte kannte.

So orientiert sich die KI. Den einzelnen Feldern wurden feste Werte für Reihe und Spalte zugewiesen, ähnlich wie beim Schach. (Bild: Anthropic | X)

Mensch und KI: die Schwächen unterscheiden sich

Interessanterweise zeigt Claude unterschiedliche Stärken und Schwächen und ganz andere als ein menschlicher Spieler. Während die pixelige Darstellung des Game Boys für Menschen leicht zu interpretieren ist, stellt sie für die KI eine große Herausforderung dar, so Hershey:

Claude ist immer noch nicht besonders gut darin zu verstehen, was überhaupt auf dem Bildschirm ist. Es ist eines dieser lustigen Dinge bei Menschen, dass wir auf diese 8x8-Pixel-Flecken von Personen schauen und sagen können: 'Das ist ein Mädchen mit blauen Haaren'.

Eine Zusammenfassung der Aktionen und Werkzeuge, mit denen Claude das Spiel angeht. (Bild: Anthropic)

Überraschend stark ist Claude dagegen beim Verständnis der Spielmechaniken und bei textbasierten Herausforderungen:

Erkennen von Pokémon-Typen und deren Schwächen
Aufbau von effektiven Kampfstrategien
Erfassen und Speichern von Spielhinweisen
Entwickeln langfristiger Team-Strategien

Das Gedächtnisproblem

Ein weiteres grundlegendes Problem: Claudes begrenzte Erinnerung. Die KI hat ein Kontextfenster von 200.000 Token, was bedeutet, dass ältere Informationen zusammengefasst oder gelöscht werden müssen, wenn neue hinzukommen.

Claude hat Schwierigkeiten, Dinge über einen sehr langen Zeitraum zu verfolgen und wirklich ein gutes Gefühl dafür zu haben, was es bisher versucht hat

Dabei scheinen falsche Informationen, die sich die KI notiert hat, ein großes Problem zu sein.

Die Dinge, die in der Vergangenheit aufgeschrieben wurden, vertraut es ziemlich blind.

44:19 »Künstliche Intelligenz ist die neue Elektrizität« - Wir busten mit einem Experten 5 Mythen zu KI

Autoplay

Dieses Problem ist gut sichtbar, wenn ihr in nächster Zeit den Stream anschaut, denn obwohl die KI schon drei Orden erworben hat und den Mondberg eigentlich schon bezwungen hat, steht sie gerade auf der Route vor dem Mondberg und versucht wieder einen Weg zum und durch den Berg zu finden.

Das oben erwähnte Fahrrad bereitet der KI allerdings zusätzliche Schwierigkeiten.

Könnte sich die KI besser merken, was sie bereits versucht oder geschafft hat, hätte sie sich bereits dutzende Stunden gespart.

Was bedeutet das für die Zukunft der KI?

Trotz der unterhaltsamen Momente, wenn Claude gegen Spielmechaniken kämpft, die für Kinder der 90er Jahre erdacht wurden, sieht Hershey das Experiment als wichtigen Wegweiser für die KI-Entwicklung.

Der Unterschied zwischen 'kann es überhaupt nicht' und 'kann es irgendwie' ist für mich bei diesen KI-Dingen ziemlich groß. Wenn etwas es irgendwie tun kann, bedeutet das typischerweise, dass wir ziemlich nahe daran sind, es dazu zu bringen, etwas wirklich, wirklich gut zu können.

Für die Zukunft sieht er großes Potenzial bei der Verbesserung des Bildverständnisses und eine Erweiterung des Kontextfensters, die es kommenden Modellen ermöglichen würde, über längere Zeiträume zu argumentieren und Dinge über einen langen Zeitraum kohärenter zu handhaben.

Beliebt bei GameStar Tech

Laut der Psychologie entwickeln Erwachsene, die seit ihrer Kindheit Zeichentrickfilme schauen, ein spezielles »Schmerzmittel«, um geistige Erschöpfung zu lindern

von Maxe Schwind

Fotografin schießt in den Alpen ein unglaubliches Bild der Milchstraße und tritt eine Diskussion los: Ist das noch ein echtes Foto?

von Duy Linh Dinh

Lidl verkauft gerade ein Trekking-E-Bike mit starkem Motor günstiger – für wen sich der Kauf lohnt

von Marinus Martin

Noch kein AGI in Sicht?

Während führende KI-Unternehmen wie OpenAI und Anthropic selbst von einer nahenden Artificial General Intelligence (AGI) sprechen - einer KI, die menschenähnliche Fähigkeiten in nahezu allen denkbaren Bereichen erreicht - zeigt das Experiment auch, wie weit wir davon noch entfernt sein könnten.

Claude kämpft immer noch mit Aufgaben, die für Menschen kein Problem darstellen, während es in anderen Bereichen überraschend fähig ist. Für die Entwicklung einer richtigen AGI könnte gerade die Kombination von räumlichem Verständnis bis zur Gedächtnisbildung entscheidend sein.