Vor einem Monat hat eine KI ein Spiel von Pokémon Rot gestartet. Heute, nach hunderten von Stunden, hat sie den Mondberg immer noch nicht überquert

Pokémon scheint eine tolle Herausforderung für KIs und Entwickler zu sein, auch wenn die Hürden groß sind.

So lange habt ihr damals wohl nicht gebraucht, doch die KI wird besser und besser. (Bild: Game Freak | KI-generiert mit Adobe Firefly) So lange habt ihr damals wohl nicht gebraucht, doch die KI wird besser und besser. (Bild: Game Freak | KI-generiert mit Adobe Firefly)

Anthropic hat sein neuestes KI-Modell Claude 3.7 Sonnet auf eine Mission geschickt, die viele von euch bestimmt als Kinder bestritten haben: das Durchspielen von Pokémon Rot auf dem Game Boy.

Die Ergebnisse zeigen teilweise enorme Fortschritte im Vergleich zu vorherigen Claude-Modellen, aber auch diverse Schwächen.

Claude kämpft sich durch die Pokémon-Welt

Seit Ende Februar 2025 versucht die KI Claude, entwickelt vom KI-Unternehmen Anthropic, Pokémon zu spielen. Das sind mittlerweile knapp tausend Stunden.

Das Experiment mit dem Namen Claude Plays Pokémon wird live auf Twitch übertragen und hat bereits tausende Zuschauer angelockt.

Im Twitch-Stream seht ihr immer, wie die KI ihre Entscheidungen begründet und was sie aus Aktionen lernt - auch wenn die gezogenen Lektionen nicht immer korrekt sind. (Bild: Anthropic) Im Twitch-Stream seht ihr immer, wie die KI ihre Entscheidungen begründet und was sie aus Aktionen lernt - auch wenn die gezogenen Lektionen nicht immer korrekt sind. (Bild: Anthropic)

Anders als spezialisierte Spieler-KIs wie die für Go oder Dota 2 entwickelten Systeme wurde Claude nicht speziell für Videospiele trainiert.

Was das Experiment besonders macht:

  • Claude nutzt nur seine allgemeinen Kenntnisse über die Welt und Pokémon
  • Die KI sieht das Spiel über Screenshots, ähnlich wie ein Mensch
  • Das System wurde vorher nicht auf Pokémon-Spiele trainiert

David Hershey, Entwickler bei Anthropic und verantwortlich für das Projekt, erklärt im Interview mit Ars Technica:

Es nutzt nur das verschiedene Wissen, das Claude über die Welt hat, angewendet auf Videospiele.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von Twitter, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

Ich bin damit einverstanden, dass mir Inhalte von Twitter angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum Twitter-Inhalt

Überraschende Fortschritte und herbe Rückschläge

Im Vergleich zu älteren Claude-Versionen, die es kaum aus dem Startgebiet geschafft haben, konnte Claude 3.7 Sonnet bereits mehrere Arenaleiter besiegen und Orden sammeln. Zum aktuellen Zeitpunkt (06. April 2025) hat die KI die ersten drei Arenaorden erworben.

Laut Anthropic liegt der Durchbruch im neuen Extended Thinking-Modus, der es dem Modell ermöglicht, vorauszuplanen, sich an Ziele zu erinnern und sich anzupassen, wenn anfängliche Strategien scheitern.

Jede Version von Claude Sonnet wird immer besser im Spielen von Pokémon. (Bild: Anthropix Jede Version von Claude Sonnet wird immer besser im Spielen von Pokémon. (Bild: Anthropix

Doch wenn ihr den Livestream verfolgt, seht ihr auch die Grenzen: Claude hat enorme Schwierigkeiten mit der Navigation durch die 2D-Spielwelt. Besonders der Mondberg hat eine massive Herausforderung dargestellt.

Häufige Probleme:

  • Stundenlange Irrwege in bereits abgeschlossenen Gebieten
  • Wiederholtes Festlaufen in Sackgassen
  • Endlose Gespräche mit denselben NPCs
  • Schwierigkeiten beim Erkennen von Wänden und Hindernissen

Das neueste Problem entstand allerdings durch das Erwerben des Fahrrads, denn die Spielfigur bewegt sich damit stets zwei Felder gleichzeitig. Das stellt für die KI ein großes Problem dar, da sie bisher nur einfache Schritte kannte.

So orientiert sich die KI. Den einzelnen Feldern wurden feste Werte für Reihe und Spalte zugewiesen, ähnlich wie beim Schach. (Bild: Anthropic | X) So orientiert sich die KI. Den einzelnen Feldern wurden feste Werte für Reihe und Spalte zugewiesen, ähnlich wie beim Schach. (Bild: Anthropic | X)

Mensch und KI: die Schwächen unterscheiden sich

Interessanterweise zeigt Claude unterschiedliche Stärken und Schwächen und ganz andere als ein menschlicher Spieler. Während die pixelige Darstellung des Game Boys für Menschen leicht zu interpretieren ist, stellt sie für die KI eine große Herausforderung dar, so Hershey:

Claude ist immer noch nicht besonders gut darin zu verstehen, was überhaupt auf dem Bildschirm ist. Es ist eines dieser lustigen Dinge bei Menschen, dass wir auf diese 8x8-Pixel-Flecken von Personen schauen und sagen können: 'Das ist ein Mädchen mit blauen Haaren'.

Eine Zusammenfassung der Aktionen und Werkzeuge, mit denen Claude das Spiel angeht. (Bild: Anthropic) Eine Zusammenfassung der Aktionen und Werkzeuge, mit denen Claude das Spiel angeht. (Bild: Anthropic)

Überraschend stark ist Claude dagegen beim Verständnis der Spielmechaniken und bei textbasierten Herausforderungen:

  • Erkennen von Pokémon-Typen und deren Schwächen
  • Aufbau von effektiven Kampfstrategien
  • Erfassen und Speichern von Spielhinweisen
  • Entwickeln langfristiger Team-Strategien

Das Gedächtnisproblem

Ein weiteres grundlegendes Problem: Claudes begrenzte Erinnerung. Die KI hat ein Kontextfenster von 200.000 Token, was bedeutet, dass ältere Informationen zusammengefasst oder gelöscht werden müssen, wenn neue hinzukommen.

Claude hat Schwierigkeiten, Dinge über einen sehr langen Zeitraum zu verfolgen und wirklich ein gutes Gefühl dafür zu haben, was es bisher versucht hat

Dabei scheinen falsche Informationen, die sich die KI notiert hat, ein großes Problem zu sein.

Die Dinge, die in der Vergangenheit aufgeschrieben wurden, vertraut es ziemlich blind.

Video starten 44:19 »Künstliche Intelligenz ist die neue Elektrizität« - Wir busten mit einem Experten 5 Mythen zu KI

Dieses Problem ist gut sichtbar, wenn ihr in nächster Zeit den Stream anschaut, denn obwohl die KI schon drei Orden erworben hat und den Mondberg eigentlich schon bezwungen hat, steht sie gerade auf der Route vor dem Mondberg und versucht wieder einen Weg zum und durch den Berg zu finden.

Das oben erwähnte Fahrrad bereitet der KI allerdings zusätzliche Schwierigkeiten.

Könnte sich die KI besser merken, was sie bereits versucht oder geschafft hat, hätte sie sich bereits dutzende Stunden gespart.

Was bedeutet das für die Zukunft der KI?

Trotz der unterhaltsamen Momente, wenn Claude gegen Spielmechaniken kämpft, die für Kinder der 90er Jahre erdacht wurden, sieht Hershey das Experiment als wichtigen Wegweiser für die KI-Entwicklung.

Der Unterschied zwischen 'kann es überhaupt nicht' und 'kann es irgendwie' ist für mich bei diesen KI-Dingen ziemlich groß. Wenn etwas es irgendwie tun kann, bedeutet das typischerweise, dass wir ziemlich nahe daran sind, es dazu zu bringen, etwas wirklich, wirklich gut zu können.

Für die Zukunft sieht er großes Potenzial bei der Verbesserung des Bildverständnisses und eine Erweiterung des Kontextfensters, die es kommenden Modellen ermöglichen würde, über längere Zeiträume zu argumentieren und Dinge über einen langen Zeitraum kohärenter zu handhaben.

Noch kein AGI in Sicht?

Während führende KI-Unternehmen wie OpenAI und Anthropic selbst von einer nahenden Artificial General Intelligence (AGI) sprechen - einer KI, die menschenähnliche Fähigkeiten in nahezu allen denkbaren Bereichen erreicht - zeigt das Experiment auch, wie weit wir davon noch entfernt sein könnten.

Claude kämpft immer noch mit Aufgaben, die für Menschen kein Problem darstellen, während es in anderen Bereichen überraschend fähig ist. Für die Entwicklung einer richtigen AGI könnte gerade die Kombination von räumlichem Verständnis bis zur Gedächtnisbildung entscheidend sein.

zu den Kommentaren (46)

Kommentare(44)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.