ChatGPT und Co. spielen jetzt Pokémon – und nicht nur der Google-CEO schaut zu

Hobby-Entwickler lassen KI-Chatbots auf Twitch Pokémon spielen. Wie sich die hauseigene KI dabei schlägt, stößt in den KI-Firmen auf offene Ohren.

Wie sich die eigene KI gegen Pokémon Red schlägt, beschäftigt nicht nur die Führung von OpenAI. (Bildquelle: amolyus, Adobe Stock) Wie sich die eigene KI gegen Pokémon Red schlägt, beschäftigt nicht nur die Führung von OpenAI. (Bildquelle: amolyus, Adobe Stock)

Endgegner Pokémon: KI-Chatbots entwickeln sich rasant. Programmierung und komplexe Mathematikaufgaben werden für die Modelle immer weniger zum Problem. Aber an einer Sache scheiterten sie vor rund einem Jahr noch kläglich: dem Game-Boy-Klassiker Pokémon.

Was als kurioses Experiment von Anthropic begann, ist für KI-Firmen wie OpenAI und Google zu einer Benchmark geworden. Denn es zeigt sich: Ausgerechnet Pokémon eignet sich gut, um den nächsten Schritt zu trainieren: KI-Agenten.

Video starten 1:49 Beast of Reincarnation: Pokémon-Studio Game Freak wagt sich an sein erstes AAA-Spiel ganz ohne Taschenmonster

Pokémon ist zu einer Benchmark für KI-Chatbots geworden

Schach, Go, diese komplexen Spieleklassiker waren das, woran Forscher ihre KI-Chatbots als erstes abarbeiten ließen. Doch letztes Jahr überraschte Anthropic mit einer witzig anmutenden Idee:

Damals ließ die Firma ihr damals aktuelles Modell Claude 3.7 Sonnet Pokémon Red spielen, mit dem Ergebnis: Nach hunderten Stunden irrte die KI immer noch im Mondberg herum.

Was komisch klingt, ist tatsächlich logisch. Tom's Hardware verweist darauf, warum gerade Pokémon sich gut eignet, um KI-Modelle zu testen:

  • Strategie statt Reflexe: Da Pokémon rundenbasiert ist, kommt es nicht auf schnelle Reaktionen an. Die Forscher können sich also voll darauf konzentrieren, wie gut die KI logische Entscheidungen trifft und plant, anstatt nur ihre Geschicklichkeit zu messen.
  • Weniger Einschränkungen als bei Klassikern: Im Vergleich zu Pong oder Schach ist Pokémon deutlich offener. Es gibt unzählige Wege, Team-Kombinationen und Strategien. Das zwingt die KI dazu, echte Kreativität und Flexibilität zu zeigen, anstatt nur vordefinierte Muster abzurufen.
  • Härtetest für das Langzeitgedächtnis: Ein Pokémon-Spiel dauert hunderte Stunden. Die KI muss Informationen über einen enorm langen Zeitraum speichern und verarbeiten – zum Beispiel, welches Item sie vor zehn Spielstunden gekauft hat oder wo sie als Nächstes hinmuss.
  • Entlarvung räumlicher Schwächen: Der Mondberg ist das perfekte Beispiel für das größte KI-Problem: das Verständnis von Raum. Während eine KI Texte perfekt analysiert, fällt es ihr extrem schwer, einfache 2D-Pixelgrafiken in eine mentale Karte zu übersetzen. Das führt zum genannten stundenlangen Umherirren gegen Wände.

Den Stein des Anstoßes dafür, einen KI-Chatbot Pokémon spielen zu lassen, gab 2025 David Hershey, Mitarbeiter bei Anthropic. Damals erklärte er das mangelnde räumliche Vorstellungvermögen von Claude so:

Claude ist immer noch nicht besonders gut darin zu verstehen, was überhaupt auf dem Bildschirm zu sehen ist. Es ist eines dieser lustigen Dinge bei Menschen, dass wir auf diese 8x8-Pixel-Haufen von Personen schauen und sagen können: ‚Das ist ein Mädchen mit blauen Haaren‘.

Anthropic, OpenAI und Google beobachten ihre Modelle beim Pokémon-Spielen

Auf Twitch betreibt Hershey den Kanal ClaudePlaysPokemon auf Twitch, doch laut Wall Street Journal ist das Spiel auch bei anderen KI-Giganten hoch im Kurs:

  • OpenAI: Der Pokémon-Stream von GPT wurde ursprünglich von einem unabhängigen Entwickler ins Leben gerufen, fand aber schnell Beachtung bei den Machern selbst. Zeitweise lief das Projekt sogar im OpenAI-Hauptquartier auf einem großen Fernseher, während die Entwickler gemeinsam über die taktischen (Fehl-)Entscheidungen ihrer KI fachsimpelten.
  • Google: Auch der Erfolg von Gemini basiert auf der Initiative eines freien Entwicklers. Dass Google das Projekt dennoch sehr ernst nimmt, bewies CEO Sundar Pichai: Er präsentierte einen Sieg von Gemini stolz auf der großen Entwicklerkonferenz Google I/O und ließ den Fortschritt sogar in offizielle Unternehmensberichte einfließen.

Pokémon scheint bei den KI-Firmen also längst keine Spielerei mehr zu sein, sondern ein handfester Beweis für den Fortschritt der eigenen Modelle.

Fazit: Mit Pokémon hin zu KI-Agenten

Der Vergleich zwischen 2025 und heute zeigt: Die Modelle sind massiv besser geworden. Während frühere Versionen noch tagelang gegen Wände liefen, haben Gemini 3 Pro und GPT 5.2 laut Wall Street Journal das erste Spiel mittlerweile erfolgreich beendet und sich bereits den Nachfolgern gewidmet.

Und das ist längst nicht das einzige Pokémon-Spiel, in dem sich KI-Chatbots gegeneinander messen: Ein YouTuber hat jüngst Gemini gegen ChatGPT in Pokémon Stadium gegeneinander antreten lassen. Nur so viel sei gesagt: Dank überlegener Taktik schlug einer den anderen mit einem deutlichen 6:0-Sieg.

Das Interesse von Entwicklern an Pokémon zeigt jedoch vor allem eines: Ein Modell kann noch so viel theoretisches Wissen besitzen, doch die Anwendung in einer unvorhersehbaren Welt bleibt die wahre Hürde. Der Endgegner Pokémon markiert den Weg zur Entwicklung von KI-Agenten.

Wer heute lernt, hunderte Stunden lang ein Pokémon-Team zu managen, soll morgen in der Lage sein, komplexe Büroaufgaben zu automatisieren.

zu den Kommentaren (2)

Kommentare(2)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.