Nach 50.000 Stunden: Künstliche Intelligenz soll Probleme der Menschheit lösen - aber scheitert an Pokémon Rot

Wenig ist popkulturell-nostalgisch verklärt wie die Gameboy-Spiele mit den Hosentaschenmonstern. Doch was passiert, wenn ihr Künstliche Intelligenz auf die Pokémon ansetzt?

Nicht nur beim »Pokémon-Karten-Zocken« auf dem Schulhof waren die Mini-Monster einst beliebt - sondern auch auf dem ersten GameBoy. (Lrjimages; ShuoAdobe Stock) Nicht nur beim »Pokémon-Karten-Zocken« auf dem Schulhof waren die Mini-Monster einst beliebt - sondern auch auf dem ersten GameBoy. (Lrjimages; Shuo/Adobe Stock)

Künstliche Intelligenz (KI) findet dieser Tage in vielen Bereichen Verwendung: Bild- und Textgestaltung sind die vielleicht berühmtesten Beispiele.

Zudem ist die Technologie Hoffnungsträger für viele Lebensbereiche, von autonom fahrenden Autos, Robotern in Fabriken oder einfach bei Smartphone und Heimcomputer.

Aber kann KI auch in einer Partie des klassischen GameBoy-Spiels Pokémon Rot brillieren?

Ein YouTuber mit Programmierkenntnissen und einem Faible für die kleinen Monster hat sich dieser Frage angenommen - mit erstaunlichen Ergebnissen.

Wie funktioniert das Pokémon-Experiment des YouTubers?

Die hinter dem Experiment stehende KI hat insgesamt über 50.000 Stunden Pokémon Rot gespielt, angeleitet von Software-Entwickler und YouTuber Peter Whidden.

Wie trainiert man eine KI für Pokémon Rot? Für Peter Whidden bestand eine der Herausforderungen darin, die Künstliche Intelligenz das Verhalten eines menschlichen Spielers anzutrainieren. Laut YouTuber orientiert sich das Verhalten der KI nahe am Verhalten eines menschlichen Spielers.

So soll die KI nach jeder Aktion das Geschehen auf dem Bildschirm kontrollieren, bevor sie sich für eine nächste Aktion entscheidet - ähnlich wie eine Person, die Pokémon Rot mit einem Gameboy-Handheld vor den Augen spielt. Um die KI möglichst schnell zu trainieren, ließ Whidden 40 Test-Sessions parallel laufen.

Für sein Experiment nutzte der findige Tüftler Gameboy-Emulator PyBoy. (Joaquin CorbalanAdobe Stock; Peter Whidden) Für sein Experiment nutzte der findige Tüftler Gameboy-Emulator PyBoy. (Joaquin Corbalan/Adobe Stock; Peter Whidden)

Der Trick mit dem Belohnungssystem: Wie bringt man einer KI bei, wie man eine Partie Pokémon Rot spielt? Die vom YouTuber gewählte Lösung: Damit der Algorithmus das Ziel verfolgt, ein Spiel zu gewinnen, legte er ein Belohnungssystem fest. Immer dann, wenn die KI im Spiel etwas Neues entdeckt, wird das mit einem Belohnungspunkt honoriert.

Was als »Neues« gilt, wurde hier mit der Anzahl unterschiedlicher Pixel auf dem Bildschirm gemessen. Dieses Verfahren hatte aber auch den Nachteil, dass die von der KI gesteuerte Spielfigur auf eine Wasseranimation schaut, statt das Spiel im Sinne eines erfolgreichen Abschlusses weiterzuspielen.

Daneben wurden weitere Belohnungspunkte etabliert, zum Beispiel für das Einfangen von Pokémon, einem Sieg in der Arena, oder dem Gewinn eines Trainerkampfes.

Sein Experiment hat Whidden übrigens in ein 33-minütiges YouTube-Video gepackt.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von YouTube, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

Ich bin damit einverstanden, dass mir Inhalte von YouTube angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum YouTube-Inhalt

Vor welchen Hürden stand das Pokémon-Experiment?

Beim Besuch des Pokémon Centers lagerte die KI einige Pokémon ein. Das führte zu einem geminderten Gesamtlevel des Teams. Diese schlechte Erfahrung resultierte darin, dass die KI fortan das Pokémon Center mied. Der daraus entstehende Nachteil: Das Team wurde von diesem Zeitpunkt an nicht mehr geheilt.

Whidden sagt dazu in seinem YouTube-Video zum Experiment:

»Sie [die KI] hat zwar keine Emotionen wie ein Mensch, aber ein einziges Ereignis mit einem extrem hohen Belohnungswert kann ihr Verhalten nachhaltig beeinflussen. [...] In diesem Fall reicht es aus, wenn sie ihr Pokémon nur einmal verliert. Dadurch entwickelt sich eine negative Assoziation mit dem gesamten Pokémon Center, weshalb es die KI in allen zukünftigen Spielen vollständig meidet.«

Also musste Whidden sein Belohnungssystem weiter anpassen.

Übrigens: Die Pokémon haben unlängst den Sprung auf die große Kinoleinwand geschafft, wie der nachstehende Filmtrailer beweist.

Detective Pikachu mit Ryan Reynolds - Neuer Trailer bringt legendäres Pokemon zurück - Neuer Trailer bringt legendäres Pokemon zurück Video starten 2:17 Detective Pikachu mit Ryan Reynolds - Neuer Trailer bringt legendäres Pokemon zurück - Neuer Trailer bringt legendäres Pokemon zurück

Die KI im Kamikaze-Modus: Nicht minder bemerkenswert: das anfängliche Kampfverhalten der KI. Denn zu Beginn stürmte diese in jeden Kampf hinein - unabhängig davon, wie es um ihre Aussicht auf einen Sieg bestellt war. Deshalb führte der YouTuber eine Strafe für verlorene Kämpfe ein.

Doch wirklich kurios - aber irgendwie logisch - war das Verhalten der KI im Anschluss an einen verlorenen Kampf: Denn dann verweilte sie im Kampf-Bildschirm, verliest diesen einfach nicht mehr. Und zwar deshalb, um keinen Punktabzug zu kassieren. 

Für Whidden lag die größte Herausforderung darin, dem Algorithmus das gewünschte Verhalten im Spiel Schritt für Schritt beizubringen. Da in diesem Fall kein großer Datensatz wie bei Text- oder Sprach-KIs vorlag, musste er dem Algorithmus kleinteilig das zum Spielziel führende Verhalten beibringen.

TechCrunch gegenüber freute sich Whidden über den großen Erfolg seines YouTube-Videos, welches bis zum heutigen Tage (10.11.2023) über 4,3 Millionen Zuschauer erreichen konnte. Er sagt:

»Zu sehen, wieviele Leute sich [mit dem Video] beschäftigen, bereitet mir sehr viel Freude.«

Was die KI gut gemacht hat

Aber die KI machte nicht nur Ärger - sondern war manchmal sogar richtig clever. Dann an einer bestimmten Stelle nutzte sie immer wieder denselben Laufweg. Was auf den ersten Blick sinnlos war, ergab sich gewitzt. Denn die KI machte sich einen Glitch zunutze. Dieser führt dazu, dass ihr das erste, angetroffene Pokémon sofort mit einem Wurf erfolgreich eingefangen wird.

Könnt ihr beim Pokémon-Experiment des YouTubers nachbessern? Zusätzlich bietet Whidden in seinem Video einige Tipps darüber, wie es euch gelingt, euch selbst an ein solches Experiment heranzuwagen.

Beispielsweise nutzte er die sogenannte Proximal Policy Optimization (PPO). Bei OpenAI heißt es zu diesem Lern-Algorithmus, die eine »vergleichbare oder bessere Leistung als aktuelle Ansätze« erbringt. Daneben soll PPO einfach zu implementieren und einzustellen sein.

Apropos Pokémon: Ein Pokémon-Plüschtier wird zur Lachnummer im Internet, weil … ach, seht selbst!

Was bewertet ihr das Experiment des YouTubers? Und auch: Fandet ihr das dazugehörige Video unterhaltsam? Wurde ihr beim Anblick von Pokémon Rot von nostalgischen Gefühlen überschwemmt, oder schwört ihr auf Digimon, rümpft bei bloßer Erwähnung von Pikachu & Co. argwöhnisch die Nase? Schreibt uns eure Meinung hierzu gerne in die Kommentare.

zu den Kommentaren (7)

Kommentare(7)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.