Der wohl größte Videospielklassiker überhaupt ist fast 40 Jahre alt und hilft jetzt der modernen Forschung: Super Mario trifft KI

Kein neuer Standard, aber dennoch spannend: Mario als Benchmark für KIs.

Mario war ja schon immer ein Multitalent. Nun fügen sich KI-Benchmarks in sein Skillset ein. (Bildquelle: OpenAI | Anthropic | Wikipedia) Mario war ja schon immer ein Multitalent. Nun fügen sich KI-Benchmarks in sein Skillset ein. (Bildquelle: OpenAI | Anthropic | Wikipedia)

Benchmarks für KI-Modelle sind oft trocken: Mathematik, Logik-Tests, komplexe Datenanalysen. Doch Forscher der UC San Diego haben einen neuen Ansatz gewählt – und ihre KIs einfach Super Mario Bros. spielen lassen, wie TechSpot berichtet.

Klingt nach einem kuriosen Experiment? Vielleicht. Aber es zeigt durchaus, dass Timing manchmal wichtiger ist als reine Rechenpower.

Das Experiment: GamingAgent als KI-Controller

Die Forscher des Hao AI Lab der Universität California San Diego haben das Framework GamingAgent (GitHub) entwickelt, mit dem KI-Modelle Klempner Mario per Python-Code steuern können.

Als Grundlage diente eine emulierte Version von Super Mario Bros. auf dem NES. Die KIs erhielten dabei einfache Anweisungen wie Spring über diesen Gegner sowie Screenshots zur Orientierung.

Ziel war es herauszufinden, wie gut die Modelle ihre Aktionen planen und in Echtzeit anpassen können.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von Twitter, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

Ich bin damit einverstanden, dass mir Inhalte von Twitter angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum Twitter-Inhalt

Claude 3.7 dominiert – GPT-4o stolpert

Die Ergebnisse könnten euch überraschen: Claude 3.7 von Anthropic hat die besten Leistungen gezeigt. Es hat präzise Sprünge gemeistert, wich Gegnern geschickt aus und agierte insgesamt souverän.

Selbst sein Vorgänger Claude 3.5 schnitt gut ab, wenn auch nicht ganz so beeindruckend.

Bei GPT-4o von OpenAI und Googles Gemini 1.5 Pro sah es dagegen ganz anders aus. Die Modelle, die eigentlich für ihre starke logische Denkfähigkeit bekannt sind, haben sich schwergetan.

Sie sind häufig an grundlegenden Spielmechaniken gescheitert und oft unkontrolliert in Lücken gesprungen oder wurden von Gegnern getroffen.

Video starten 40:10 ChatGPT am Ende? Das kann DeepSeek wirklich

Timing schlägt Logik

Der Test hat gezeigt, dass schnelle Reflexe wichtiger sind als komplexe Logik – zumindest beim Mario Spielen.

Während einige KI-Modelle versuchen, Situationen zu durchdenken, hat diese Herangehensweise zu langen Verzögerungen geführt.

Immerhin können schon wenige Millisekunden in Super Mario Bros. den Unterschied zwischen einem gelungenen Sprung und einem gescheiterten Versuch ausmachen. 

Die Forscher vermuten, dass denkende Modelle wie GPT-4o zu lange kalkulieren, bevor sie handeln und deshalb ins Leere springen.

Retro-Games als KI-Benchmark?

Natürlich bleibt die Frage, wie aussagekräftig solche Tests sind. Ein KI-Modell, das Videospielfigur Mario bezwingt, ist nicht automatisch für komplexe Aufgaben in der realen Welt geeignet. Dennoch liefert das Experiment eine spannende Erkenntnis: Nicht nur die Rechenleistung entscheidet, sondern auch schnelle, intuitive Entscheidungen.

zu den Kommentaren (1)

Kommentare(1)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.