Der wohl größte Videospielklassiker überhaupt ist fast 40 Jahre alt und hilft jetzt der modernen Forschung: Super Mario trifft KI

Mario war ja schon immer ein Multitalent. Nun fügen sich KI-Benchmarks in sein Skillset ein. (Bildquelle: OpenAI | Anthropic | Wikipedia)

Benchmarks für KI-Modelle sind oft trocken: Mathematik, Logik-Tests, komplexe Datenanalysen. Doch Forscher der UC San Diego haben einen neuen Ansatz gewählt – und ihre KIs einfach Super Mario Bros. spielen lassen, wie TechSpot berichtet.

Klingt nach einem kuriosen Experiment? Vielleicht. Aber es zeigt durchaus, dass Timing manchmal wichtiger ist als reine Rechenpower.

Das Experiment: GamingAgent als KI-Controller

Die Forscher des Hao AI Lab der Universität California San Diego haben das Framework GamingAgent (GitHub) entwickelt, mit dem KI-Modelle Klempner Mario per Python-Code steuern können.

Als Grundlage diente eine emulierte Version von Super Mario Bros. auf dem NES. Die KIs erhielten dabei einfache Anweisungen wie Spring über diesen Gegner sowie Screenshots zur Orientierung.

Ziel war es herauszufinden, wie gut die Modelle ihre Aktionen planen und in Echtzeit anpassen können.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von Twitter, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

Twitter-Inhalte erlauben

Ich bin damit einverstanden, dass mir Inhalte von Twitter angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum Twitter-Inhalt

Claude 3.7 dominiert – GPT-4o stolpert

Die Ergebnisse könnten euch überraschen: Claude 3.7 von Anthropic hat die besten Leistungen gezeigt. Es hat präzise Sprünge gemeistert, wich Gegnern geschickt aus und agierte insgesamt souverän.

Selbst sein Vorgänger Claude 3.5 schnitt gut ab, wenn auch nicht ganz so beeindruckend.

Bei GPT-4o von OpenAI und Googles Gemini 1.5 Pro sah es dagegen ganz anders aus. Die Modelle, die eigentlich für ihre starke logische Denkfähigkeit bekannt sind, haben sich schwergetan.

Sie sind häufig an grundlegenden Spielmechaniken gescheitert und oft unkontrolliert in Lücken gesprungen oder wurden von Gegnern getroffen.

40:10 ChatGPT am Ende? Das kann DeepSeek wirklich

Autoplay

Timing schlägt Logik

Der Test hat gezeigt, dass schnelle Reflexe wichtiger sind als komplexe Logik – zumindest beim Mario Spielen.

Während einige KI-Modelle versuchen, Situationen zu durchdenken, hat diese Herangehensweise zu langen Verzögerungen geführt.

Immerhin können schon wenige Millisekunden in Super Mario Bros. den Unterschied zwischen einem gelungenen Sprung und einem gescheiterten Versuch ausmachen.

Die Forscher vermuten, dass denkende Modelle wie GPT-4o zu lange kalkulieren, bevor sie handeln und deshalb ins Leere springen.

Beliebt bei GameStar Tech

1967 baute man in Kanada futuristische Häuser, die auf Lego basierten. Ein halbes Jahrhundert später weiß man dank Unreal Engine, was daraus hätte werden sollen

von Nils Raettig

Ein Vater spielte mit seinem Kind jahrelang auf der PS2, weil er sich nichts Besseres leisten konnte. Jahre später schenkte ihm der inzwischen erwachsene Sohn eine PS4 Pro [Best of GameStar]

von Nils Raettig

Tschüss, amerikanisches GPS? »4 Milliarden Nutzer« können sich bereits auf das europäische Navigationssystem Galileo verlassen

von Patrick Schneider

Retro-Games als KI-Benchmark?

Natürlich bleibt die Frage, wie aussagekräftig solche Tests sind. Ein KI-Modell, das Videospielfigur Mario bezwingt, ist nicht automatisch für komplexe Aufgaben in der realen Welt geeignet. Dennoch liefert das Experiment eine spannende Erkenntnis: Nicht nur die Rechenleistung entscheidet, sondern auch schnelle, intuitive Entscheidungen.