Was passiert, wenn sich eine Person mit den größten KI-Unternehmen anlegt, zeigt Felix Kjellberg in seinem neuesten Video. (Bildquelle: Wiki Media Commons | Adobe Stock – gguy)

Felix »PewDiePie« Kjellberg hatte einst den erfolgreichsten YouTube-Channel der Welt. Doch seit er nach Japan zog und deutlich weniger Videos veröffentlicht, hat er sich vermehrt mit technischen Themen wie Linux oder KI-Modellen beschäftigt.

Wie er direkt selbst klarstellt, hat er kein KI-Startup gegründet und auch keine Erfahrung mit Machine Learning. Trotzdem (oder vielleicht genau deswegen) hat er sich vorgenommen, ein eigenes Coding-Modell zu trainieren, das ChatGPT auf einem anerkannten Benchmark schlägt.

Das klingt absurd und das war es auch. Das meint sogar PewDiePie selbst. Am Ende hat es allerdings einigermaßen funktioniert.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von YouTube, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

YouTube-Inhalte erlauben

Ich bin damit einverstanden, dass mir Inhalte von YouTube angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum YouTube-Inhalt

Das Modell: Qwen 2.5 als Basis

PewDiePie hat kein Modell von Grund auf neu entwickelt. Das würde laut eigener Aussage »Millionen und Abermillionen Dollar« an Infrastruktur kosten. Mit einem Augenzwinkern fügt er außerdem hinzu:

»Es ist wie ein Kind auf der Straße zu klauen, anstatt selbst eines zu gebären. Es ist deutlich einfacher.«

Er nahm also ein bestehendes Open-Source-Modell als Ausgangspunkt: Qwen 2.5 32B, ein bereits auf Code spezialisiertes Modell.

Darauf aufbauend wollte er ein Coding-Modell trainieren, das auf einem entsprechenden Benchmark besser abschneidet als ChatGPT. Das Benchmark »Aider Polyglot« testet Code-Generierung in sechs verschiedenen Programmiersprachen.

Das Problem mit den Formaten

Ein entscheidender Kniff: Der Benchmark unterscheidet zwischen zwei Ausgabeformaten – dem »Whole Format« und dem »Diff Format«.

Beim Whole Format schreibt das Modell bei jeder Codeänderung die gesamte Datei neu. Beim Diff Format gibt es nur den tatsächlich geänderten Teil aus. Es gilt also als token-effizienter Bei größeren Dateien steigt dadurch allerdings die Fehleranfälligkeit.

Qwen 2.5 32B erreichte im Whole Format bereits 16 Prozent. PewDiePies Plan: Das Modell auf das Diff Format trainieren und damit mindestens auf ChatGPT-Niveau bringen.

ChatGPT erzielte auf diesem Benchmark rund 18,2 Prozent. Qwen 2.5 32B erste Version lag nach dem Training im Diff-Format allerdings bei mageren 8 Prozent.

1:53:19 Der KI-Hype frisst sich selbst – Tech-Jahresrückblick 2025

Autoplay

Daten, Daten, Daten

Um ein Modell zu trainieren, braucht man Trainingsdaten – und zwar enorm viele. Kjellberg probierte dabei viele verfügbare Ansätze:

The Stack: ein 60-Terabyte-Datensatz, der für Training freigegeben ist.
Öffentliche Datensätze
GitHub-Mining (mit Lizenzchecks)
Synthetische Datengenerierung via Methoden wie »OSS Instruct« und »Evol Instruct«.

Für die synthetische Generierung nutzte er die DeepSeek API, die er als »praktisch kostenlos« beschreibt. Chinesische KI-Forschung spielte dabei eine zentrale Rolle.

DeepSeek hat nicht nur sein Modell als Open Source veröffentlicht, sondern auch detaillierte Forschungsdokumente zur Trainingsmethodik – etwas, das westliche Unternehmen laut PewDiePie bewusst zurückhalten.

»Eine Menge davon war superkompliziert und ich habe erst nichts verstanden, doch irgendwann hat es doch geklappt... glaube ich.«

Fehler, Rückschläge und verbrannte Hardware

Der Weg zum Erfolg war alles andere als leicht zu meistern. Hier seht ihr die größten Missgeschicke im Überblick:

Erster Trainingslauf: Das Modell wurde schlechter statt besser. Der Grund: fehlerhafte Trainingsdaten.
Falsches Basismodell: Über weite Strecken trainierte er auf der regulären Qwen-Version statt auf der Coding-Version.
Datenkontamination: Teile seiner Trainingsdaten enthielten Beispiele, die bereits im Benchmark vorkamen. Das ist ein klassischer Fehler, der Ergebnisse verfälscht.
Hardware-Probleme: Eine GPU fiel aus und fing an, zu schmoren. Außerdem war ein Kabel für die über 2.000-Watt-Belastung nicht ausgelegt und war schon voller Hitze und Brandspuren, als Kjellberg es entdeckte: »Ich habe mein Haus zweimal fast niedergebrannt«.

Apropos Hardware: PewDiePies Setup ist ein selbstgebauter Cluster aus »gehackten chinesischen RTX-4090-GPUs«, stark undervoltet auf 175 Watt statt der normalen 450 Watt, um Stromausfälle zu vermeiden. Zusätzlich hat er eine Wand durchbohrt, um sich einen Stromkreis aus dem Badezimmer »zu leihen«.

Das Ergebnis: 39,1 Prozent

Nach monatelanger Arbeit, mehreren Neutrainings und dem Wechsel auf das korrekte Coder-Basismodell erzielte sein Modell folgende Scores auf dem Aider-Polyglot-Benchmark:

Nach erstem erfolgreichem Lauf: 25 Prozent
Nach Behebung eines Benchmark-Fehlers (C++ und JavaScript wurden nicht korrekt getestet): 36,4 Prozent.
Nach zusätzlichem Post-Training: 39,1 Prozent.

Damit übertrifft er nicht nur ChatGPT-4o (18,2 Prozent), sondern laut eigener Aussage auch Metas »Llama 4 Maverick« und DeepSeek 2.5.

Der Haken: Kjellberg selbst schränkt die Aussagekraft selbst ein:

Qwen 3, der direkte Nachfolger seines Basismodells, erzielt bereits 40 Prozent auf demselben Benchmark.
Der Aider-Polyglot-Benchmark ist nur ein Maßstab; andere Coding-Benchmarks wie SWE-bench wurden nicht getestet.
Die Benchmark-Performance ist nicht deterministisch. Das Modell erzielt bei verschiedenen Läufen unterschiedliche Werte.

Fazit: Scheitern als Lernmethode

Was bleibt? Ein YouTuber ohne Programmierhintergrund hat in Monaten eigenständig ein kompetitives Coding-Modell trainiert. Mit Open-Source-Tools, chinesischer KI-Forschung und einem Bastler-GPU-Rig.

Die eigentliche Message des Videos ist dabei weniger der Benchmark-Score als der Prozess: Fehler machen, iterieren, weitermachen. Kjellberg zitiert dabei Linux-Erfinder Linus Torvalds, der sinngemäß sagt, dass Scheitern kein Problem ist, sondern vielmehr der Weg, auf dem man lernt.

Es ist zwar nicht selbst trainiert, doch selbst ausprobiert: Nils war begeistert von Nano Banana 2. Wieso verrät er euch hier:

Hey Google, jetzt bin ich baff: Wie aus »Kaum zu gebrauchen« für mich ein »So muss man abliefern!« geworden ist dank Nano Banana 2

Ob das Modell irgendwann öffentlich zugänglich gemacht wird, ist noch offen. PewDiePie überlegt, das Projekt im Hintergrund weiterzuführen.

Habt ihr schon mal versucht, ein eigenes Modell zu trainieren? Schreibt uns eure Erfahrungen gerne in die Kommentare!