Felix »PewDiePie« Kjellberg hatte einst den erfolgreichsten YouTube-Channel der Welt. Doch seit er nach Japan zog und deutlich weniger Videos veröffentlicht, hat er sich vermehrt mit technischen Themen wie Linux oder KI-Modellen beschäftigt.
Wie er direkt selbst klarstellt, hat er kein KI-Startup gegründet und auch keine Erfahrung mit Machine Learning. Trotzdem (oder vielleicht genau deswegen) hat er sich vorgenommen, ein eigenes Coding-Modell zu trainieren, das ChatGPT auf einem anerkannten Benchmark schlägt.
Das klingt absurd und das war es auch. Das meint sogar PewDiePie selbst. Am Ende hat es allerdings einigermaßen funktioniert.
Link zum YouTube-Inhalt
Das Modell: Qwen 2.5 als Basis
PewDiePie hat kein Modell von Grund auf neu entwickelt. Das würde laut eigener Aussage »Millionen und Abermillionen Dollar« an Infrastruktur kosten. Mit einem Augenzwinkern fügt er außerdem hinzu:
»Es ist wie ein Kind auf der Straße zu klauen, anstatt selbst eines zu gebären. Es ist deutlich einfacher.«
Er nahm also ein bestehendes Open-Source-Modell als Ausgangspunkt: Qwen 2.5 32B, ein bereits auf Code spezialisiertes Modell.
Darauf aufbauend wollte er ein Coding-Modell trainieren, das auf einem entsprechenden Benchmark besser abschneidet als ChatGPT. Das Benchmark »Aider Polyglot« testet Code-Generierung in sechs verschiedenen Programmiersprachen.
Das Problem mit den Formaten
Ein entscheidender Kniff: Der Benchmark unterscheidet zwischen zwei Ausgabeformaten – dem »Whole Format« und dem »Diff Format«.
Beim Whole Format schreibt das Modell bei jeder Codeänderung die gesamte Datei neu. Beim Diff Format gibt es nur den tatsächlich geänderten Teil aus. Es gilt also als token-effizienter Bei größeren Dateien steigt dadurch allerdings die Fehleranfälligkeit.
Qwen 2.5 32B erreichte im Whole Format bereits 16 Prozent. PewDiePies Plan: Das Modell auf das Diff Format trainieren und damit mindestens auf ChatGPT-Niveau bringen.
ChatGPT erzielte auf diesem Benchmark rund 18,2 Prozent. Qwen 2.5 32B erste Version lag nach dem Training im Diff-Format allerdings bei mageren 8 Prozent.
1:53:19
Der KI-Hype frisst sich selbst – Tech-Jahresrückblick 2025
Daten, Daten, Daten
Um ein Modell zu trainieren, braucht man Trainingsdaten – und zwar enorm viele. Kjellberg probierte dabei viele verfügbare Ansätze:
- The Stack: ein 60-Terabyte-Datensatz, der für Training freigegeben ist.
- Öffentliche Datensätze
- GitHub-Mining (mit Lizenzchecks)
- Synthetische Datengenerierung via Methoden wie »OSS Instruct« und »Evol Instruct«.
Für die synthetische Generierung nutzte er die DeepSeek API, die er als »praktisch kostenlos« beschreibt. Chinesische KI-Forschung spielte dabei eine zentrale Rolle.
DeepSeek hat nicht nur sein Modell als Open Source veröffentlicht, sondern auch detaillierte Forschungsdokumente zur Trainingsmethodik – etwas, das westliche Unternehmen laut PewDiePie bewusst zurückhalten.
»Eine Menge davon war superkompliziert und ich habe erst nichts verstanden, doch irgendwann hat es doch geklappt... glaube ich.«
Fehler, Rückschläge und verbrannte Hardware
Der Weg zum Erfolg war alles andere als leicht zu meistern. Hier seht ihr die größten Missgeschicke im Überblick:
- Erster Trainingslauf: Das Modell wurde schlechter statt besser. Der Grund: fehlerhafte Trainingsdaten.
- Falsches Basismodell: Über weite Strecken trainierte er auf der regulären Qwen-Version statt auf der Coding-Version.
- Datenkontamination: Teile seiner Trainingsdaten enthielten Beispiele, die bereits im Benchmark vorkamen. Das ist ein klassischer Fehler, der Ergebnisse verfälscht.
- Hardware-Probleme: Eine GPU fiel aus und fing an, zu schmoren. Außerdem war ein Kabel für die über 2.000-Watt-Belastung nicht ausgelegt und war schon voller Hitze und Brandspuren, als Kjellberg es entdeckte: »Ich habe mein Haus zweimal fast niedergebrannt«.
Apropos Hardware: PewDiePies Setup ist ein selbstgebauter Cluster aus »gehackten chinesischen RTX-4090-GPUs«, stark undervoltet auf 175 Watt statt der normalen 450 Watt, um Stromausfälle zu vermeiden. Zusätzlich hat er eine Wand durchbohrt, um sich einen Stromkreis aus dem Badezimmer »zu leihen«.
Das Ergebnis: 39,1 Prozent
Nach monatelanger Arbeit, mehreren Neutrainings und dem Wechsel auf das korrekte Coder-Basismodell erzielte sein Modell folgende Scores auf dem Aider-Polyglot-Benchmark:
- Nach erstem erfolgreichem Lauf: 25 Prozent
- Nach Behebung eines Benchmark-Fehlers (C++ und JavaScript wurden nicht korrekt getestet): 36,4 Prozent.
- Nach zusätzlichem Post-Training: 39,1 Prozent.
Damit übertrifft er nicht nur ChatGPT-4o (18,2 Prozent), sondern laut eigener Aussage auch Metas »Llama 4 Maverick« und DeepSeek 2.5.
Der Haken: Kjellberg selbst schränkt die Aussagekraft selbst ein:
- Qwen 3, der direkte Nachfolger seines Basismodells, erzielt bereits 40 Prozent auf demselben Benchmark.
- Der Aider-Polyglot-Benchmark ist nur ein Maßstab; andere Coding-Benchmarks wie SWE-bench wurden nicht getestet.
- Die Benchmark-Performance ist nicht deterministisch. Das Modell erzielt bei verschiedenen Läufen unterschiedliche Werte.
Fazit: Scheitern als Lernmethode
Was bleibt? Ein YouTuber ohne Programmierhintergrund hat in Monaten eigenständig ein kompetitives Coding-Modell trainiert. Mit Open-Source-Tools, chinesischer KI-Forschung und einem Bastler-GPU-Rig.
Die eigentliche Message des Videos ist dabei weniger der Benchmark-Score als der Prozess: Fehler machen, iterieren, weitermachen. Kjellberg zitiert dabei Linux-Erfinder Linus Torvalds, der sinngemäß sagt, dass Scheitern kein Problem ist, sondern vielmehr der Weg, auf dem man lernt.
Es ist zwar nicht selbst trainiert, doch selbst ausprobiert: Nils war begeistert von Nano Banana 2. Wieso verrät er euch hier:
Ob das Modell irgendwann öffentlich zugänglich gemacht wird, ist noch offen. PewDiePie überlegt, das Projekt im Hintergrund weiterzuführen.
Habt ihr schon mal versucht, ein eigenes Modell zu trainieren? Schreibt uns eure Erfahrungen gerne in die Kommentare!

Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.