Neue Grafikkarten werfen ihren Schatten voraus und der ist ganz schön groß: Nvidia zeigt erstmals kommenden Superchip mit Rubin-GPU

Nvidias neuer Superchip hört auf den Namen »Vera Rubin« und will mal wieder neue Maßstäbe setzen. (Bildquelle: Nvidia via YouTube)

Während der GTC-Konferenz in Washington D.C. zeigte Nvidia-CEO Jensen Huang erstmals physische Exemplare des »Vera Rubin«-Superchips – allerdings noch als Engineering Samples direkt aus der Fertigung bei TSMC in Taiwan.

Dabei handelt es sich nicht um einen einzelnen Chip im herkömmlichen Sinne, sondern um eine komplexe Platine, die Nvidia als »Superchip« bezeichnet. Die Architektur vereint unter anderem eine aus 88 Kernen bestehende Vera-CPU mit zwei massiven Rubin-GPUs auf einer einzigen Platine.

0:42 Wie auf Substanzen aus den 60ern: Nvidias Multi Frame Gen sorgt für witzigen Bug - seht selbst

Autoplay

Technische Architektur: Chiplets, HBM4 und neue Fertigungstechnologie

Die Rubin-GPU markiert einen Wandel in Nvidias Chip-Design. Erstmals setzt der Hersteller auf eine Chiplet-Architektur statt auf monolithische Dies. Jede Rubin-GPU besteht aus zwei großen Recheneinheiten, die von acht HBM4-Speicherstapeln umgeben sind, sowie wahlweise einem oder zwei I/O-Chiplets.

Für die Produktion nutzt Nvidia den 3NP-Prozess. Hierbei handelt es sich um einen Fertigungsprozess des taiwanischen Halbleiterherstellers TSMC mit einer Strukturbreite von drei Nanometern, wodurch die Chips kleiner, schneller und energieeffizienter werden.
Gegenüber dem bei Blackwell verwendeten 4NP-Prozess mit einer Strukturbreite von vier Nanometern bietet die neue Fertigung so zudem eine deutlich höhere Logikdichte – gemeint ist die maximal Anzahl an Schaltkreisen, die auf einem Chip Platz finden.

Halbleiterfertigung im Detail

20.000 mal dünner als ein menschliches Haar: Darum werden die Strukturen moderner Prozessoren immer kleiner

von Sven Scharpe

Nicht nur die reine Fertigung, auch das »Packaging« – also das Unterbringen mehrerer Chips auf einem Träger – ist bei solchen Superchips ein wichtiger Faktor.

Beim schon im Vorgänger verwendeten »CoWoS-L« (Chip-on-Wafer-on-Substrate), das ebenfalls von TSMC stammt, werden mehrere Chips sowie der Speicher auf einem einzigen Silizium-Träger verbunden, was die hohen Geschwindigkeiten erst ermöglicht.

Kombiniert mit einer geschätzten TDP von 1.800 Watt ergibt sich so ein massiver Leistungssprung: Nvidia-CEO Jensen Huang beschrieb das System enthusiastisch als »unglaublich schönen Computer« mit satten 100 Petaflops FP4-Rechenleistung für KI-Anwendungen.

HBM4-Speicher: Verdoppelung der Bandbreite

Die Integration von HBM4-Speicher stellt einen weiteren Leistungsschub dar. HBM steht an dieser Stelle für »High Bandwidth Memory« und bezieht sich auf einen GPU-spezifischen Speicher, bei dem die Speicherchips (auch »Dies« genannt) übereinander gestapelt werden.

Daraus resultiert nicht nur eine enorm hohe Bandbreite – gegenüber dem Vorgänger wird die auf bis zu 2 TB/s pro Speicherstapel verdoppelt –, sondern auch eine höhere Energieeffizienz gegenüber dem klassischen Videospeicher, den ihr auch in euren Grafikkarten findet.
Zudem erlaubt das Stapeln solcher Dies hohe Kapazitäten: Bei HBM4 lassen sich 16 Dies auf einem Stapel zusammenfassen; pro Speicherchip stecken jeweils 32 Gigabit an Kapazität drin. Insgesamt ergibt sich so eine Gesamtkapazität von 64 GByte, was eine Verdoppelung gegenüber dem Vorgänger darstellt.

Nachvollziehbarerweise ist HBM dadurch der bevorzugte Speichertyp für KI-Beschleuniger. Den zugehörigen HBM4-Standard hat die JEDEC-Organisation erst kürzlich im April 2025 festgelegt; Nvidias neue Generation ist gewissermaßen das Debüt für die überarbeitete HBM-Fassung.

Gut zu wissen: Die JEDEC (»JEDEC Solid State Technology Association«) ist die US-amerikanische Organisation, die die Standards für Halbleiter festlegt.

Im Consumer-Bereich gibt die JEDEC aktuell etwa beim Arbeitsspeicher vor, welche Taktfrequenzen und Latenzen die Standardgeschwindigkeiten darstellen. Für DDR5-RAM gibt es demzufolge unter anderem Datenraten von 6.000 MT/s mit einem CL-Timing von 42.

Produktionsstatus und Zeitplan

Alle Chips der Rubin-Plattform haben bereits das Tape-out erreicht – dabei handelt es sich um den Zeitpunkt in der Designphase eines Chips, bei dem die Fotomaske des finalen Designs (gewissermaßen die Blaupause eines Chips) an den Auftragsfertiger übergeben wird. Im Falle des Vera-Rubin-Superchips ist das der jahrelange Nvidia-Partner TSMC.

Dies bestätigte Nvidias CFO Collette Kress während einer Analystenkonferenz im vergangenen August (via Tom's Hardware). Nvidia plant die Massenproduktion demzufolge für Ende 2026, wobei erste Systeme Anfang 2027 bei Kunden eintreffen könnten.

Die Blackwell-Vorstellung 2024

Neue Maßstäbe? Was da gerade auf der GTC gezeigt wurde, wird man Nvidia aus den Händen reißen

von Jusuf Hatic

Was das für eure vielleicht zukünftige Gaming-GPU bedeutet

Bei dem vorgestellten Vera-Rubin-Superchip handelt es sich um ein auf KI-Rechenzentren ausgelegtes Modell – dass ihr das Teil mal in eurem heimischen PC vorfinden werdet, ist also maximal unwahrscheinlich.

Dennoch gibt die GTC-Präsentation wie in den Jahren zuvor einen möglichen Ausblick auf kommende Grafikkarten im Gaming-Bereich, denn immerhin wird auch die (mutmaßlich sogenannte) RTX-6000-Generation auf die Rubin-Architektur setzen.

Der Wechsel der Fertigung von N4P auf N3P könnte ein Vorgriff auf kommende Gaming-GPUs sein, der einige Vorteile nach sich ziehen würde.

Seit der RTX 4000 setzt Nvidia nämlich auf den älteren N4P-Prozess; für die nächste GPU-Generation würde ein Wechsel zeitlich Sinn ergeben. Auch hier würden höhere Energieeffizienz und Platz für mehr Transistoren auf der Habenseite stehen.
In konkreten Schätzungen: Bei einer ähnlichen Leistungsaufnahme wie die RTX 5090 (575 Watt) dürfte eine gedachte RTX 6090 bei rund 20 Prozent Performanceplus liegen – oder umgekehrt bei gleichbleibender Performance in ähnlicher Prozentzahl effizienter arbeiten.