RTX 3090 mit 10.496 Kernen: Nvidia erklärt, wie das möglich ist

Die Leaks im Vorfeld lagen richtig, aber interpretierten falsch. (Bildquelle: Nvidia)

Kaum ein Detail zu Nvidias neuen Grafikkarten wurde zuletzt so heiß diskutiert, wie die Frage nach der Zahl der Shader-Einheiten. Die wurde laut offiziellen Angaben gegenüber den jeweiligen RTX-2000-Pendants mehr als verdoppelt und gegenüber den Leaks im Vorfeld exakt verzweifacht.

Es gab verschiedene Theorien: Die einen sprachen von schlichtem Marketing, das lediglich auf einer der virtuellen Kernverdoppelung entsprechenden Technologie beruht, wie man sie von modernen CPUs kennt. Echte 10.496 Kerne, wie im Falle der RTX 3090, seien das nicht.

So zum Beispiel unter unserer Plus-Kolumne, in der wir unter anderem der Frage nachgehen, was Nvidia mit solch einem Leistungssprung bezwecken und was die Gründe dafür sein könnten:

Andere wiederum sahen die Möglichkeit, dass einzelne Strukturen tatsächlich verdoppelt wurden, aber eben nicht alle. Der Vorwurf der Irreführung zog sich daher wie ein roter Faden durch die Argumentation. Nvidia hat diese Frage nun jedoch endgültig geklärt: Demnach handelt es sich tatsächlich um echte Recheneinheiten, auch wenn sich Nvidia einer geschickten Technik bedient.

FP32-Einheiten wurden verdoppelt

Die sogenannten Streaming-Multiprozessoren, welche die Shader-Einheiten beherbergen, wurden für Ampere neu designt. Wo mit den RTX 2000 auf Basis der Turing-Architektur noch 64 FP32-Operationen pro SM durchgeführt werden können, schafft Ampere 128 FP32-Operationen.

Wie funktioniert das? Nvidia verbaut pro Shader-Cluster 64 reine FP32-Einheiten, dazu kommen noch 64 weitere Shader, die sowohl aus FP32- als auch INT32-Einheiten bestehen. Diese können jedoch nicht gleichzeitig eingesetzt werden, sondern abhängig von den jeweiligen Anforderungen - quasi entweder oder.

FP32: steht für Gleitkommaberechnungen mit einer Präzision von 32 Bit.
INT32: steht für Ganzzahlberechnungen mit einer Präzision von 32 Bit.

Wie Nvidias Senior Vice President of Content and Technology Tony Tamasi via Reddit ausführt, kommt FP32-Operationen aber eine zentralere Bedeutung mit Blick auf die Performance zu. Deshalb habe man sich für die RTX 3000 zum Ziel gesetzt, dies zu verdoppeln.

Weitere technische Details zu den RTX 3000 könnt ihr im folgenden Text nachlesen:

Leaks lagen richtig, aber interpretierten falsch

Nun ist auch klar, wieso die Leaks im Vorfeld alle falsch gelegen haben und beispielsweise für die RTX 3090 5.248 Shader-Einheiten vorhersagten, also genau die Hälfte.

Alle sind von 64 FP32-Einheiten pro Streaming-Multiprozessor ausgegangen, da dies zuletzt immer der Fall War. Die Zahl der Streaming-Multiprozessoren blieb auch unverändert bei den erwarteten 82 (82 x 64 = 5.248, 82 x 128 = 10.496).