Was vor 20 Jahren einem Supercomputer erstmals gelang, schafft nun eine Grafikkarte - doch ist der Vergleich zulässig?

Blue Gene/L von IBM war lange Zeit der schnellste Supercomputer der Welt. Doch seither hat sich viel getan.

Hier im Bild links zu sehen der IBM Blue GeneP, der Nachfolger des Blue GeneL. (Bildquelle: FlickrArgonne National Laboratory, Nvidia) Hier im Bild links zu sehen der IBM Blue Gene/P, der Nachfolger des Blue Gene/L. (Bildquelle: Flickr/Argonne National Laboratory, Nvidia)

Vor zwei Jahrzehnten gelang es IBM mit dem Supercomputer Blue Gene/L, eine fast magische Grenze der Rechenleistung zu durchbrechen: die 100 Billionen Rechenoperationen pro Sekunde. Eine schier unvorstellbare Zahl, für die im Jahr 2005 sogar der in Fachkreisen renommierte Gordon Bell Preis verliehen wurde.

Nur 20 Jahre danach gelingt dieses Kunststück nun erstmals einer einzelnen Grafikkarte. Nvidias RTX 5090 ist ebenfalls in der Lage, mehr als 100 Billionen Rechenoperationen pro Sekunde durchzuführen – satte 104,8 TFLOPS bringt das neue Flaggschiff auf die Waage.

Ein Meilenstein, für wahr. Aber lässt sich das überhaupt miteinander vergleichen?

Die kurze Antwort: Nein, nicht wirklich. Um zu klären, warum das so ist, schauen wir uns zunächst einmal an, worin Blue Gene/L eigentlich genau den Rekord aufgestellt hat.

So wird die Performance von Supercomputern gemessen

Typischerweise wird die Leistung von Supercomputern der TOP500-Liste mit dem High Performance Linpack Benchmark (HPL) bestimmt.

Dabei werden anspruchsvolle mathematische Aufgaben gelöst (lineare Gleichungssysteme mit n Unbekannten und n Gleichungen) und geschaut, wie viele Gleitkommaoperationen pro Sekunde bei einer bestimmten Genauigkeit (FP32 oder FP64) ausgeführt werden.

In der Regel werden dabei Gleit- beziehungsweise Fließkommazahlen mit 64 Bit (FP64) herangezogen, weil für wissenschaftliche Berechnungen eine hohe Präzision besonders wichtig ist.

Blue Gene/L wurde ebenfalls mit FP64 gemessen, was wesentlich mehr Rechenleistung erfordert als FP32 - im November 2004 kam er so auf 70,7 TFLOPS FP64.

Allerdings waren die einzelnen Knoten (Nodes zu je zwei Prozessoren) speziell auf FP64-Berechnungen zugeschnitten. Zum Einsatz kamen insgesamt 32.768 PowerPC 440-Prozessoren, die mit je 700 MHz takteten.

Als der Supercomputer 2005 damit die Marke von 100 Billionen Gleitkommaoperationen pro Sekunde (TFLOPS) durchbrach, wurde er jedoch nicht mit HPL gemessen, sondern simulierte die hochkomplexe Dynamik bei der Erstarrung von geschmolzenem Metall unter hohen Druck- und Temperaturbedingungen.

Das heißt, er war in der Lage, die Performance auch auf die Straße zu bringen.

So wird die Rechenleistung einer Grafikkarte bestimmt

Damit kommen wir zur RTX 5090. Ihre theoretische Rechenleistung liegt bei 104,8 TFLOPS. Der Wert ist nicht gemessen, sondern ergibt sich aus folgender Berechnung:

Shader-Rechenheiten x Taktfrequenz (MHz) x Operationen pro Takt / 1.000.000 = TFLOPS

Und ganz wichtig: Dabei handelt es sich um TFLOPS mit einer Präzision von 32 Bit, also FP32.

Video starten 1:01 Nvidia stellt endlich die neue GeForce RTX 50-Serie vor

Der Wert für die TFLOPS FP64 der RTX 5090 liegt bei 1,6 – das ist nur ein Bruchteil dessen, was Blue Gene/L geschafft hat. Die Formel hierzu lautet:

Zahl der FP64-Recheneinheiten x Takt (MHz) x Operationen pro Takt / 1.000.000 = TFLOPS FP64

Da bei Gaming-Grafikkarten der Schwerpunkt auf Gleitkommaoperationen mit einer Genauigkeit von 32 Bit liegt, wird die FP64-Leistung reduziert, sprich: Es werden weniger FP64-Recheneinheiten auf der GPU verbaut.

Das allein zeigt, dass der Vergleich zwischen Blue Gene/L und einer RTX 5090 rein anhand eines Wertes ohne zusätzliche Angaben nicht zulässig ist.

Dazu kommt, dass der Supercomputer aus CPUs mit je einem einzigen Kern bestand und nicht aus GPUs mit vielen Kernen. Die Graphics Processing Unit auf der RTX 5090 verfügt über satte 21.760 Shader-Einheiten. Außerdem sind darauf noch Tensor- und Raytracing-Kerne verbaut, die allerdings nicht in die klassische FP32-Leistung einfließen.

CPUs funktionieren anders als GPUs

CPUs haben im Vergleich deutlich weniger Kerne (zwischen einem und ein paar wenigen Hundert), die jedoch darauf optimiert sind, unterschiedliche, komplexe Berechnungen möglichst schnell und in der Regel sequentiell, also nacheinander auszuführen.

Per Multithreading oder wenn viele CPUs miteinander verdrahtet sind, können aber auch sie für parallele Berechnungen verwendet werden.

GPUs wiederum arbeiten generell hochgradig parallelisiert. Sie führen sehr viele relativ simple Additionen und Multiplikationen gleichzeitig durch, was ideal für die Berechnung von Spielegrafik ist.

Ein gängiger Vergleich beschreibt CPUs als Flugzeuge, die unterschiedlichste Fracht besonders schnell transportieren können. Im selben Bild sind GPUs riesige Frachtschiffe, die zwar lediglich Container (der Inhalt wird nicht berücksichtigt) mit geringerer Geschwindigkeit, dafür aber umso mehr davon transportieren können.

Zusammengefasst:

  • CPU-Kerne sind schneller und flexibler als GPU-Kerne (aktuell etwa 5 GHz im Mehrkernbetrieb einer CPU versus rund 2,8 GHz aller Kerne auf einer GPU).
  • GPU-Kerne sind auf Parallelisierung und wenige grundlegende Funktionen ausgelegt. Dafür gibt es um Größenordnungen mehr von ihnen auf einer GPU, als Kerne auf einer CPU sitzen.
  • Der Vergleich von CPU-TFLOPS mit GPU-TFLOPS ist somit nicht zulässig.

Die neuesten Supercomputer kombinieren die Power von CPUs und GPUs. Auf Platz eins der TOP500 steht im Augenblick El Capitan (USA) mit 1.051.392 CPU-Kernen (AMD Epyc 24 Kerne, nicht näher spezifiziert) und 9.988.244 GPU-Kernen (AMD Instinct MI300A).

Seine Rechenleistung wird nicht mehr in TeraFLOPS, sondern in PetaFLOPS gemessen. Unter Volllast kommt El Capitan auf 2.746 PFLOPS FP64.

Blue Gene/L führte die TOP500-Liste von 2004 bis 2007 an. Dabei wurde er immer wieder erweitert und schaffte am Ende 596 TFLOPS FP64.

zu den Kommentaren (9)

Kommentare(7)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.