Beim Training großer Sprachmodelle gibt es eine Grenze, die nicht mal eben mit reiner Rechengeschwindigkeit gelöst werden kann: die »Speichermauer«. Je größer ein Modell, desto mehr Parameter müssen während der Inferenz im GPU-Speicher gehalten werden – und desto schneller gerät man an die Kapazitätsgrenze.
- Die Ursache liegt in der Packaging-Technologie: Ein KI-Chip-Die kann nur eine begrenzte Anzahl an HBM-Stacks (Speicherstapel) nebeneinander aufnehmen, weil die Verbindungen zwischen Rechen-Die und Speicher-Dies extrem eng gebaut werden müssen.
- Aktuelle High-End-Chips wie Nvidias GB200 nutzen 12 HBM-Stacks; darüber hinaus scheitern klassische Architekturen an physikalischen Grenzen.
Ein neues Patent von OpenAI beschreibt nun eine Architektur, die diese Grenze mit einer anderen Verbindungstechnologie durchbrechen will. Bei den sogenannten »Embedded Logic Bridges« handelt es sich um in die Substrat-Verpackung eingebettete Silizium-Brücken, die den Rechen-Chiplet mit bis zu 20 HBM-Speicherstacks verbinden.
55:02
KI fair und transparent? Experten erklären, wo es hakt und was sich ändern muss
Mehr Speicher, immer mehr Speicher
Das über den »Patentanalysten« seti_park auf X verbreitete Konzept klingt vergleichsweise ähnlich zu Intels EMIB-Forschung (Embedded Multi-die Interconnect Bridge).
- Statt einen großen Interposer unter das gesamte Paket zu legen – so wie TSMCs CoWoS, das Nvidia für seine Chips nutzt –, werden kleine Silizium-Brücken nur dort in das Substrat eingebettet, wo schnelle Die-to-Die-Kommunikation tatsächlich benötigt wird.
- Das senkt (zumindest in der Theorie) die Kosten bei zeitgleich verbesserter Ausbeute und erlaubt mehr Flexibilität beim Platzieren der Speicherstacks.
Diese Flexibilität nutzt der OpenAI-Chip aus, um mehr HBM-Stacks zu platzieren, sodass die Menge an verfügbarem Speicher um das anderthalbfache gegenüber den führenden Lösungen steigen kann. Ingesamt zählen wir 20 Speicherstapel, die rund um das Chiplet platziert werden:
Link zum Twitter-Inhalt
Dass OpenAI auf etwas EMIB-ähnliches schielt, bekommt vor dem Hintergrund der aktuellen Marktsituation noch eine zusätzliche Ebene an Spannung.
Denn TSMC, der weltgrößte Halbleiterfertiger, ist schon lange an seine CoWoS-Produktionsgrenze angelangt. Selbst Nvidia hat inzwischen damit begonnen, milliardenschwere Aufträge an Intel zu vergeben – zwar nur in »unkritischen Volumen«, aber dennoch auch als Signal für TSMC.
Und natürlich bedeutet ein Patent noch lange kein fertiges Produkt. Ein Fingerzeig für die OpenAI-Ambitionen für den hauseigenen Chip ist das Konzept aber allemal.
Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.