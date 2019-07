Datensicherheit, Geschwindigkeit und Redundanz (Ausfallsicherheit) sind in der IT seit Langem die Domäne von RAID-Systemen. RAID steht für »Redundant Array of Independent Disks« (grob: redundanter Verbund einzelner Festplatten).

Für NAS-Systeme und File-Server sind Festplatten-Raids zum Standard geworden. Dabei nutzen verschiedene Raid-Verfahren zwei oder mehrer Festplatten entweder gespiegelt als Ausfallsicherung für den Fall eines Defekts eines der Datenträger.

Es gibt aber auch Raid-Verfahren, welche die Performance steigern, indem Daten gleichzeitig im Wechsel auf beide HDDs (oder SSDs) geschrieben oder von ihnen gelesen werden - dazu kommen mehrere Mischverfahren, die sowohl mehr Performance als auch mehr Sicherheit gegen Defekt bieten.

Problematisch wird das in der Regel nur, wenn gleich mehrere Datenträger auf ein Mal ausfallen, was in Systemen mit wenigen Festplatten sehr selten ist.

In Clustern, wo es um einige hundert Festplatten geht, ist die Wahrscheinlichkeit des Ausfalls mehrere Datenträger aber relativ hoch.

In dem Fall müssen die Daten zeitintensiv aus einem Backup wiederhergestellt werden oder sind gleich ganz verloren.

Erasure Coding als RAID-Nachfolger

Große Rechenzentren haben daher meist zwei volle Duplikate sämtlicher Daten, was viel Geld (alle Speichermedien doppelt bzw dreifach) kostet. Das mathematische Verfahren Erasure Coding könnte Abhilfe schaffen und wird jetzt schon von vielen als RAID-Nachfolger gesehen.

Bei Erasure Coding werden Daten gekapselt auf physisch getrennten Datenträgern verteilt, ebenso eine gewisse Anzahl an Paritäten, aus denen sich beschädigte oder nicht lesbare Teile mathematisch wiederherstellen lassen.

Wie viele Teile ausfallen dürfen, kann dabei vom Cluster-Anbieter selbst bestimmt werden. So können zum Beispiel die Daten in 10 Blöcke unterteilt werden mit gleich fünf Datenträgern abgesichert. Dafür sind dann insgesamt 15 Datenträger gleicher Größe benötigt. Raids arbeiten mit maximal zwei Paritäten.

Der Backup-Anbieter Backblaze nutzt dieses Verfahren bereits für seine Backups. Dabei werden 20 identische Server zusammengefasst. Drei dieser Server werden als Parität genutzt und sorgen laut eigener Angabe für eine Datensicherheit von 99,999999 Prozent.

Rechenleistung entscheidender RAID-Vorteil

Raids bieten allerdings noch immer einen entscheidenden Vorteil: Sie kosten praktisch keine Rechenleistung. Die Erstellung von Datenkapseln und Paritäten mittels Erasure Coding kostet dagegen deutlich mehr Rechenleistung als das einfache Teilen oder Duplizieren von Daten.

In kleinen NAS-Systemen oder kostengünstigen Systemen ist diese Rechenleistung nicht vorhanden. Für große Cloud-Server, bei denen teilweise Terabyte-Datenblöcke bei Festplattenausfall rekonstruiert werden müssten, ist dafür ein Raid-System keine echte Alternative mehr. Datensicherheit ist bei solchen Datenmengen im Raid nicht mehr wirtschaftlich.

Gleichzeitig wird durch die stetig steigende Leistung selbst von Einsteiger-Hardware auch die Nachteile von Erasure Coding immer geringer, sodass Raid-Systeme immer unwirtschaftlicher werden und mittelfristig auch im Privatgebrauch von Erasure Coding abgelöst werden sollen.