10-, 40- oder 100-GbE? Wahrscheinlich eher 25, 50 und 100!

Kommentieren Drucken

40-GbE ist schon seit rund zehn Jahren sehr umstritten. Jetzt kommen die ersten Switch-Produkte dafür auf den Markt, aber allesamt mit für den Einsatz in RZs sehr suboptimalen Verbindungssystemen. Mit der neuen 25 Gigabit Ethernet Alliance mit Unterstützung von Google, Microsoft, namhaften Netzwerkern und anderen Herstellern ist recht plötzlich eine massive Gegenbewegung entstanden, für die es handfeste technische Argumente gibt.

Reale und Internet-Modeshops bieten für gutes Geld nagelneue Jeans mit fertigen Löchern an. Ein Sinn erschließt sich nicht sofort, die Möglichkeit gezielter Steuerung von Sonnenbrand- oder Erfrierungsflecken erscheint kaum hinreichend. Auf Nachfrage wurde mir dann gesagt, dass dies eben Mode sei. Alles in allem erinnert mich das an 40-Gb-Ethernet, jetzt ist 40-GbE offensichtlich Mode. Aber wie bei den Löchern in den Jeans muss man nicht jede Mode mitmachen! Ich behaupte schon seit Jahren, dass niemand diese Datenrate wirklich benötigt, war aber dabei ziemlich alleine.

Jetzt gibt es erhebliche Verstärkung. Vor einiger Zeit hat sich das „25 Gigabit Ethernet Consortium“ gebildet. Unternehmen wie Google, Microsoft, Arista und Mellanox wollen mit dieser Industrie-Vereinigung innerhalb von IEEE 802 die Entwicklung eines Standards für 25- und 50-GbE vorantreiben.

Das machen sie nicht aus purer Lust am Krawall, sondern aus realem Bedarf. Sieht man nämlich genau hin, gibt es aktuell keine für das RZ wirklich sinnvolle 40-G-Variante. 40GBASE-SR kann Distanzen von 100 m und in einer erweiterten Version 200 m überwinden, die dazu gehörige MPO-Verkabelung ist allerdings eine teure Katastrophe ohne Hoffnung auf Hochrüstbarkeit zu 100 G (siehe Artikel von Herrn Kell, Netzwerk Insider Dezember 2013). Das kann man für einige wenige Server machen, aber nicht systematisch im RZ und/oder bei Tausenden Servern. Die BiDi-Variante von Cisco ist pfiffig, aber auch noch zu teuer. Und die besser geeignete Lösung 40GBASE-T ist noch nicht verfügbar, sondern noch in einem Stadium, in dem über Kabel diskutiert wird, was dauern kann, wie wir wissen.

Es gibt aber noch eine Reihe weiterer Argumente, auf die ich gleich kommen werde. Ausgehend von der ersten Initiative der genannten Unternehmen gibt es jetzt bereits mehr Unterstützer, wie die aktuelle Liste der Unternehmen zeigt (siehe Bild 1).

Die Liste wird länger, zum Zeitpunkt der Manuskripterstellung waren noch weitere Unternehmen im Assoziationsprozess.

Was sind nun technische Gründe für 25-G?

Zunächst greift man die aktuelle Anschlussproblematik auf. Primäres Ziel der Arbeitsgruppe sind Techniken für den Anschluss von Servern an ToR-Switches, also zunächst kurze Strecken. Bei 40-G gibt es ja dafür den Twinax-Standard 40GBASE-CX mit einer maximalen Übertragungsdistanz von 7 m. Aber, muss es 40-G sein?

Intels x86 CPUs verbessern sich in I/O-Funktionalität und Geschwindigkeit. Hier ist 10-GbE nicht mehr schnell genug. Natürlich könnte man auf die Idee kommen, Link Aggregierung zu nutzen. Für einen Server-Block würde alleine die Aufrüstung von 10- auf 20-GbE doppelt so viele notwendige Ports in den ToR-Switches, doppelt so viele Stecker und NICs und doppelt so viele Leitungen bedeuten, ganz abgesehen von der Notwendigkeit, in die Uplinks ebenfalls mehr Leistung zu geben, um die Überbuchung nicht zu übertreiben. Wie gesagt, bei einem oder zwei Servern kann man das machen, aber nicht in einer Server-Farm z.B. eines Cloud Providers. Prozessoren der nächsten Generation der Intel „Grantley“ CPUs werden im dritten Quartal 2014 ausgeliefert und Server, die mit ihnen ausgestattet sind, kommen mit 10-GbE nicht mehr aus. Die versteckten Kosten einer Lösung mit Link Aggregierung sind auch bei sehr günstigen 10-GbE-Port-Preisen viel zu hoch, weil eine Verdopplung der Ethernet Switches ja auch entsprechende Kosten in Platz- und Strombedarf sowie in der Kühlung nach sich zieht.

Eine 40-GbE-Lösung für diesen Zweck ist aber völlig übertrieben. Hier würde man für sehr viel Geld Überkapazitäten aufbauen, die man in den nächsten ein oder zwei Jahren nicht benötigt.

Aber damit nicht genug. Wir haben heute eine Reihe von 40-GbE-Switches von vielen Herstellern am Markt. Diese 40-GbE-Switches basieren mit wenigen Ausnahmen auf einer rund zwei Jahre alten Technologie in den Switch-ASICs, die Chips wie der Trident von Broadcom oder der Switch-X von Mellanox wurden 2011/2012 entwickelt und es dauert rund zwei Jahre, bis sie in Masse verbaut sind. Man erkennt diese Chips aber vor allem daran, dass sie meist auch sehr freizügig als 10-G- oder 10-G/40-G-Kombi-Switches konfiguriert werden können. Das liegt grundsätzlich an der Definition des skalierbaren Ethernets im Standard IEEE 802.3ba. Höhere Datenraten werden grundsätzlich durch eine Kombination niedrigerer Datenraten mit einem Multi-Lane-Konzept dargestellt. Die kleinste Auflösung ist übrigens 2,5-GbE. Ein Switch-ASIC mit z.B. 16 40-GbE-Ports kann leicht zu einem Switch mit 4 x 40-GbE und 48 x 10-GbE oder sogar zu einem 64 X 10-GbE-Switch konfiguriert werden.

Diese aktuellen Switch-ASICs sind aber in zwei bis drei Jahren, wenn die größere Menge der Intel E7-Prozessoren über die Netze hereinbricht, bereits 5 Jahre alt! Sie zerfallen dann noch nicht zu Staub, sollten sie aber besser. Denn es gibt ab jetzt schon 100 GbE Switch-ASICs, die ersten werden sogar bereits verbaut. Im 7500 E von Arista befindet sich das flammneue ASIC nach der Dune-Architektur von Broadcom. Das war bislang Providern vorbehalten, der CRX-1 Router von Cisco arbeitet mit ähnlichen Chips. Mellanox hat vor wenigen Wochen mit dem Switch X-3 einen 100-G-Infiniband-Switch-ASIC vorgestellt. Es gibt keinen Grund, warum er nicht genau wie seine Vorgänger Ethernet einfach nachmachen kann.

Von den vielen möglichen Varianten bei 100-G greifen wir jetzt die heraus, die für das RZ am Besten brauchbar ist, nämlich mit vier Lanes zu je 25 Gbit/s über Fiber oder Kupfer. Einsteckbare Transceiver-Module mit kompakten Formfaktoren, wie dem C-Formfaktor (SFP/CFP) haben vier VCSELs, die jeweils mit 25 Gbit/s arbeiten. Für jede Lane braucht man ein SerDes-Chipset, siehe Bild 2.

Der 25-GbE-Standard wird die gleiche physikalische Chipstruktur wie eine einzelne 25 Gbit/s. Lane haben. Das vereinfacht den Herstellungsprozess, es müssen nur einige kleinere Änderungen in der Vorwärts-Fehlerkontrolle und dem Lane-Alignment gemacht werden. Die Herstellungskosten sind aber geringer als für 40-GbE.

Und damit sind wir beim wesentlichen Faktor: den Kosten. 25-GbE wird einen ordentlichen Leistungsgewinn gegenüber 10-GbE haben, dabei aber die geringsten Kosten aller möglichen anderen Alternativen aufweisen. Anshul Sadana, Senior Vize-Präsident bei Arista Networks erwartet für die erste Generation von 25-GbE die 2,5-fache Leistung zum 1,5-fachen Preis gegenüber 10-GbE. In der zweiten Generation werden seiner Ansicht nach die Preise für 10-GbE und 25-GbE gleich sein, wobei 25 GbE eben die 2,5-fache Leistung hat. Das entspricht eher dem alten Ethernet-Versprechen bei Generationenübergängen. Bei 100-M auf 1-G und 1-G auf 10-G wurde mittelfristig immer die zehnfache Leistung zum dreifachen Preis erreicht. Die Mehrleistung kann ohne Erhöhung der Betriebskosten gefahren werden, weil sich die Anzahl der Komponenten ja nicht erhöht.

Das 25 Gigabit Ethernet Consortium wurde gegründet, um die Arbeit von IEEE zu beschleunigen, die ja, wie wir wissen, notorisch langsam sind und viel zu oft von der Realität überholt werden. Das Consortium steht in einer Reihe mit der Ethernet Alliance, dem Metro Ethernet Forum oder auch WiFi, die ja alle dafür gesorgt haben, dass aus den IEEE-Ansätzen irgendwann etwas Funktionsfähiges wurde.

Google und Microsoft sind wichtige Schwergewichte in der 25-GbE-Gruppe. Dell´Oro vermutet, dass 10% der Server-Umsätze in 2013 auf White Box Server entfallen, andere Marktforscher gehen auf bis zu 30%. Von Arista ist bekannt, dass sie sowohl Google als auch Microsoft mit Technologie einschließlich der Mellanox-Adapter versorgen. Der Standard wird keine Verkabelungssysteme definieren, sondern die Hersteller entscheiden, was sie unterstützen wollen. Aus Kostengründen werden das zunächst primär Twinax-Kabel sein, da kann man sich auch noch die optischen Transceiver sparen, aber optische Verbindungen sind natürlich nicht ausgeschlossen. Hier kann man sich bestehender 10-G-Technik bedienen. Hinreichend leistungsfähige VCSELs und PINs in den Transceivern vorausgesetzt, kann man durchaus die alte Milchmädchenrechnung bei Fasern über das Bandbreite/Reichweite-Verhältnis anwenden: eine 10-G-Lösung, die mit einer Faser/Steckerkombi über 100 m funktioniert, wird mit der gleichen Faser über bis zu 40 m auch 25-G übertragen können.

Ohne hier jetzt tiefer zu gehen: Durch die Integration optischer Elemente „funktioniert“ Moore’s Law auch bei der Elektronik hinter optischen Übertragungssystemen. Die Erwartung, dass ein 25-G-Transceiver in zwei Jahren nicht mehr kostet als ein 10-G-Transceiver ist völlig berechtigt. Der 10-G-Transceiver sinkt allerdings nicht mehr im Preis, wenn er nicht weiter mit multiplen Strukturen wachsen kann.

Bei der Entwicklung des Standards zu 40- und 100-GbE gab es ja schon um 2005 größere Diskussionen hinsichtlich 40- und 25-GbE. Damals hat sich IEEE für die 40-GbE-Variante entschieden, die ganz klar durch den Bedarf von Providern für Fernstrecken gekennzeichnet ist und ja dort auch zu respektablen Lösungen geführt hat. Die Provider arbeiten jetzt an der flächigen Einführung von 100-G oder mehr. Das Aufkommen von Cloud-Service-Providern hat aber gegenüber damals die Landschaft für den Einsatz von Ethernet-Varianten mit mehr als 10-GbE innerhalb von RZs massiv verändert. Hier möchte man unkomplizierte Hochgeschwindigkeitskommunikation zu günstigen Preisen.

Auch wenn wir das in diesen Medien kaum verfolgen, die wirklichen technischen Fortschritte gab es bei 100-G, sowohl in der Übertragungstechnik als auch beim Switching. Eine erhöhte Produktion integrierter VCSELs und anderer optischer Komponenten führt zu günstigen Preisen. Es ist durchaus eine sehr nahe liegende Idee, auf dem Weg von 10-G zu 100-G im RZ keine artfremde Technologie zu verwenden, sondern bereits vorliegende, erfolgreiche Elemente der 100-G-Technologie in anderer Weise zu verwenden. So kommt man natürlich auch sehr einfach zu 50-G, auch wenn es momentan nicht benötigt wird.

Konsequenzen

Nur wer massiv mit dem Klammerbeutel gepudert ist, wird bereits jetzt 40-G in größerem Maße anschaffen. Nochmal in Kurzform:

  • Für die bald kommende Generation von Servern ist 40-G überdimensioniert.
  • Für Uplinks, ob nun in traditionellen oder Fat-Tree-Architekturen, ist 40-G zu schlapp, hier sollte es schon 100-G sein.
  • Die bestehenden 40-G-Varianten sind für das RZ weitest gehend ungeeignet.
  • Die bestehenden 40-G-Varianten können nicht auf 100-G hochgerüstet werden.
  • Die sinnvollste denkbare Variante 40GBASE-T hängt noch im Kabelstreit.
  • 25-G kommt Mitte bis Ende 2015. Alle Komponenten sind verfügbar, die Hersteller müssen sich nur noch einigen, die Blaupausen für die Chinesen, die es zusammenbauen sollen, zeichnen und Schildchen draufkleben.
  • Dadurch, dass 25-G so schnell kommt, könnte der Markt für 40-G in sich zusammenfallen, bevor er wirklich entsteht (DBA!).
  • Alle Fans exotischer Protokolle zweifelhaften Nutzwertes wie FCoE bekommen natürlich bei 25-G die gleiche Dröhnung, die sie schon von 10-G gewohnt sind, weil es ohnehin in den Controller-Chips enthalten ist.
  • Für Fat-Tree-Architekturen wird sich auf Basis der bereits existierenden neuen Switch-ASICs eine natürliche Mischung aus 10-, 25- und 100-G für die Leave-Switches durchsetzen.

Ganz fein raus sind natürlich all jene, die heute und auch in einem oder zwei Jahren keine Engpässe durch 10-GbE haben, einfach weil ihre Anwendungen noch bescheiden genug sind und auf Servern laufen, die sich bei der I/O-Performance zurückhalten.

In der Zukunft liegen nämlich durchaus erhebliche Unsicherheiten hinsichtlich möglicher Kommunikationsarchitekturen im RZ. Google und Microsoft mögen ja für ihre Server-Farmen ToR-Switches einsetzen, ich selbst halte das aber für ein mittelfristig überkommenes Konzept, wie ich ja schon mehrfach in Artikeln dargelegt habe. Intel selbst arbeitet unverhohlen daran, die gesamte Kommunikation in die Prozessoren zu legen, indem man kooperierende Switching-Felder erzeugt. Für HPC gibt es bereits Prototypen sowohl von derart erweiterten Prozessoren als auch von massiv parallelen Rechnern, in denen diese verbaut sind. Zusammen mit einer eigenen Kommunikationsarchitektur könnte das dazu führen, dass wir in zwei oder drei Jahren nicht mehr darüber diskutieren, wie ein RZ-Netz aussieht, sondern ob es überhaupt noch eins gibt.

Wenn Sie also noch mitdiskutieren wollen, kommen Sie massenhaft zu unserem diesjährigen ComConsult RZ-Infrastruktur-Forum 2014!

zugeordnete Kategorien: Data Center, LAN
zugeordnete Tags: , , , , , , ,

Sie fanden diesen Beitrag interessant? Sie können



Anmerkungen, Fragen, Kommentare, Lob und Kritik:

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

.