Neue Technologien für Converged Network Adapter

Kommentieren Drucken

In verschiedenen Publikationen wurden Entwicklung und Bedeutung speicherbasierender Switch-ASICs vorgestellt. Sie werden zu völlig neuen Produktgenerationen führen, die neben erheblich erhöhter Leistung und gesenkter Latenz auch noch wesentlich weniger Strom verbrauchen als ihre Vorgänger. Zu diesen neuen Switches gehören aber auch neue Netzwerk-Adapter, damit ihre Fähigkeiten vollständig ausgenutzt werden können. Der aktuelle Stand sind 10 GbE Dual-Port CNAs. Das ändert sich aber bald, denn die Quad-Port CNAs stehen bereits vor der Tür und bieten neben mehr Funktionen vor allem eine viel glattere Migration zu 40 GbE, falls diese nötig werden sollte.

Sinnigerweise kommen die Chips für die neuen CNAs von den gleichen Herstellern wie die Switch-ASICs. In diesem Artikel konzentrieren wir uns auf die Entwicklung bei Broadcom.

Broadcom hat schon Mitte 2011 seine neue Generation von 10 GbE ASICs für LOM -(LAN on Motherboard) und NIC Anwendungen mit dem BCM 578×0 vorgestellt. Dieser ASIC begründet auch die erste Generation von Chips für Converged Network Adapter, CNAs., des Herstellers. Die neue Produktfamilie beinhaltet eine Reihe von interessanten funktionalen Verbesserungen. Der BCM 578×0 ist der Vertreter einer neuen Klasse von ASICs für einen konvergierten 40 GbE-Anschluss mit Offload-Fähigkeiten für TCP-Netze, iSCSI, FCoE, DCB und RDMA. Bild 1 zeigt die Positionierung des Chips im Rahmen der allgemeinen Entwicklung hin zu konvergierten Netzen.

Es gibt fünf wichtige Gründe für die Notwendigkeit einer völlig neuen Generation von CNAs:

  1. Server mit acht oder mehr Cores brauchen mehr als einen 10 GbE-Port. Die neuen Prozessoren von Intel und AMD haben 8 bis 12 Cores und sind konstruktiv darauf ausgelegt, im Rahmen einer virtualisierten Umgebung erhebliche I/O-Mengen von und zu virtualisierten Servern durchzusetzen. Nach Angaben von Intel liegt die I/O-Leistung eines 8-Core XEON ® 7500-Prozessor etwa bei dem 20-fachen der möglichen I/O-Leistung eines Prozessors mit nur einem Kern.
  2. Mit PCIe 3.0 können Server 10 GbE-Ports skalieren. Schon seit 2011 werden neue Server mit PCIe 3.0-Bussen ausgeliefert. Die Leistung eines üblichen 8X PCIe-Busses liegt bei 64 Gbps in beiden Richtungen. Damit können bis zu sechs 10 GbE-Schnittstellen oder eine 40 GbE-Schnittstelle mit voller Leistung bedient werden.
  3. Virtualisierte Server benötigen vollständige Offload-Funktionen. Mit dem inbox-Support für 10 GbE iSCSI hat VMware anerkannt, dass es für virtualisierte Server nützlich ist, möglichst viele Hilfsfunktionen durch Offload zu unterstützen, auch damit die Prozessoren nicht immer zwischen Systemaufgaben wie der I/O und der eigentlichen Unterstützung von VMs hin- und hergeschaltet werden müssen. Zu viele Interrupts belasten die System-Performance erheblich. Das haben wir ja auch schon in anderen Bereichen, wie der Realisierung des virtuellen Speichers für VMs diskutiert und Offload gehört heute zu den „Best Practices“. Zukünftige CNAs sollten also Offload für TCP/IP, iSCSI, FCoE, RDMA und Methoden zur VM-Kommunikation wie VEB/VEPA beinhalten. Das ist letztlich auch eine Frage der Wirtschaftlichkeit. CNAs erledigen diese Funktionen i.d.R. viel preisgünstiger als VMs, die für diese Zwecke „abgezweigt“ werden müssen. Die Bild 2 verdeutlicht das.
  4. Virtualisierte Server benötigen mehr System-Speicher. Wächst die durchschnittliche Anzahl von VMs auf einem physikalischen Server, muss für sie auch mehr System-Speicher konfiguriert werden. Die bei der I/O im Bereich von mehreren 10 GbE-Anschlüssen anfallenden Datenmengen können in diesem Zusammenhang durchaus erheblich sein. Es ist insgesamt günstiger, einen physikalischen Server davon zu entlasten, wie das Bild 3 zeigt
  5. Vollständige Konvergenz erfordert geringere Latenz. Es ist offensichtlich der Wunsch der meisten Betreiber, bisher bestehende Netztypen in ein konvergiertes Ethernet zu überführen und die Industrie unterstützt das ja auch. Bislang war es so, dass die Anforderung nach besonders geringer Latenz primär bei bestimmten Anwendungen z.B. im Finanzsektor, aufgetreten ist. Tatsache ist aber, dass neue Kommunikationsmethoden, und hier neben der Speicherkonsolidierung vor allem das aus dem Infiniband-Umfeld stammende RDMA, die Forderung nach sehr geringer Latenz eher grundsätzlich entstehen lassen. Aufgrund der Unzulänglichkeiten bisheriger Kommunikationsmechanismen für VMs wird sich das ursprünglich für HPC-Cluster entwickelte RDMA mehr und mehr auch in „normalen“ virtualisierten Umgebungen durchsetzen, wenn die Anforderungen an Zusatzfunktionen wie Hochverfügbarkeit oder Lastverteilung wachsen. Möchte man die Konvergenz via RoCE oder iWARP auf RDMA ausdehnen, ist eine möglichst geringe Latenz hierfür eine Grundvoraussetzung.

Der BCM 57840 hat grundsätzlich die Fähigkeiten, die durch die genannten Anforderungen für den Einsatz konvergierter Adapter im Server- und Speicherumfeld in den nächsten Jahren notwendig werden. Der 40 GbE Adapterchip ist auf die Anbindung an eine PCIe-3.0-Busstruktur eingerichtet und unterstützt hierbei eine Datenrate von bis zu 64 Gbit/s. Die raumsparende 10 GbE Quad-Port Variante der 578×0-Familie hat mit 0,82 Quadratinch (etwas mehr als 5 Quadrat-cm) einen kleineren Footprint als handelsübliche Dual-Port 10 GbE-Chips anderer Hersteller. Dadurch kann die 10 GbE Portdichte eines Servers kostengünstig und skalierbar erhöht werden.

Viele in Unternehmen befindliche Midrange-Server sind heute noch mit 5 – 10 1 GbE-Schnittstellen ausgestattet. Es herrscht allgemeine Einigkeit darüber, dass dies bei zunehmender Virtualisierung und entsprechender Konzentration nicht mehr ausreichend sein wird. Der aktuelle Standard für eine Anbindung ist 10 GbE. Nun würden die Spitzenmodelle bei den Servern auch schon heute durchaus eine 40 GbE-Anbindung erlauben. Nur wenige Rechenzentren werden aber heute schon 40 GbE-Switches haben oder über ihren baldigen Einsatz nachdenken und wenn, wird sich das zunächst auf einige wenige Server beschränken. Wegen der somit geringen Stückzahlen ist eine „echte“ 40 GbE-Anbindung heute noch viel teurer als 4 X 10 GbE. Das wird sich innerhalb der nächsten zwei Jahre zwar deutlich ändern, aber bis dahin ist es für einen Betreiber schlicht günstiger, auf eine skalierbare 10 GbE-Lösung zu setzen, auch wenn dafür im konkreten Fall natürlich zu viele Kabel benötigt werden, die aber in den meisten Fällen bereits vorhanden sein werden.

Es gibt unterschiedliche Vorstellungen darüber, wie viel Kommunikationsleistung eine einzelne VM benötigt. Eine konkrete Aussage wäre an dieser Stelle aber wichtig, weil letztlich ein großer Teil der Systemauslegung davon abhängt.

Sagen wir einmal, dass ein moderner Prozessor 20 oder mehr VMs unterstützen kann. Wenn man jeder VM eine grundsätzliche durchschnittliche Kommunikationsleistung von 1 GbE zubilligt, würde der Prozessor bereits zwei oder mehr 10 GbE-Schnittstellen benötigen. Die maximale Kommunikationsleistung moderner Prozessoren unter VMware liegt zwischen 30 und 40 Gbps. Also ist ein skalierbarer 4 X 10 GbE-Anschluss in jedem Fall geboten. Werden zunächst auf dem Server weniger als 20 VMs installiert, die jede durchschnittlich höchstens 1 GbE benutzt, kann man ja auch zwei Anschlüsse unbelegt lassen und die entsprechenden Switchports einsparen.

Konstruktiv gesehen setzt der Quad-Port Adapter einen Basismechanismus um, der im Standard IEEE 802.3 ba definiert ist, nämlich den Multi-Lane Multi-Rate Mechanismus. Jeder Ethernet-Strom wird in Unterströme der Geschwindigkeit 2,5 Gbit/s. zerlegt. Für 10 GbE entstehen 4, für 40 GbE eben 16 solcher Unterströme oder Lanes. Sie werden einzeln behandelt, eben um den größten Teil der dafür notwendigen extrem preiswerten Elektronik in CMOS-VLSI ausführen zu können. CMOS-VLSI kann aber höchstens mit rund 3 GHz getaktet werden. Beim Verlassen des Schaltkreises werden die Lanes wieder synchronisiert und zu einem oder mehreren schnelleren Signalen zusammengesetzt. Seit dem Broadcom Trident+ sind alle wichtigen speicherbasierten Switch-ASICs 40 GbE-Switches. 10 GbE-Ports werden dadurch realisiert, dass man die 40 GbE-Ports mit Hilfe des Lane-Konzeptes entsprechend aufspaltet. Es ist nur konsequent, diese Technik auch bei CNA-Chips zu verwenden.

Für den Einsatz im Providerbereich gibt es schon die ersten 100 G-ASICs. Sie arbeiten entsprechend mit 40 Lanes. Es wird von jetzt an aber noch ca. 18 Monate dauern, bis die ersten 100 G Switch-ASICs und CNA-Chips, die statt 4 eben 10 10 GbE-Ports konzentrieren können, in einer für den breiten Markt hinreichenden Stückzahl bei attraktiven Preisen verfügbar sein werden.

Im nächsten Jahr ist zu erwarten, dass alle führenden CNA-Hersteller den Begriff der Konvergenz auf RDMA –Offload erweitern, auch um weiterhin führende Hersteller zu bleiben. Die Möglichkeiten von RDMA für die Steigerung der Effizienz virtueller Umgebungen sind einfach zu groß, um auf den reinen Infiniband-Bereich beschränkt zu bleiben. Für eine solche Entwicklung ist eigentlich immer nur ein einziges „Muster“ nötig. Mit dem BCM 578×0 und dem Mellanox ConnectX-Adapter haben wir gleich zwei.

Das ist eine sehr zukunftssichere Konstruktion, denn mit steigendem Bedarf kann ein BMC 578×0 folgende Anwendungsbereiche abdecken:

  • 40 Gb Ethernet-Adapter mit DCB
  • 40 Gb iSCSI-Speichersystem-Adapter
  • 40 Gb FCoE-Speichersystem-Adapter (in Wettbewerb zu 32GbFC)
  • 40 Gb RDMA RoCE/iWARP-HPC-Adapter (in Wettbewerb zu FDR-IB)

Betreiber schätzen es aus Wartungs- und Kostengründen im Allgemeinsn sehr, weitestgehend einheitliche Adapter und Driver-Images zu verwenden und diese auch nicht alle paar Wochen nachbessern zu müssen.

Mit einer Konstruktion, wie sie die BCM 578×0-Familie bietet, können Betreiber schon heute mit einer multiplen 10 GbE-Aufspaltung wie beschrieben beginnen und dann nach und nach zu 40 GbE migrieren, sobald das geboten erscheint.

Dennoch wird dies nicht ohne weitere Diskussionen ablaufen. Die BCM 578×0-Familie bietet zwar schon heute einen großen Funktionsumfang, unterstützt aber hinsichtlich der Virtualisierung „nur“ SR-IOV und VEB, wenn man RDMA nicht benutzen kann oder möchte.

Zunächst sind aber die Server-Hersteller gefragt, denn sie müssen natürlich neue Adapter integrieren und mit den entsprechenden Service-Leveln unterstützen. Aktuell sind die führenden Hersteller alle noch bei teilweise betagten Dual-Port-Lösungen für 10 GbE und weichen bei 40 GbE überwiegend auf Mellanox aus. Die alten 10 GbE Dual-Port CNAs passen aber hinten und vorne weder zu den neuen Prozessoren noch zu kompakteren Blade-Server Designs.

zugeordnete Kategorien: LAN
zugeordnete Tags:

Sie fanden diesen Beitrag interessant? Sie können



Anmerkungen, Fragen, Kommentare, Lob und Kritik:

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

.