Weitere Hardware-Entwicklungen

Kommentieren Drucken
Teil 9 von 11 aus der Serie "Chip, Chip, Hurra"

Es ist durchaus zu bezweifeln, dass die Zukunft der Hardware-Entwicklung ausschließlich bei den Flow Prozessoren liegt. Vielmehr könnte es auch so sein, dass leistungsfähige Prozessoren wie der Xeon® einfach um weitere Chips ergänzt werden, die durch eine entsprechende Programmierung zu den gewünschten Ergebnissen führt. Generell kann man sagen, dass sich alle Hersteller um eine Flexibilisierung der Funktionalitäten bemühen. Dabei schlagen sie sehr unterschiedliche Wege ein.

Die ICs entwickeln sich aber nach Moore´s Law permanent weiter. Das nutzen die Hersteller aber nicht nur dazu, einem Switch-ASIC immer mehr Ports zu verleihen, sondern für die Integration neuer Funktionen in Hard- oder Firmware. Für die Hersteller scheint dabei einzig und alleine entscheidend zu sein, dass die Funktionen hinreichend stabil standardisiert sind. So bieten also praktische alle Switch-ASICs der neuesten etwa seit 6-12 Monaten verfügbaren Generation aufbauend auf den L2/L3-Basisfunktionen, die man von jedem Switch erwartet, eine erhebliche Menge interessanter Zusatzfunktionen. Hier nur einige Beispiele:

  • Der bereits in Folge 6 Mellanox SwitchX ® ist eigentlich ein 16-Port 40 Gb InfiniBand-Switch. Darum kann er natürlich einen verlustfreien konvergierten Ethernet-Switch mit 16 40 GbCEE oder 64 10 GbCEE-Ports locker implementieren. Als Zugabe gibt es neben umfangreichen Sicherheitsfunktionen sowie IPv4 und IPv6 auch Sonderfunktionen für die Anbindung von VMs über VEB und VEPA bis hin zu DirectPath. Der SwitchX benötigt höchstens 66 W
  • Da steht Fulcrum (das Unternehmen gehört mittlerweile zu Intel) mit seinem FM6000/7000 nicht nach. Dieser 64-Port 10 GbCEE-Switch bietet neben der nativen Unterstützung von OpenFlow auch noch besondere Funktionen für die VM-Anbindung, die weit über SR-IOV hinausgehen. Letztlich ist der Chip in der Lage, IP-Tunnel für IPv4 und IPv6 aufzubauen.
  • Broadcom hatte ja schon Ende 2010 mit seiner Trident-Serie Aufmerksamkeit erzeugt. Ein aktuelleres Produkt ist ein Konzentrations-ASIC, der 12 10 GbE Ports auf einen 100 GbE-Port konzentriert. In diesem Zusammenhang implementiert der Chip Carrier Ethernet V 2.0. Für die Anwendung im RZ-Umfeld sind allerdings die neuen ASICs der Serie BCM578x0 von höherem Interesse. Sie ermöglichen durch entsprechend eingebrachte Co-Prozessoren DCB, iSCSI, FCoE und RDMA sowie TCP-Offload.
  • Ein neuer Chip von Marvell hat 96 (!!!) 10 GbE-Ports und kann ebenfalls CE 2.0. Das ist ein voll funktionsfähiges Terabit-Metronetz mit dem Platzbedarf einer kleinen Streichholzschachtel!

Momentan kursieren Geräte, bei denen jeweils ein Chip in ein ganzes 1U-Gehäuse eingebaut wird, damit man die Schnittstellen (Stecker) überhaupt realisieren kann. Messungen haben gezeigt, dass diese Geräte ihr Leistungsversprechen absolut einhalten. Deshalb bietet z.B. Mellanox jetzt eine Familie von Fix-Port Switches mit den SwitchX-ASICs an, die in Verbindung mit den ConnectX-Adaptern vor allem im RZ-Bereich eingesetzt werden sollen. Im Grunde ist das ein Alternativprodukt zu den Cisco Switches der Serie Nexus 3000. Diese Reihe bietet die Möglichkeit, die modernen Switch-ASICs in Kombination mit bekannten Funktionen einzusetzen, einfach, weil sie noch einen zusätzlichen Prozessor und hinreichend viel Speicher für eine N-OX-Unterstützung anbieten.

Aber Cisco Systems und andere Hersteller beschreiten noch einen anderen Weg. Der einzige wirkliche Nachteil, den man den oben gelisteten ASICs anlasten kann, ist ihre Inflexibilität gegenüber Änderungen. Sie sind ebenso wie sie sind und man kann die eingebauten Fähigkeiten eben nutzen oder nicht. Ein Prozessor hingegen ist maximal flexibel, aber auch erheblich langsamer, alleine wegen des für ihn benötigten Betriebssystems. (siehe Bild 1)

Und da kommen wir wieder auf das beliebte Beispiel mit TRILL oder PLSB. Es gibt Switch-ASICs, die PLSB unterstützen. Machen sie das nicht, ist es auch sehr problematisch bis unmöglich, die Funktion nachzurüsten. Also kann es auch bei den Switch-ASICs Funktionen geben, die einen kompletten Austausch der Geräte erforderlich machen.

In der Entwicklung hochintegrierter Schaltkreise gibt es jedoch noch ein wesentliches weiteres Konstruktionsprinzip neben dem ASIC, nämlich die FPGAs. Die Abkürzung steht für Field Programmable Gate Arrays. Einfach gesagt sind das Felder von Schaltelementen, deren Zusammenwirken man in gewissen Grenzen frei programmieren kann. Sie sind dadurch einen Tick langsamer als reine, auf eine oder eine kleine Gruppe von Funktionen optimierte ASICs, können aber im Laufe der Zeit quasi beliebig um- oder neu programmiert werden. Hinsichtlich der Flexibilität und der Geschwindigkeit sind sie letztlich ein Kompromiss zwischen ASIC und Prozessor. (siehe Bild 2)

Dabei sind sie aber immer noch viel schneller als reine Netzwerkprozessoren, weil sie Hardware-Parallelität nutzen und die Tasks nicht sequentiell ausführen. Jede Verarbeitungs-Task wird einem dedizierten Bereich der FGPAs zugewiesen. Sie kann dann arbeiten, ohne andere Tasks zu stören oder von ihnen beeinflusst zu werden. Ein weiterer, ganz wesentlicher Punkt sind die Kosten. Die Entwicklung eines benutzerdefinierten ASICs ist erheblich teurer als die FPGA-Programmierung. Daher lohnt sich eine ASIC-Entwicklung nur dann, wenn wirklich große Stückzahlen erreicht werden. In der Bild 3 sieht man ein programmierbares logisches Element und eine programmierbare Verbindungsstruktur. Die Umsetzung eines funktionalen Designs erfolgt mittels einer Hardware-Beschreibungssprache.

Die Vorteile von FPGAs sind:

  • Leistung: FPGAs nutzen Hardware-Parallelität und sind daher vielfach schneller als DSPs und erheblich schneller als General Purpose Prozessoren
  • Kürzere Markteinführungszeiten: hohe Flexibilität erlaubt Änderungen in Stunden statt in Wochen
  • Geringere Entwicklungskosten als ASICs
  • Hohe Zuverlässigkeit – kein Betriebssystem
  • Langzeiteinsatz möglich: Änderungen jederzeit machbar

In einer früheren Folge hatten wir ja schon auf die notwendige Zweiteilung des Speichers eines speicherbasierten Switch-ASICs hingewiesen. (siehe dazu Bild 4). Es ist natürlich auch möglich, statt eines relativ simplen Speichers im Rahmen der Konstruktion eines ICs auch eine FPGA-Struktur an diese Stelle zu packen. Dadurch entsteht eine hybride Switch-Schaltung, die einerseits sehr schnell, andererseits aber auch sehr flexibel ist. Im FPGA-Teil werden dann alle Funktionen erledigt, die nicht zum Basis-Switching gehören. (siehe auch Bild 5)

Bezogen auf die Problemstellung der Konstruktion eines RZ-Switches gibt es eine Reihe von Funktionen, die über seine Lebenszeit garantiert immer so bleiben werden, wie sie sind. Grob gesagt sind das alle L2-Switching-Funktionen einschließlich DCB, FCoE, ACL-Verarbeitung usf. Funktionen, die sich im Laufe der Zeit ändern könnten, finden wir auf L3 und L4.

Cisco hat noch in 2012 eine neue hybride Chip-Familie eingeführt, bei der die Standard-Funktionen eben in Form eines ASICs implementiert sind, aber auch eine ordentliche FPGA-Basis bereit steht, mit der sowohl standardisierte als auch herstellerspezifische Funktionen implementiert werden können. Diese hybride Chip-Familie bildet die technische Basis für die neue Generation von Catalyst-Switches, die ab 2013 lieferbar sind.

Cisco gibt traditionell keine Informationen über den wirklichen inneren Aufbau seiner Chips, auch weil sie ja nicht an Dritte weiterverkauft werden, sondern nur in den eigenen Geräten zum Einsatz kommen. Man kann hinsichtlich der zu erwartenden Leistung bereits Folgendes prognostizieren: bei der Abarbeitung reiner L2-Funktionen werden sie wegen des ASIC-Anteils fast genauso schnell sein wie ihre „reinrassigen“ Kollegen, also im Bereich einiger Hundert Nanosekunden liegen. Bei der Abarbeitung höherwertiger Funktionen werden sie eben den bereits angesprochenen „Tick“ langsamer sein als Schaltkreise, die auch diese Funktionen als ASIC implementieren. Dabei ist noch zu sagen, dass die reinen ASICs in den meisten Fällen auch etwas höhere Latenzzeiten aufweisen, wenn man die L3/L4-Funktionen aktiviert. Was bedeutet das in der Praxis? Nun, der Mellanox SwitchX ® hat bei voller Aktivierung aller Funktionen eine Latenz von ca. 420 – 450 Nanosekunden. Wenn Cisco bei den FPGAs eine Technik vergleichbar den Xilinx Spartan oder Altera Stratix und Optimierungsverfahren für das Delay in FPGAs wie z.B. von Lin, Chen und Cong beschrieben, anwendet, wird das Ergebnis im ungünstigsten Fall grob eine halbe Mikrosekunde schlechter sein. Ein kombinierter ASIC/FPGA-Switch-IC wird also, falls er nicht sehr schlecht designt wurde, insgesamt ein Delay von 0,9 … 1,2 Mikrosekunden haben. Das wäre selbst bei höchsten Anforderungen in einem herkömmlichen RZ durchaus zu verkraften.

Insgesamt erwarte ich für die nächsten 12 bis 18 Monate, wahrscheinlich in Einzelfällen schon eher, erheblich überarbeitete Produktlinien von allen Herstellern, die die Möglichkeiten der neuen ICs wirklich nutzen und dabei auch erheblich effizienter arbeiten. Insgesamt können Betreiber mit einer Senkung des Strombedarfs für eine 10 GbE-Schnittstelle auf unter 1 W rechnen. Dies wird durch ein wesentlich intelligenteres Energie-Management innerhalb der Chips erreicht, wie wir es ja schon von den Prozessoren kennen.

In 2010/2011 kamen ja praktisch alle Hersteller mit ihren „Data Center Fabrics“. Trotz massiver Anpreisung waren die Kunden aber sehr zurückhaltend. Das ist ein deutlicher Wegweiser für die Hersteller, dem sie auch folgen werden.

Natürlich erwarten Betreiber mit Recht auch Investitionsschutz. Wer vor ein oder zwei Jahren teure Core-Switches gekauft hat, wird sie wenigstens über den Abschreibungszeitraum nutzen wollen. Das wäre aber durchaus dadurch zu realisieren, dass die neuen Switch-ASICs in Line Cards eingesetzt werden. Der oben genannte Konzentrator-Chip von Broadcom ist genau für diesen Einsatzzweck, allerdings in WAN-Routern. Grade Hersteller, die sich auch in den letzten Jahren hinsichtlich des Investitionsschutzes bemüht haben, werden das auch weiter tun. Meine persönliche Ansicht ist, dass Cisco und andere Hersteller wie Enterasys hier mit den neuen hybriden ICs auf einem guten Weg ist.

Die Einbringung neuer Switch-ASICs in ggf. bestehende Strukturen ist der erste Schritt zur Weiterentwicklung von Netzen und wird schon deutliche Verbesserungen bringen.

Intel Cave Creek
Intel hat Mitte 2012 damit begonnen, einen Kommunikations-Chip namens Cave Creek an Entwickler für Packet Processing Anwendungen auszuliefern. In Zusammenarbeit mit der neuesten Xeon®-Generation bringt es die Kombination auf 160.000 Pakete/s. im L3-Verkehr. Die Kombination mit dem gemeinschaftlichen Code-Namen Chrystal Forest hat das Ziel, Xeon®-Prozessoren auch in der Data Plane gewinnbringend einzusetzen. Heute hat der x86 einen hervorragenden Ruf auf der Kontroll-Ebene, wo er Tasks im Rahmen der Überwachung und Steuerung eines Kommunikationssystems übernimmt, die zwar für sich gesehen anspruchsvoll sein können, aber keine wirklich harten Anforderungen hinsichtlich der Verarbeitungsgeschwindigkeit in Relation zur Datenrate haben.

Das Ziel von Intel ist es, im Laufe der Zeit immer mehr Kommunikationsfunktionen auf den x86 zu übertragen. Für 2013 ist ein weiterer Begleitchip für DSP-Jobs in Wireless Base Stations geplant. Zusammen mit einem Xeon®-Prozessor und einigen zusätzlichen Kleinkomponenten, wie einem Viterbi-Decoder, könnte dies nicht nur die architekturelle Basis für die dringend benötigten WLAN-Controller für 802.11ac und ad, sondern auch eine neue Grundlage für erheblich preisgünstigere LTE-Stationen sein.

Cave Creek ist ein modifizierter Xeon®-Begleitchip. Komponenten dieses Chips, die spezifisch für die Verwendung eines Xeon®-Prozessors im Serverumfeld sind, wurden durch Komponenten für Kommunikationszwecke ersetzt. Es gibt neue Spezial-Cores für Kryptographie, Kompression und Pattern Matching einschließlich Festketten- und RegEx-Operationen.

Die Cores sind Teil der sog. Intel Quick Assist-Technologie, die APIs umfasst, um Kompressions- und Sicherheitsanwendungen auf den Xeon®-Cores laufen lassen zu können. Die Hardware-Beschleuniger sind neue Versionen von Cores, die in früheren Intel-Produkten verwendet wurden, wie Tolapi SoC und IXP 2800 Netzwerk-Prozessor. Das Netzwerk-Prozessor-Geschäft wurde 2009 an Netronome verkauft. Der in 32 nm-Technologie aufgebaute Cave Creek Chip hat 4 GbE-MACs sowie Unterstützung für USB und serial ATA. In Zukunft kann er nicht nur mit den Xeon®-, sondern auch mit i3, i5 und i7-Prozessoren kombiniert werden.

Der Intel Data Plane Development Kit ist eine Sammlung von Librarys und Algorithmen um den Einsatz der Xeon®-Prozessoren im High End Packet Processing zu unterstützen.

Nach Angaben des Herstellers verbessert sich die Bearbeitungsleistung durch den neuen Chip in Verbindung mit den entsprechenden Verfahren gegenüber den aktuellen Lösungen um den Faktor 5.

« Teil 8: Flow-Prozessoren – Teil 3Teil 10: Hardware-Unterstützung von Overlay-Netzen »Teil 10: Broadcom BCM 56640 1/10/40/100 GbE-Switch-ASIC: das Schweizer Taschenmesser für die VM-Kommunikation »


zugeordnete Kategorien: LAN
zugeordnete Tags:

Sie fanden diesen Beitrag interessant? Sie können



Anmerkungen, Fragen, Kommentare, Lob und Kritik:

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

.