Seit heute kann auch AMD Prozessoren in 45-Nanometer-Technologie liefern. ZDNet hat die Shanghai-CPUs unter die Lupe genommen und zeigt, dass AMD den Rückstand zu Intels Xeon-CPUs in vielerlei Hinsicht aufholen konnte.
Knapp ein Jahr nach Intel[1] kann seit heute auch AMD[2] mit Prozessoren in 45-Nanometer-Technologie aufwarten. Unter dem Codenamen "Shanghai" kommt AMD zunächst mit Quad-Core-Opteron-Prozessoren für 2P-, 4P- und 8P-Serverplattformen, so dass bis zu 32 Cores pro Server realisierbar sind. Phenom[3]-Varianten für Desktops mit dem Codenamen "Deneb" folgen im ersten Quartal 2009.
Im Wesentlichen hat AMD die Vorgänger-Architektur "Barcelona[4]" beibehalten, die in 65 Nanometer gefertigt wird. Die durch die Miniaturisierung gewonnene Die-Fläche investierte AMD dort, woran es den Barcelona-Prozessoren am meisten mangelt, nämlich in L3-Cache.
Alle Shanghai-Modelle besitzen 6 MByte L3-Cache. Das ist eine Verdreifachung gegenüber Barcelona mit nur 2 MByte L3-Cache. Unverändert geblieben sind dagegen der L2-Cache mit je 512 KByte pro Core und der L1-Cache mit je 64 KByte Daten- und Befehlscache pro Core.
Darüber hinaus unterstützt AMD jetzt DDR2-RAM mit bis zu 800 MHz. Bei den Barcelona-CPUs liegt das Maximum bei 667 MHz. DDR3-RAM wird von den ersten Modellen nicht unterstützt. Sie sind ferner noch nicht mit Hypertransport 3.0 ausgestattet, das bis zu 17 GByte/s schafft. Early Adopter müssen sich mit 8 GByte/s begnügen. Hypertransport 3.0 und DDR3-Unterstützung gibt es erst im zweiten Quartal 2009.
Der Befehlssatz hat sich gegenüber Barcelona nicht verändert. Neben den Standard x86-Befehlen werden Intels SSE2[5] und SSE3[6] unterstützt. AMDs SSE4a[7] entspricht von der Funktionalität her den Insert- und Extract-Befehlen von Intels SSE4.1[8], ist aber dazu inkompatibel.
| ||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
Begrenzt man beim Starten einer virtuellen Maschine ihren Befehlssatz auf SSE2, so kann die Maschine auf jeden Server umgezogen werden, die mindestens über einen Pentium 4 verfügt. Da auch Intels neueste Prozessoren, beispielsweise Dunnington-Modelle[9], über eine Befehlssatzbegrenzung verfügen, ist es nunmehr möglich, virtuelle Maschinen auch zwischen AMD- und Intel-Systemen live umzuziehen. Daran war bis vor kurzem nicht zu denken.
Eine Befehlssatzbegrenzung bedeutet natürlich, dass man sich auf den kleinsten gemeinsamen Nenner festlegen muss. In der Praxis kann man jedoch davon ausgehen, dass weniger als fünf Prozent aller Standardsoftware Befehle nutzt, die über SSE2 hinausgehen, so dass ein Performanceverlust in der Regel nicht zu spüren ist.
Die verfügbaren Modelle konsumieren alle 75 Watt ACP[10] (etwa 95 Watt TDP[11]) und sind in Taktfrequenzen von 2,3 GHz bis 2,7 GHz erhältlich. Im ersten Quartal 2009 sollen 55-Watt-Modelle und ein 105-Watt-Modell mit 2,8 GHz folgen. Die Preise für CPUs, die Boards mit zwei Sockeln unterstützen, liegen zwischen 377 Dollar (2,3 GHz) und 989 Dollar (2,7 GHz). Preislich deutlich darüber liegen die technisch nahezu identischen CPUs für 4P- und 8P-Boards. Hier werden 1165 Dollar für die 2,4-GHz-Variante fällig. Für ein Modell mit 2,7 GHz verlangt AMD stolze 2149 Dollar.AMD hat die dreistufige Cache-Architektur des Barcelona beibehalten. Aufgrund des geringen L3-Caches konnte sie allerdings bei Barcelona-CPUs nicht überzeugen[12]. Mit 6 MByte gemeinsamem L3-Cache zahlt sich eine dreistufige Architektur deutlich besser aus. Die Wahrscheinlichkeit, dass ein Cache-Miss im L2-Cache durch einen Treffer im L3-Cache abgefedert wird, ist stark gestiegen.
Die Shanghai-CPUs besitzen etwa die gleiche Menge an Cache wie die ersten Nehalem-CPUs von Intel. Während AMD auf 512 KByte exklusiven L2-Cache pro Core setzt, sind es bei Intel nur 256 KByte. Dafür hat Intel seiner Nehalem-CPU 8 MByte L3-Cache spendiert.
Mehr Cache, nämlich 12 MByte, besitzen die aktuellen Server-CPUs von Intel aus der Xeon-5400-Serie, die als direkte Konkurrenz zu den Shanghai-2P-Modellen angesehen werden können. Intels 4P-Modelle, die Xeon-7400-Serie[9], besitzen zwischen 14 und 25 MByte Cache. Sie müssen allerdings eine Hauptspeicheranbindung durch einen einzigen externen Quad-Channel-DDR2-Speichercontroller ausgleichen. Die Nehalem-Architektur mit internem Speichercontroller gibt es bisher nicht für Serverplattformen.
Beim Hauptspeicher fällt zunächst die fehlende Unterstützung für DDR3-RAM auf. Lässt man allerdings Marketing-Aussagen außen vor und betrachtet die Durchsatzgeschwindigkeit als Taktfrequenz mal Bits pro Takt mal Anzahl der Speicherkanäle, kommt man schnell zu der Erkenntnis, dass vor allem auch die Anzahl der Speicherkanäle in Betracht gezogen werden muss, die bei AMD im Gegensatz zu Intel mit steigender Anzahl von Prozessoren skaliert.
Ein 2P-System mit acht Cores kommt mit DDR2-800-Modulen auf einen effektiven Speichertakt von 3200 MHz. Das ist identisch mit dem Quad-Channel-FB-DIMM-Controller, wie ihn Intel bei Xeon-5000-Prozessoren einsetzt. Bei Intel-Server-Plattformen muss allerdings jedes Bit durch den Front-Side-Bus laufen, den sich der Speicher mit dem PCI-Express-Bus auf der Northbridge[13] teilt.
Keine Frage, dass AMD mehr Durchsatz schafft, insbesondere dann, wenn Hypervisor, Betriebssystem und Anwendungen eine echte NUMA-Architektur unterstützen. Intel kann Stand heute noch keine Serverplattform mit integriertem Speichercontroller liefern. Bis zum Erscheinen von 2P-Systemen muss man sich bis nächstes Jahr gedulden. 4P-Systeme kommen sicher erst gegen Ende 2009.ZDNet testet ein 2P-System mit dem Supermicro-Board H8DM8-2[14]. Ausgestattet ist es mit zwei Shanghai-Prozessoren 2384 mit 2,7 GHz und 16 GByte RAM. Als Vergleichssysteme dienen ein MacPro mit zwei Xeon-E5462-Prozessoren[15] (Harpertown) mit je vier Kernen, 2,8 GHz Taktfrequenz und 16 GByte RAM sowie ein Intel-4P-Board mit Caneland-Chipsatz[16], das mit zwei Xeon-X7460-Prozessoren[17] (Dunnington) bestückt ist, die je sechs Kerne mit 2,66 GHz Taktfrequenz beinhalten.
Bei der Leistungsaufnahme ist das Supermicro-Board mit einer SATA-Platte am genügsamsten. Im Idle-Betrieb verbraucht es 183 Watt. Bei Volllast zieht es 320 Watt. Das Core-2-Harpertown-System bringt es auf 190 Watt im Leerlauf und konsumiert 320 Watt bei 100 Prozent Auslastung. Der Dunnington-Rechner mit zwei Netzteilen und zwei SAS-Platten braucht bereits im Leerlauf 349 Watt und trägt unter Volllast mit 451 Watt zum Stromverbrauch der ZDNet-Redaktion bei.
Generell lässt sich erkennen, dass Intels Core-2-Architektur, wie sie in den Xeon-CPUs Harpertown und Dunnington verwendet wird, bei der reinen Rechenleistung mit wenig Ansprüchen an den Hauptspeicher die Nase knapp vorn hat. AMDs Rückstand ist jedoch keinesfalls so deutlich, wie das bei Barcelona-Prozessoren der Fall ist.
Beim Lavalys-AES-Benchmark, der die Integer-Leistung testet und mit 48 MByte Speicher auskommt, liegt der Shanghai-Rechner mit 36.908 Punkten knapp 11 Prozent hinter dem 100 MHz höher getakteten Harpertown. Der Dunnington liegt mit 67 Prozent mehr Punkten ganz vorne. Dieser Vergleich hinkt allerdings, da das Dunnington-System nicht nur vier Kerne mehr besitzt, sondern vor allem auch 32 MByte Last-Level-Cache, was es ihm ermöglicht, mit wenig Hauptspeicherzugriffen auszukommen.
Bei der Single-Precision-Arithmetik mittels SSE zeigt der Shanghai im Lavalys-Julia-Benchmark eine Performance, die mit 12.813 Punkten 35 Prozent unterhalb des Harpertown und 46 Prozent unterhalb des Dunnington liegt. Bei den SSE-Befehlen weist Intel meist eine höhere Performance als AMD auf. Bei der relevanteren Double-Precision-Arithmetik mit SSE2 liegt der Shanghai nur 12 Prozent hinter dem Harpertown zurück und 62 Prozent hinter dem Dunnington, wie der Lavalys-Mandelbrot-Benchmark zeigt.





Während beim Raytracing die CPU-Leistung dominiert, kommt es beim Bearbeiten von Dateiströmen stärker auf die Speicherleistung an. Das Komprimieren mit dem Quasi-Industriestandard ZIP bewältigen die beiden Shanghai-CPUs 2,2 Prozent schneller als ihre Harpertown-Konkurrenten. Noch etwas deutlicher wird der Unterschied beim 7Zip-Algorhitmus. Hier liegt AMD 6,9 Prozent vor seinem Intel-2P-Pendant. Das Zwölf-Kern-Dunnington System kann den Shanghai beim Lavalys-ZLib-Benchmark um 44 Prozent übertreffen, beim 7Zip-Benchmark, der mit 460 MByte eine sehr große Datenmenge durchsetzt, jedoch nur noch um 12 Prozent.
Der Lavalys-Photoworxx-Benchmark stellt nur geringe Anforderungen an die Rechenleistung, dafür um so höhere an den Speicherdurchsatz. Hier ist AMD nicht zu schlagen. Das Shanghai-System schlägt Harpwertown um 10,5 Prozent. Beim Dunnington ist sich die komplexe Speicherarchitektur mit einem Snoop-Filter[18] zwischen L3-Cache und Hauptspeicher selbst im Weg. Intels 4P-System muss sich mit dem letzten Platz begnügen. Es ist 27 Prozent langsamer als der Shanghai-Rechner.





Wer mit Markführer VMware[19] virtualisiert, wird durch RVI in den meisten Fällen keine Performanceverbesserung feststellen, da VMware mit "Binary-Translation" eine Software-Lösung einsetzt, die RVI von der Geschwindigkeit mindestens ebenbürtig ist. Binary-Translation bedeutet allerdings technisch gesehen nichts anderes als Code-Patching. Adressbezüge werden einfach so gepatcht, dass der virtuelle Adressraum passt.
Das funktioniert nur mit unterstützten Betriebssystemen und ist eine mögliche Fehlerquelle, vor allem beim Einspielen von Patches, wenn Executables nicht sauber zwischen Prorammcode und Daten trennen. Eine Hardwareunterstützung durch die CPU-Hersteller wie RVI ist in erster Linie eine sichere Alternative zu Binary-Translation. Eine Unterstützung ist von allen relevanten Virtualisierungsherstellern implementiert oder angekündigt.
Ebenso nützlich bei der Virtualisierung ist AMDs Speicherarchitektur. Teilt man ein 4P- oder 8P-System so auf, dass jede virtuelle Maschine einen physikalischen Prozessor mit je vier Cores bekommt, dann lässt sich pro virtueller Maschine die Hauptspeicherbandbreite optimal ausnutzen. Probleme beim Speicherdurchsatz in virtualisierten Umgebungen gibt es insbesondere mit Dunnington-Systemen. Der Engpass, der daher rührt, dass bis zu 24 Cores von einem einzigen Memory-Controller versorgt werden, verstärkt sich in virtuellen Umgebungen noch.Mit Shanghai bringt AMD einen Prozessor, der es mit Intels Core-2-Architektur in allen Bereichen aufnehmen kann. Die reine Rechenleistung liegt nach wie vor etwas unterhalb der von Intel. Taktfrequenzbereinigt liegen die Unterschiede jedoch meist im einstelligen Prozentbereich. Lediglich bei der Single-Precision-Arithmetik mittels SSE-Befehlen zeigt ein Shanghai-System 35 Prozent Leistungsabfall gegenüber einem vergleichbaren Xeon-Core-2-System.
Rechenleistung im Serverbetrieb ist vor allem dann relevant, wenn ein Server für Rendering, Video-Encoding oder als Compute-Cluster eingesetzt wird. Typische Serveraufgaben, beispielsweise File-, Print-, Web- und Datenbankserver stellen vor allem Herausforderungen an Speicherdurchsatz und Speicherlatenz. In diesen Bereichen ist liegen Shanghai-Systeme deutlich vor ihren Intel-Core-2-Konkurrenten.
Durch den in jede CPU integrierten Speichercontroller skaliert die Speicherbandbreite mit der Zahl der CPUs im System, was sich vor allem bei 4P- und 8P-Systemen bemerkbar macht. Intels 4P-Lösung auf der Basis von Dunnington versucht, den Speicherengpass durch große Mengen an L3-Cache auszugleichen, was meist nur in Benchmarks gelingt. Wer die Anschaffung eines 24-Core-Systems erwägt, hat in der Regel große Datenmengen zu bearbeiten.
Bei der Leistungsaufnahme stehen die Shanghai-Systeme sehr gut da, allerdings hat auch Intel bei 45-Nanometer-Prozessoren seine Green-IT-Hausaufgaben gemacht, so dass man nicht mehr grundsätzlich davon ausgehen darf, dass AMD-Systeme weniger Strom verbrauchen als vergleichbare von Intel.
Sucht man Ausgewogenheit zwischen Leistungsaufnahme, Rechenleistung und Speicherdurchsatz, dann sind Shanghai-Prozessoren derzeit hervorragend positioniert. Im 2P-Bereich kann Intel jedoch Taktfrequenzen bis 3,40 GHz anbieten und so die Rechenleistung steigern. AMD bietet seine Shanghai-Prozessoren bis 2,70 GHz an. Ab Februar 2009 soll es eine 2,80-GHz-Version geben, die allerdings mehr Strom verbraucht.
Allerdings bleibt die Entwicklung nicht stehen. Im Desktop-Computing hat Intel bereits demonstriert, was die Nehalem-Plattform leisten kann. Neben teils erheblichen Steigerungen der Rechenleistung muss vor allem der integrierte Speichercontroller betrachtet werden. Intel bietet einen Triple-Channel-DDR3-Controller bis 1066 MHz an, der etwa der Bandbreite eines Hexa-Channel-DDR2-Controllers mit 533 MHz entspricht.
Wenn Intel im nächsten Frühjahr mit den ersten 2P-Nehalem-Systemen kommt, darf man davon ausgehen, dass diese Systeme die derzeitigen Shanghai-CPUs in den meisten Leistungswerten übertreffen werden. AMD muss dann mit Hypertransport 3.0 und DDR3-Unterstützung kontern.
Im 4P- und 8P-Bereich dürfte AMD noch eine Weile die beste Leistung bieten. Intel wird Nehalem-Systeme in diesem Segment sicher nicht vor Ende 2009 anbieten. Intels Dunnington-Lösung kann wegen der geringen Hauptspeicherbandbreite mit AMD nicht mithalten.
[1] = http:/
[2] = http:/
[3] = http:/
[4] = http:/
[5] = http:/
[6] = http:/
[7] = http:/
[8] = http:/
[9] = http:/
[10] = http:/
[11] = http:/
[12] = http:/
[13] = http:/
[14] = http:/
[15] = http:/
[16] = http:/
[17] = http:/
[18] = http:/
[19] = http:/