Hexa-Core auf x86-Basis: Intel Dunnington im Test

(http://www.zdnet.de/magazin/39195373/hexa-core-auf-x86-basis-intel-dunnington-im-test.htm)

von Christoph H. Hochstätter, 15. September 2008

Mit dem Dunnington-Prozessor bringt Intel heute den weltweit ersten Sechs-Core-Prozessor auf x86-Basis auf den Markt. ZDNet hat ein System mit vier CPUs und insgesamt 24 Cores einem ausführlichen Architektur- und Leistungstest unterzogen.

Intel macht vor allem durch seinen in Kürze erscheinenden Nehalem-Prozessor von sich reden. Dass man die Core-2-Architektur noch nicht aufgegeben hat, zeigt Intel mit neuen Xeon-Prozessoren für 4P-Server-Boards aus der 7000er-Reihe. Die unter dem Codenamen Dunnington entwickelten Chips besitzen vier oder sechs Cores und sind in 45 Nanometer gefertigt. Somit können auf einem Motherboard bis zu 24 Cores realisiert werden.

Wie auch beim Penryn[1] und beim Harpertown[2] handelt es sich um zwei beziehungsweise drei Dual-Core-Wolfdale-Kerne auf einem Die. Je zwei Cores sind mit einem gemeinsamen L2-Cache von 3 MByte ausgestattet. Darüber hinaus teilen sich alle Cores auf einem Chip je nach Modell einen L3-Cache von 8 bis 16 MByte. Das ermöglicht, Daten zwischen allen Kernen auf einem Chip auszutauschen, ohne dafür einen internen Front-Side-Bus in Anspruch nehmen zu müssen.

Einzig verfügbarer Chipsatz ist der vom Tigerton[3] bekannte Caneland-Chipsatz[4]. Er besitzt vier Front-Side-Busse (FSB), die je effektiv mit 1066 MHz getaktet sind. Da Intel jedem Prozessor einen eigenen FSB spendiert hat, spricht es hier selbstbewusst von einem Dedicated High Speed Interconnect (DHSI).

Dunnington-Familie (45 Nanometer)
Modell Geschwindigkeit Cores L2-Cache L3-Cache TDP Preis
X7460 2,66 GHz 6 9 MByte 16 MByte 130 W 2729 Dollar
E7450 2,40 GHz 6 9 MByte 12 MByte 90 W 2301 Dollar
E7440 2,40 GHz 4 6 MByte 12 MByte 90 W 1980 Dollar
E7430 2,13 GHz 6 MByte 12 MByte 90 W 1391 Dollar
E7420 2,13 GHz 4 6 MByte 8 MByte 90 W 1177 Dollar
L7455 2,13 GHz 6 9 MByte 12 MByte 65 W 2729 Dollar
L7445 2,13 GHz 4 6 MByte 12 MByte 50 W 2729 Dollar
Die Dunnington-Familie hält Modelle von der Low-Power-Variante bis zur Extreme-Edition bereit.Das DHSI muss herhalten, wenn Daten zwischen den bis zu vier physikalischen CPUs ausgetauscht werden. Dabei fällt zum einen die FSB-Geschwindigkeit von nur 1066 MHz auf. Chipsätze für 2P-Systeme schaffen bis zu 1600 MHz. Zum anderen stellt sich bei bis zu 24 Kernen die Frage nach einem effizienten Cache-Kohärenz-Protokoll.

Über den FSB mit 1066 MHz wird man sich in der Praxis wenig ärgern müssen, denn der Bottleneck liegt im Speichercontroller. Der Caneland-Chipsatz verfügt nur über einen einzigen Quad-Channel-FB-DIMM-Memory-Controller, der zudem nur Module mit einem effektiven Takt von 533 MHz und 667 MHz unterstützt. Mittlerweile sind am Markt 800 MHz üblich. Mehr als 20 GByte/s lässt sich damit nicht erreichen. Sind alle 24 Cores mit speicherintensiven Aufgaben betraut, dann tut sich hier ein gewaltiger Flaschenhals auf.

Für die Cache-Kohärenz hat sich Intel etwas besonderes einfallen lassen: den so genannten Snoop Filter. Das ist ein 64 MByte großer SRAM auf dem Chipsatz mit Tabelleneinträgen für jede Cache-Line. So kann jeder Core schnell nachschauen, ob ein anderer Core eine Cache-Line im Zugriff hat. Ein Broadcast-Protokoll mit einer Anfrage an jeden anderen Core entfällt.

Demgegenüber steht jedoch der Nachteil, dass der Snoop Filter nur dann funktionieren kann, wenn jeder Core jeden Cache-Zugriff im Snoop Filter dokumentiert, unabhängig davon, ob ein anderer Core die jeweilige Speicheradresse benötigt oder nicht. So kann je nach Anwendungsfall ein Performancevorteil entstehen, aber auch ein Performancenachteil.

Im Praxistest von ZDNet muss ein Testrechner beweisen, dass er hält, was Intel verspricht. Der Testrechner ist mit vier X7460-CPUs ausgestattet, die je über sechs Cores, 2,66 GHz Taktfrequenz und 16 MByte Level-3-Cache verfügen. Als Vergleich dient ein Mac Pro mit zwei Xeon-E5462[5]-Prozessoren und 2,8 GHz Taktfrequenz.

Um eine bessere Vergleichbarkeit zu gewährleisten, ersetzt ZDNet die 800-MHz-RAM-Module im Mac Pro durch Bausteine mit 667 MHz, die wegen des DRAM:FSB-Verhältnisses von 4:5 nur mit 640 MHz laufen. Der Vergleich soll vor allem dazu dienen, herauszufinden, unter welchen Bedingungen ein Server mit 24 Cores tatsächlich so viel mehr leistet als ein 2P-System auf Basis der Xeon-5000-Architektur, dass sich ein Betrieb lohnt.

Das Dunnington-System zieht bereits im Idle-Betrieb 502 Watt Leistung. Bei Volllast zeigt das Wattmessgerät stolze 748 Watt an. Im Vergleich dazu kommt der Mac Pro auf 140 Watt im Idle-Betrieb und auf 265 Watt bei Volllast. Im Performancevergleich zeigt sich, dass Intel mit dem Snoop Filter durchaus in vielen Fällen eine gute Skalierung erreichen kann. Beim Ray-Tracing mit Persistence of Vision 3.7 Beta 28[6] schafft das Dunnington-System einen Wert von 7888 Pixel pro Sekunde (PPS), der Mac Pro kommt auf 3362 PPS. Damit erreicht das Dunnington-System mit dreimal so vielen Prozessoren wie der Mac Pro das 2,35-fache an Durchsatz.

Das ist ein beachtlicher Wert, vor allem wenn man berücksichtigt, dass der Mac Pro über eine etwas höhere Taktfrequenz verfügt. Allerdings ist Ray-Tracing nahezu ideal für Multiprozessor-Maschinen, da jeder Pixel des fertigen Bildes völlig unabhängig von anderen Pixeln berechnet werden kann. Außerdem stellt Ray-Tracing keine großen Ansprüche an den Hauptspeicher.


Zieht man einen hauptspeicherintensiven Test hinzu, dann kann das Dunnington-System mit deutlich wengier Skalierbarkeit aufwarten als beim Ray-Tracing. Beim Lavalys-Photoworxx-Benchmark erreichen die 24 Dunnington Cores nur das 1,94-fache des Mac Pro.

Das ist nicht weiter verwunderlich. 24 Cores mit einem einzigen Quad-Channel-FB-DIMM-Memory-Controller zu versorgen, muss einfach zu einem Bottleneck führen, der so ein System für speicherintensive Anwendungen ungeeignet macht. Vielmehr sollte man in Betracht ziehen, dass bereits die Speicherarchitektur der Harpertown-CPUs im Mac Pro nicht ideal ist.


Noch schwächer schneidet der Dunnington beim Lavalys-Queen-Benchmark ab. Gerade einmal um den Faktor 1,78 ist das Dunnington-System hier schneller. Bei diesem Benchmark wird die Fähigkeit des Prozessors zur Sprungvorhersage[7] getestet. Hier funktioniert das Zusammenspiel von Pipeline, Snoop Filter und Opfercache[8] nicht sonderlich gut.

Die ohnehin lange Pipeline muss wegen Cache-Misses zu oft abgebrochen werden. Hinzu kommt eine Performancereduktion durch die Fütterung des Snoop Filters mit Daten, die später nicht mehr gebraucht werden.


Das beste Ergebnis ergibt sich beim Lavalys-AES-Benchmark. Das Dunnington-System kann den Mac Pro um das 2,85-fache schlagen. Zu berücksichtigen ist allerdings, dass der Benchmark ausschließlich den reinen Algorhithmus testet. Der Benchmark verwendet nur 48 MByte Speicher, die in den insgesamt 64 MByte L3-Cache der vier Dunnington-CPUs leicht Platz finden.

Der Mac Pro mit nur 24 MByte L2-Cache muss auf Hauptspeicher zurückgreifen. Der Test zeigt jedoch, dass der Snoop Filter des Chipsatzes seine Arbeit in vielen Fällen gut macht und der verfügbare Cache gut ausgenutzt wird.

Bei weiteren rechenintensiven Tests zeigt das Dunnington-System stark unterschiedliche Ergebnisse. Sie reichen vom 1,88-fachen der Mac-Pro-Performance beim Mandelbrot-Benchmark bis zum 2,59-fachen beim ZLib-Test.






Ein Dunnington-System mit vier Prozessoren, die jeweils bis zu sechs Kernen beinhalten, muss als Lösung für sehr spezielle Serveraufgaben betrachtet werden. Es bietet sich zwar die Möglichkeit, die hohe Rechenleistung von Intels Core2-Architektur mit bis zu 24 Kernen auf einem Board zu nutzen, jedoch zeigt sich der Flaschenhals, den ein einziger Quad-Channel-FB-DIMM-Memory-Controller auf der Northbridge[9] verursacht, noch deutlicher als bei einem Acht-Core-System auf Basis der Xeon-5400-Architektur.

Stand heute kann Intel nicht wie AMD[10] eine echte NUMA-Architektur mit Hochgeschwindigkeitstransport zwischen den Prozessoren liefern. Ein 4P-System auf AMD-Basis bietet einen eigenen Speichercontroller für jede physikalische CPU. Allerdings haben AMD-Prozessoren den Nachteil, dass die Rechen- und Cache-Leistung deutlich geringer ist als die von Intel.

Immer dann, wenn Durchsatz das wesentliche Kriterium ist, gibt es noch keine Alternative zu AMD. Bis Intel 4P-Systeme auf Nehalem-Basis liefern kann, die über einen eigenen Speichercontroller und eine Quickpath-Verbindung zwischen den Prozessoren verfügen, wird noch einige Zeit ins Land streichen. Die ersten Nehalem-Prozessoren bringt Intel für Boards mit nur einem Sockel.

Ein Dunnington-System ist nur dann sinnvoll, wenn eine hohe Rechenleistung aber kein Speicherdurchsatz gefordert ist. Das ist beispielsweise beim Einsatz in einer Rendering-Farm der Fall. Vorsicht muss man bei Anwendungen walten lassen, die eine hohe Anforderung an die Sprungvorhersage stellen. Hier kann der Snoop Filter schnell zur Leistungsbremse werden.

Schwierig wird es zu entscheiden, wenn Speicherdurchsatz und Rechenleistung gleichermaßen gefordert werden, beispielsweise auf Business-Intelligence-Servern oder Datenbankserver, die wenige, aber dafür hochkomplexe Anfragen bearbeiten. Hier gilt es, vor der Anschaffung einen möglichst realistischen Praxistest durchzuführen, der eine Steigerung der Gesamtperformance nachweist.

Bei rechenintensiven Anwendungen, die gut auf mehrere Server aufgeteilt werden können, sollte man neben einer Dunnington-Lösung immer auch eine Plattform auf Xeon-5400-Basis in Erwägung ziehen. Mittlerweile sind Acht-Core-Systeme mit bis zu 3,4 GHz verfügbar. Die Dunnington-CPU schafft maximal 2,66 GHz, so dass sich rein rechnerisch eine maximale Performancesteigerung nur des 2,34-fachen bei deutlich geringerem Hauptspeicherdurchsatz ergibt, der durch den großen L3-Cache nur zum Teil aufgefangen werden kann.

Anwendungen, die nicht im 24 MByte Cache eines Xeon-5400-Servers ausgeführt werden können, aber in den 64 MByte Cache vierer Dunnington-X7460-CPUs passen, profitieren in der Regel von einem Dunnington-System. Solche Anwendungen findet man in der Praxis allerdings eher selten. Sie sind vor allem in synthetischen Benchmarks anzutreffen, etwa dem Lavalys-AES-Test und dem ZLib-Test, was deren ausgezeichnete Ergebnisse erklärt.

Der hohe Preis für die Dunnington-CPUs lässt betriebswirtschaftlich denkenden Rechenzentrumbetreibern wenig Optionen. Eine Anschaffung lohnt sich nur, wenn Aufgaben nicht ebenso durch drei Xeon-5400-Systeme mit je acht Cores zu bewältigen sind.

URLs in diesem Artikel:
[1] = http://www.zdnet.de/enterprise/client/0,39023248,39158649,00.htm
[2] = http://www.zdnet.de/news/hardware/0,39023109,39157795,00.htm
[3] = http://www.zdnet.de/news/hardware/0,39023109,39157489,00.htm
[4] = http://www.intel.com/products/server/chipsets/7300/7300-overview.htm
[5] = http://processorfinder.intel.com/Details.aspx?sSpec=SLANT
[6] = http://www.povray.org/beta/
[7] = http://de.wikipedia.org/wiki/Sprungvorhersage
[8] = http://en.wikipedia.org/wiki/Victim_cache#Victim_cache
[9] = http://en.wikipedia.org/wiki/Northbridge_(computing)
[10] = http://www.amd.com