Intels neue Nehalem-Architektur bietet einen integrierten Speichercontroller und kann pro CPU-Kern zwei Threads verarbeiten. Wie gut sich die neuen Quad-Cores in der Praxis schlagen, verrät der umfangreiche Benchmark-Test.
Fünf Jahre nach AMD hat es Intel nun auch geschafft: Die erste CPU mit integriertem Speichercontroller aus Santa Clara ist nun fertig. Und weil das AMD-Design noch weitere Vorzüge bietet, hat der Prozessor-Marktführer noch andere Ideen des Konkurrenten in die neue Nehalem-Architektur integriert. Bisher hat Intel die Quad-Cores der Core-Mikroarchitektur nämlich aus zwei Dual-Core-Dies gefertigt. AMD behauptete daher immer wieder, es sei die einzige Firma, die einen "echten" x86-Quad-Core baue. Das können die ewigen Zweiten im CPU-Markt nun nicht mehr von sich sagen: Nehalem-CPUs bestehen ebenfalls aus einem einzigen Chip und sind nach AMD-Nomenklatur "echte" Vierkerner.
Doch das ist noch längst nicht das Ende des Technologietransfers. AMD-Prozessoren kommunizieren untereinander und mit der Peripherie über sogenannte Hypertransport-Links, während Intel-Prozessoren nicht nur den Speicher über einen Frontsidebus ansprechen, sondern darüber auch mit den restlichen Systemkomponenten in Kontakt stehen. Im Single-Core-Bereich ist dies sicher kein Nachteil. Und auch bei Dual- und Quad-Cores hat Intel mit der Integration großzügig ausgestatteter Cache-Speicher den Nachteil der Frontsidebus-Architektur eindrucksvoll[1] umschifft.
Allerdings wird die altertümliche Kommunikationsart im Serverbereich mit mehreren CPU-Sockeln schnell zum Flaschenhals. Selbst der 64 MByte große Chipsatz-Cache (Snoop Filter), den Intel im Xeon-Chipsatz 7300[2] anbietet, oder der mit 16 MByte L3-Cache kürzlich vorgestellte, aus drei Dual-Core-Dies bestehende Sechs-Core-Chip Dunnington[3] helfen auf Dauer nicht, im Serverumfeld im Vergleich zur AMD-Technik konkurrenzfähig zu bleiben.
Daher kommt in der Nehalem-Architektur eine mit Hyertransport vergleichbare Technik namens Quick-Path-Interconnect (QPI) zum Einsatz. Allerdings steht QPI derzeit nur für die Desktop-Varianten der Nehalem-Architektur mit dem Codenamen Bloomfield zur Verfügung. Doch bereits im ersten Quartal 2009 soll laut[4] Intel-Chef Paul Otellini die Server-Variante Gainestown für Zwei-Sockel-Systeme folgen. Die Einführung von Nehalem-Prozessoren für MP-Systeme plant Intel erst in der zweiten Jahreshälfte 2009.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Auch im Bereich Virtualisierung hat sich Intel für die Entwicklung der Nehalem-Architektur von AMD einiges abgeschaut. Mit Einführung des Barcelona-Prozessors unterstützt AMD mit Rapid Virtualization Indexing (RVI) eine Technik, die virtuellen Maschinen einen direkten Speicherzugriff erlaubt. Virtualisierungsspezialist VMware zeigte sich von der AMD-Lösung[5] begeistert. Intel nennt die in Nehalem für den selben Zweck integrierte Technologie Extended Page Table[6] (EPT).
Neben den Anleihen aus dem AMD-Lager verfügt die Nehalem-Architektur über zusätzliche Leistungsmerkmale. Die insgesamt vier Rechenkerne des Prozessors können gleichzeitig je zwei Threads bearbeiten. Das von der P4-Architektur bekannte Hyperthreading[7] hat Intel für die Nehalem-Prozessoren weiter optimiert. Neben den vier physikalischen Recheneinheiten stehen zusätzlich vier logische Einheiten zur Verfügung. Anders als AMD-Chips, die lediglich über Dual-Channel-DDR2/1066-Speicher-Support verfügen, steuern die ab dem 17. November offiziell verfügbaren Core-i7-Prozessoren drei DDR3/1066-Kanäle an. Somit verfügen die Chips über eine theoretische Speicherbandbreite von 25,6 GByte/s, während die AMD-Chips nur maximal 16 GByte/s erreichen. Unterschiede zwischen den einzelnen Nehalem-Prozessoren betreffen die Geschwindigkeit des QPI-Interface. Während es im Spitzenmodell Core i7 Extreme 965 mit 3,2 GHz betrieben wird, arbeitet das QPI der kleineren Modelle lediglich mit 2,4 GHz.
Speicher
Laut Intel sind die neuen Nehalem-Prozessoren bis zu einer Speichergeschwindigkeit von DDR3/1066 spezifiziert. Zum Vergleich: Die aktuelle Core-2-Architektur kann mit DDR3/1600-Speicher betrieben werden. Laut dem Systemerkennungstool Everest 4.60 bietet der interne Speichercontroller jedoch Support bis 1333 MHz. Möglicherweise arbeitet das System jedoch nicht in allen Situationen stabil mit dieser Frequenz, sodass sich Intel für die konservative Spezifikation mit DDR3/1066 entschieden hat. Für optimale Performance sollten zudem nicht mehr als drei Speichermodule (pro Kanal ein Baustein) zum Einsatz kommen. Sind vier DIMMs verbaut, sinkt die Speicherperformance leicht, da der wichtige Speicherparameter command rate statt mit einem nur mit zwei Wartezyklen betrieben werden kann.
Mit dem Turbo Mode[8] bieten die Nehalem-Prozessor ein eingebautes Overclocking-Feature. Sobald eine Software nicht sämtliche Kerne voll auslastet, sorgt eine interne Chiplogik dafür, dass die verwendeten Rechneinheiten mit einem höheren Takt betrieben werden.
Last but not least unterstützen die Nehalem-Prozessoren mit SSE4.2[9] eine Befehlssatzerweiterung, die vor allem durch die beschleunigte Verarbeitung von String-Variablen für viele Suchmaschinen-Anbieter interessant sein dürfte. Auch Programme wie Browser, E-Mail-Clients, Textverarbeitungsprogramme können von der beschleunigten Stringverarbeitung durch SSE4.2 profitieren, wenn sie daran angepasst werden.
|
|||||||||||||||||||||||||||||||
Leistungsaufnahme
In Sachen Leistungsaufnahme liegt das System mit dem Nehalem-Prozessor Core i7 Extreme 965 in etwa auf dem Niveau des bisher leistungsfähigsten Intel-Chips Core 2 Extreme QX9775, obwohl der Nehalem-Prozessor mit 731 Millionen Transistoren über deutlich weniger elektronische Schaltungen verfügt als der QX775 mit 820 Millionen. Offensichtlich sorgt die Hyperthreading-Technik für eine bessere Auslastung der Rechenwerke, die den höheren Energieverbrauch gemessen an der Anzahl der Transistoren erzeugt.
![]() |
|
||||||||||||||||||||||
Während AMD-Prozessoren dank des integrierten Speicher-Controllers durchaus mit den Intel-Chips der Core-2-Ära mithalten konnten und beim Speicherzugriff sogar Vorteile boten, sieht es gegenüber den Nehalem-Prozessoren nun anders aus. Diese setzen sich mit überragenden Werten beim Speichertransfer wie auch beim Speicherzugriff klar an die Spitze.
![]() |
![]() |
Bei den synthetischen Tests des Everest-Benchmarks kann sich Intels neue Nehalem-Architektur ebenfalls eindrucksvoll an die Spitze setzen. In einigen Tests setzt sich sogar der Core i7 920 mit 2,66 GHz dank seiner Hyperhreading-Technologie vor den mit 3,2 GHz getakteten Core 2 Extreme QX9775. Besonders eindrucksvoll ist der Vorsprung der Nehalem-CPU im Test mit dem FPU-Benchmark SinJulia, der Hyperhtreading voll ausnutzt.
![]() |
![]() |
SSE4: Wann bringt es wirklich mehr Speed?[17]
SSE4 ist die neueste Befehlssatzerweiterung in Intels jüngster 45-Nanometer-Prozessorgeneration. Die Befehle sollen die nötigen Takte pro Aufgabe senken und so den Prozessor erheblich beschleunigen. ZDNet hat SSE4 auf Praxistauglichkeit untersucht.
Immer häufiger kommen so genannte virtuelle Desktops in Unternehmen zum Einsatz. Die Tests mit VMware Workstation 6 und den Winstone-Applikationsbenchmarks geben einen Eindruck der Leistungsfähigkeit in virtualisierten IT-Umgebungen.
Dass die Applikationstest[18] schon etwas älter sind, spielt in diesem Zusammenhang keine Rolle. Getestet wird nicht die Anwendungsperformance, sondern die Leistungsfähigkeit der Prozessoren in Verbindung mit der VMware-Virtualisierung.
Im Test werden zwei virtuelle Maschinen[19] (VM) mit Windows XP gestartet und jeweils der Content Creation Winstone (CCWS) ausgeführt. Den VMs stehen jeweils zwei CPU-Kerne zur Verfügung. Zusätzlich wird ein Test mit dem Cinebench R 10 in virtualisierter Umgebung durchgeführt. Seit der Version 6.5 unterstützt VMware Workstation die von AMD eingeführte Technik des direkten Speicherzugriffs. Sowohl die Intel-Technik EPT wie auch die AMD-Technologie RVI werden unterstützt. Aus dieser Betriebsart können die neuen Nehalem-Prozessoren allerdings keine Vorteile schöpfen. Aber auch der AMD Phenom arbeitet mit aktiviertem RVI nicht schneller. Schnellster Chip im virtuellen Bereich ist nach diesen Tests der Core 2 Extreme QX9775, der nur Intel-VT unterstützt.
Möglicherweise bietet VMware Workstation noch keinen optimalen Support für Prozessoren, die einen direkten Speicherzugriff für die VM bieten. Andererseits besteht auch die Möglichkeit, dass die durchgeführten Tests von dieser Technik nicht profitieren. Erst weitere Tests können Aufschluss über den Nutzen des direkten Speicherzugriffs ergeben.
![]() |
![]() |
Durch die fortschreitende Parallelisierung von Bildbearbeitungsprogrammen werden Prozessoren mit mehreren Kernen gut ausgenutzt. Drei Programme dienen zur Leistungsbestimmung in diesem Bereich: Das Freeware-Tool Paint .NET ist eine leistungsfähige Bildbearbeitung, die auf der .NET-Schnittstelle von Microsoft basiert. Der dazugehörige Benchmark pdnbench[20] lastet die Prozessoren bei der Bearbeitung typischer Bildoperationen sehr gut aus. Zusätzliche Tests mit den Tools Autopano Pro[21] (Erstellung eines Panoramafotos) und Jalbum[22] (Erstellung einer HTML-Bildergalerie[23]) runden den Benchmark-Parcours im Bildbearbeitungsbereich ab.
Jalbum und Paint .NET nutzen die Fähigkeiten der neuen Nehalem-Quad-Cores mit Hyperthreading gut aus. Der Core i7 920 mit 2,66 GHz erreicht in beiden Tests eine bessere Leistung als der mit 3,2 GHz getaktete Core 2 Extreme QX9775. Mit Autopano Pro lassen sich zwar auch acht Prozessoren nutzen; die Software schöpft daraus aber keine Vorteile. Auffällig ist, dass die 64-Bit-Versionen von Paint .NET und Autopano Pro deutlich flotter als ihre 32-Bit-Pendants zu Werke gehen.
![]() |
Die Tests aus dem Video- und Soundbereich dokumentieren, dass längst nicht alle Applikationen für Multi-Core-Prozessoren optimiert sind. So profitiert die Umwandlung unkomprimierter Audio-Daten in eine MP3-Datei mit iTunes nicht von den zusätzlichen Rechenkapazitäten der neuen Quad-Core-Chips. Die Windows-Version von iTunes verwendet lediglich zwei Threads für die Erstellung einer MP3-Datei. Somit arbeiten Quad-Cores selbst gegenüber den Dual-Core-Vertretern nicht schneller. Die Mac-Variante nutzt hingegen vier Recheneinheiten.
Ganz anders sieht das Bild mit dem Video-Encoding-Tool Cyberlink PowerProducer. Dank exzellentem Support für die Nehalem-Quad-Cores mit integriertem Hyperthreading (vier Kerne, acht Threads) bietet der mit 2,66 GHz getaktete Core i7 920 eine bessere Leistung als der 3,2 GHz schnelle Core 2 Extreme QX9775 (vier Kerne, vier Threads).
![]() |
Die Rendering-Tests mit Cinebench R10 und Povray zeigen, dass vor allem Povray von den Nehalem-Quad-Cores mit Hyperthreading proditiert. Selbst der mit 2,66 GHz getaktete Core i7 920 erreicht eine höhere Leistung als der 3,2 GHz schnelle Quad-Core QX9775 ohne Hyperthreading. Mit Cinebench R10 32 Bit geht das Rennen zwischen diesen beiden Chips unentschieden aus, während die 64-Bit-Variante Vorteile für den Core i7 920 sieht.
![]() |
![]() |
Im Web 2.0 müssen sich Browser zunehmend anspruchsvollen Aufgaben stellen. Komplexe Websites und aufwändige AJAX-Anwendungen fordern immer mehr Leistung. Dabei ist auch die Leistung der CPU entscheidend. Im Test mit dem derzeit schnellsten Browser Firefox 3.1 Beta 1 zeigt sich, dass JavaScript von den zusätzlichen Rechenfähigkeiten der Nehalem-Prozessoren nicht profitiert.
![]() |
Noch immer ist der größte Teil der 3D-Spiele nicht für Multi-Core-Chips optimiert. Dadurch bleibt die Grafikkarte der entscheidende Performance-Faktor. Lediglich bei reduzierter Darstellungsqualität ergeben sich Leistungsunterschiede. Da diese Einstellung allerdings praxisfremd ist, kann man die Performance-Unterschiede in diesem Bereich getrost ignorieren.
Der CPU-Test des 3D Mark Vantage nutzt hingegen mehrere CPU-Kerne und zeigt zwischen den Prozessoren größerer Unterschiede. Allerdings zeigt selbst der besonder optimierte Test in der Gesamtwertung keine gravierenden Vorteile für die neuen Nehalem-Prozessoren. Diese Einschätzung wird auch durch die Tests mit echten Spielen (Farcry 2, Crysis, F.E.A.R und Call of Juarez) größtenteils bestätigt.
![]() |
![]() |
Klar ist, dass Intel sehr viele Techniken implementiert hat, mit denen AMD-Prozessoren schon länger arbeiten. Genauso klar ist aber auch, dass die Intel-Chips offensichtlich vieles besser können. Der integrierte Speichercontroller in den Nehalem-Prozessoren zeigt eindrucksvoll, was diese Technologie leisten kann. Auch das Reaktivieren der vom Pentium 4 stammenden Hyperthreading-Technolgie kann man als extrem gut gelungen bezeichnen. In zahlreichen Tests bietet der mit 2,66 GHz getaktete Core i7 920 für rund 320 Euro eine bessere Leistung als der bis dato schnellste Prozessor Core 2 Extreme QX9775 für über 1200 Euro.
In direktem Vergleich zwischen den beiden mit 3,2 GHz getakteten Chips mit alter (Penryn: Core 2 Extreme QX9775) und neuer Technologie (Nehalem: Core i7 Extreme 965) zeigt sich, dass der neue in Teilbereichen dem alten um gut 50 Prozent überlegen ist. Dabei beschränkt sich dieser Vorteil nicht nur auf professionelle Rendering-Applikationen. Auch Bildbearbeitungssoftware wie Jalbum und Paint .NET nutzen die Fähigkeiten der neuen Architektur voll aus. Das sollte die Einführung der Nehalem-Prozessoren zu einem Erfolg werden lassen.
Intel lässt mit den neuen Nehalem-Prozessoren nicht nur die Konkurrenz alt aussehen. Auch die Core-2-Chips können mit der neuen Architektur kaum Schritt halten. Während die ersten Nehalem-Prozessoren erst ab einem Preis von über 300 Euro erhältlich sind, bleibt zu hoffen, dass die Preise für die Anfang 2009 geplanten Lynnfield-Prozessoren für den Sockel LGA1160 günstiger ausfallen. Diese Desktop-Chips verfügen zwar nur über ein Dual-DDR3-Speicher-Interface und bieten auch keinen Quick-Path-Interconnect, beides sollte aber für den Einsatz im Desktop-Bereich problemlos zu verschmerzen sein.
Für Intel lohnt sich der schnelle Umstieg auf die neue Nehalem-Prozessoren ebenfalls. Mit knapp 90 Millionen weniger Transistoren ist die Chipfläche kleiner als bei Penryn-Quad-Cores. Somit dürfte der Profit pro verkauften Nehalem-Prozessor größer ausfallen als mit aktuellen Penryn-CPUs. Dual-Core-Varianten mit Nehalem-Technik (Codename Havendale) werden für das zweite Quartal 2009 erwartet. Dann sollen auch die Mobil-Versionen mit zwei (Auburndale) und vier Kernen (Clarksfield) verfügbar sein.
AMD kann derzeit im Desktop-Bereich nur im unteren Preissegment mit den Intel-Chips mithalten. Mit Nehalem wird der Vorsprung von Intel im High-End-Segment noch einmal deutlich größer. Im Serverumfeld sollte der noch in diesem Quartal erwartete Shanghai-Prozessor hingegen AMDs Position vor allem bei 2P- und 4P-Server festigen. Für 4P-Server steht die Nehalem-Architektur nach derzeitigen Plänen erst im zweiten Halbjahr 2009 zur Verfügung.
![]() |
[1] = http:/
[2] = http:/
[3] = http:/
[4] = http:/
[5] = http:/
[6] = http:/
[7] = http:/
[8] = http:/
[9] = http:/
[10] = http:/
[11] = http:/
[12] = http:/
[13] = http:/
[14] = http:/
[15] = http:/
[16] = http:/
[17] = http:/
[18] = http:/
[19] = http:/
[20] = http:/
[21] = http:/
[22] = http:/
[23] = http:/
[24] = http:/














