Sandy-Bridge-Prozessoren: Warum sie so schnell sind

Hardware-AES-Verschlüsselung für die breite Masse

Der AES-NI-Befehlssatz, der AES-Verschlüsselung erheblich beschleunigt (Bild 4), ist zwar schon mit Westmere eingeführt worden, jedoch kann er mit der Sandy-Bridge-Architektur auf mehr Modellen genutzt werden. Insbesondere sind die Befehle jetzt auch für Quad-Core-CPUs verfügbar. Lediglich die Core-i3-Modelle besitzen keine AES-NI-Unterstützung.

Diese Unterstützung ist wichtig für alle, die viele AES-Verschlüsselungsoperationen ausführen. Neben Betreibern von HTTPS-Servern sind das vor allem auch Besitzer von Rechnern, die ihre Festplatte komplett verschlüsseln.

Das ist beispielsweise für Notebooks wichtig, damit bei einem Diebstahl keine Daten in falsche Hände geraten. Auch wer oft in Länder reist, in denen Grenzbeamte gerne Notebooks unter dem Vorwand der Terrorabwehr konfiszieren, sollte seine Festplatte verschlüsseln. Das gilt vor allem, wenn man in einer Branche arbeitet, bei der in Deutschland hohe Kompetenz vorliegt, etwa in Automobilzulieferindustrie.

AES-NI wird von zahlreichen Programmen bereits unterstützt. Dazu zählen die aktuellen Versionen von Archivmanagern wie WinZIP und auch zahlreiche Festplatten- und Partitionsverschlüsselungsprogramme, etwa TrueCrypt.

Zusätzlicher Micro-Op-Cache

Nicht nur beim Befehlssatz, sondern auch bei der internen Abarbeitung der Befehle hat Intel einige Innovationen parat: Neben dem bei 32 KByte unverändert gelassenen L1-Instruction-Cache, wurde ein zusätzlicher Cache für bereits dekodierte Micro-Ops (µOps) implementiert. Die Größe gibt Intel mit "ungefähr 1500 µOps" an.

Falls im nicht dekodierten L1-Cache ein Befehl steht, dessen Microcode sich bereits im µOp-Cache befindet, kann sich der Prozessor die Dekodierung sparen und die µOps direkt an die weiteren Pipelinestufen übergeben.

Neuer L3-Cache-Ansatz mit Ringbus

In der Nehalem-Architektur war der L3-Cache als Shared Cache im sogenannten Uncore-Bereich angesiedelt. Bei Sandy-Bridge besitzt grundsätzlich jeder Core seinen eigenen L3-Cache, der mit voller Taktfrequenz läuft.

Allerdings können die anderen Cores L3-Cache ihrer Nachbarn mitbenutzen. Dazu ist ein Ringbus aus vier Ringen implementiert. Sie bestehen aus einer modifizierten Quickpath-Verbindung. Ein Ring ist für Anfragen zuständig, der zweite transportiert die eigentlichen Daten und der dritte gibt die notwendigen Bestätigungen. Ein vierter Ring ist für das "Snooping" zuständig und spart somit Datentransport, wenn Cacheinhalte ohnehin identisch sind.

Somit kann jeder Core auf einen Teil des L3-Cache schneller zugreifen als bei einem Nehalem-Prozessor. Im Prinzip handelt es sich um eine NUMA-Architektur, die vom Hauptspeicher auf den L3-Cache übertragen wurde.

Der L3-Cache kann nach wie vor von allen Cores und auch von der Grafikeinheit genutzt werden. Allerdings wird je ein Viertel von einem Core verwaltet. Die anderen Cores fordern die Nutzung über ein Ringbus-System an (Grafik: Intel).
Der L3-Cache kann nach wie vor von allen Cores und auch von der Grafikeinheit genutzt werden. Allerdings wird je ein Viertel von einem Core verwaltet. Die anderen Cores fordern die Nutzung über ein Ringbus-System an (Grafik: Intel).

Grafik gehört immer dazu

Die Sandy-Bridge-CPUs für Notebooks und Desktop sind immer mit einer Grafiklösung ausgestattet. Bei den Desktop-Modellen gibt es Grafikeinheiten mit sechs und zwölf Execution Units (EUs). Die Notebook-Modelle haben allesamt zwölf EUs.

Die Modelle mit zwölf EUs lassen sich von der Leistung her mit preiswerten Grafikkarten unter 50 Euro vergleichen. Für Gamer und Anwender mit anderen High-End-3D-Applikationen, etwa Architekturlösungen oder Molekülmodellierungssoftware, ist die interne Grafik der CPU zu langsam. Keine Probleme gibt es hingegen beim Anschauen von HD-Videos in 1080p. Sogar 3D-Videos lassen sich in HD darstellen.

Ein typischer Büroanwender kommt mit der internen Grafiklösung gut zurecht, für die es derzeit nur DirectX 10.1-Treiber gibt. Allerdings stellt sich im ZDNet-Test heraus, das die Treiber noch mit Stabilitätsproblemen zu kämpfen haben, die in den kommenden Wochen hoffentlich beseitigt werden.

Die Grafiklösung nutzt denselben L3-Cache wie die Cores. Der Zugriff erfolgt über das Ringbussystem. Das hat Vor- und Nachteile: Einerseits verringert sich natürlich der verfügbare L3-Cache für die CPU-Cores, wenn ein Teil von der internen Grafik genutzt wird, andererseits lässt sich der Datentransport zwischen CPU und GPU beim GPU-Computing stark beschleunigen, da beide denselben Cache nutzen.

Das Hauptproblem, warum sich manche Aufgaben nicht auf die GPU verlagern lassen, ist der langsame Transport zwischen CPU und GPU. Oft muss die CPU auf das Ergebnis einer GPU-Berechnung warten, bevor sie die nächste Aufgabe an die GPU delegieren kann. Die interne Sandy-Bridge-GPU liegt sehr nahe an den Cores und nutzt außerdem denselben L3-Cache. Daher ist der Transport viel schneller als bei einer diskreten Grafikkarte und kann für manche Aufgaben trotz maximal 12 Execution Units besser geeignet sein.

Themenseiten: Chipsätze, Client & Desktop, Desktop, Grafikchips, Intel, Notebook, Prozessoren

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

1 Kommentar zu Sandy-Bridge-Prozessoren: Warum sie so schnell sind

Kommentar hinzufügen
  • Am 8. Januar 2011 um 1:26 von Tester

    Sandy Bridge RAM
    Im Artikel wird mit verweis auf die Benchmarks gesagt, daß die Dual-Channel Speicher Anbindung der Sandy Bridge mehr Durchsatz als die Tripple Channel der i7-9xx bieten soll. In den Benchmarks wird die Top-Sandy Bridge CPU aber nur mit älteren Dual-Channel CPUs verglichen die alle samt nur Dual Channel fähig sind. Dazu kommt noch, daß wohl kaum noch einer einen 1066MHZ langsamen Speicher mit einer Tripple Channel fähigen CPU verbaut. Der Artikel lässt einen in dem Glauben bei 1066MHz bzw. 1333MHz wäre das endgültige der Speichergeschwindigkeit nur weil bis dahin eine offizielle unterstützung gegeben ist. Ein sinnvoller Vergleich wäre also mal eine 2600K CPU gegen einen 950 oder höher mit Tripple Channel antreten zu lassen. Aber beide mit nem zeitgemäßen 2000MHz Speicher.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *