Nvidia stellt HPC-Grafikkarte Tesla P100 auf Basis des Pascal-Chips GP100 vor

Die aus 15,3 Milliarden Transistoren gefertigte GPU wird im 16-Nanometer-FinFET-Verfahren gefertigt. Auf der Tesla-Beschleunigerkarte wird er mit 16 GByte HBM-2-Speicher kombiniert und soll so bis zu 21,2 Teraflops leisten. Acht Tesla P100 verbaut Nvidia in dem Deep-Learning-Großrechner DGX-1.

Nvidia hat auf der GPU Technology Conference 2016 in Silicon Valley mit dem Tesla P100 das jüngste Modell seiner GPU-Beschleuniger-Reihe für High Performance Computing vorgestellt. Der zugrunde liegende Grafikprozessor GP100 basiert auf der neuen Architektur Pascal, die das Unternehmen vor zwei Jahren angekündigt hatte. Er soll im Form des Tesla P100 ab dem ersten Quartal 2017 in Servern von Cray, Dell, HPE sowie IBM zum Einsatz kommen und mittelfristig die bisher eingesetzten Kepler- und Maxwell-Chips ablösen. Mit dem DGX-1 hat Nvidia auch gleich einen eigenen Großrechner mit acht Tesla P100 für Deep-Learning-Berechnungen angekündigt.

Der GPU-Beschleuniger Tesla P100 verwendet den auf der Pascal-Architektur  basierenden GP100-Chip (Bild: Nvidia).Der GPU-Beschleuniger Tesla P100 verwendet den auf der Pascal-Architektur basierenden GP100-Chip (Bild: Nvidia).Der bisher leistungsstärkste Grafikchip von Nvidia wird im 16-Nanometer-FinFET-Verfahren gefertigt. Dadurch bietet er eine deutlich höhere Energieeffizienz als die bisherigen GPUs mit einer Strukturbreite von 28 Nanometern. Mit 15,3 Milliarden Transistoren ist die Pascal-GPU laut Hersteller der bisher größte FinFet-Chip weltweit.

Als Speicher kommt beim Tesla P100 die zweite Generation von High Bandwidth Memory (HBM 2) zum Einsatz, die gegenüber dem Vorgänger HBM 1 und herkömmlichem GDDR-RAM wesentlich höhere Transfergeschwindigkeiten und mehr Speicher pro GPU ermöglicht. In Kombination mit dem neuartigen Ansatz „Chip on Wafer on Substrate“ (CoWoS) soll er für eine dreimal höhere Speicherbandbreite im Vergleich zur Maxwell-Architektur sorgen. Konkret spricht Nvidia von 720 GByte/s.

Beim Messverfahren mit einfacher Genauigkeit (FP32) erreicht der Tesla P100 nach Herstellerangaben eine theoretische Rechenleistung von 10,6 Billionen Operationen pro Sekunde (Teraflops). Bei doppelter Genauigkeit (FP64) schafft er mit 5,3 Teraflops noch die Hälfte. Ein neuer halbgenauer Code (FP16) soll zudem 21,2 Teraflops an Höchstleistung für Deep Learning bringen.

ANZEIGE

Die Cloud forciert Innovationen

Ohne Cloud-Technologie sähe der Alltag heute ganz anders aus. Dropbox, Facebook, Google und Musikdienste gäbe es nicht. Erst Cloud-Technologien haben diese Services ermöglicht und treiben heute Innovationen schneller denn je voran.

Die 16 GByte ECC-geschützter HBM 2 des Tesla P100 sind über insgesamt 4096 Datenleitungen angebunden. Für kurze Signalwege und somit schnelle Transferraten sind die vier 4 GByte großen Speicherstapel sehr nahe an der GPU platziert. Der integrierte GP100-Grafikchip verfügt über 3584 Shader-Rechenkerne und 224 Textureinheiten – verteilt auf 56 Streaming-Multiprozessoren. Standardmäßig läuft die GPU mit 1328 MHz und im Turbomodus mit bis zu 1480 MHz.

Eine Neuerung der Pascal-Architektur ist auch das in Zusammenarbeit mit IBM entwickelte NVLink. Es ermöglicht den Datenaustausch zwischen CPU und GPU sowie zwischen mehreren Grafikprozessoren mit bis zu 80 GByte/s in jede Richtung. Das bisher verwendete PCI Express schafft lediglich 16 GByte/s.

Der schlüsselfertige Deep-Learning-System DGX-1 verwendet acht Tesla P100 (Bild: Nvidia).Der schlüsselfertige Deep-Learning-System DGX-1 verwendet acht Tesla P100 (Bild: Nvidia).Eine Page Migration Engine sowie Unified Memory sollen für verbesserte Programmierbarkeit sorgen. Mit der für August angekündigten Parallel Computing Platform CUDA 8 erhalten Enwtickler direkten Zugang zu den Funktionen von Pascal, inklusive NVLink und eine Bibliothek namens nvGRAPH. Außerdem kündigte Nvidia die Einführung von cuDNN 5 an, einer GPU-beschleunigten Bibliothek zur Entwicklung tiefer neuronaler Netzwerke. Sie beinhaltet Vorlagen und optimierte Versionen der üblichen Deep Learning Frameworks wie Caffe, Theano und Torch sowie Zugang zu Cloud-Management-Tools.

Das auf acht Tesla P100 aufbauende, schlüsselfertige System DGX-1 umfasst laut Nvidia Hardware, Deep-Learning-Software und Entwicklungstools. Es soll 170 Teraflops bei halber Genauigkeit leisten und einen mit 250 CPU-basierten Servern vergleichbaren Datendurchsatz bieten. Zur Ausstattung zählen 7 TByte SSD DL Cache, zwei 10-Gigabit-Ethernet-Ports und vierfaches 100-GBit/s-InfiniBand. Das DGX-1 nimmt drei Höheneinheiten im Rack ein. Seinen Energiebedarf gibt Nvidia mit 3200 Watt an. Das System wird in den USA ab Juni für 129.000 Dollar erhältlich sein. Andere Regionen folgen im dritten Quartal.

Aktuelle Tesla-Beschleunigerkarten im Vergleich

Modell Tesla K40 Tesla M40 Tesla P100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal)
SMs 15 24 56
TPCs 15 24 28
FP32 CUDA Cores / SM 192 128 64
FP32 CUDA Cores / GPU 2880 3072 3584
FP64 CUDA Cores / SM 64 4 32
FP64 CUDA Cores / GPU 960 96 1792
Basistakt 745 MHz 948 MHz 1328 MHz
Turbotakt 810/875 MHz  1114 MHz 1480 MHz
FP64 GFLOPs 1680 213 5304
Textureinheiten 240 192 224
Speicherschnittstelle 384-Bit GDDR5 384-Bit GDDR5 4096-Bit HBM 2
Speichergröße max. 12 GByte 24 GByte 16 GByte
L2-Cache 1536 KByte 3072 KByte 4096 KByte
Registergröße / SM 256 KByte 256 KByte 256 KByte
Registergröße / GPU 3840 KByte 6144 KByte 14336 KByte
TDP 235 Watt 250 Watt 300 Watt
Transistoren 7,1 Milliarden 8 Milliarden 15.3 Milliarden
GPU-Die-Größe 551 mm² 601 mm² 610 mm²
Fertigungsverfahren 28 nm 28 nm 16 nm

Themenseiten: Grafikchips, Nvidia, Supercomputing

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Nvidia stellt HPC-Grafikkarte Tesla P100 auf Basis des Pascal-Chips GP100 vor

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *