
GPU種類多すぎてよくわかんない
こんにちは!ふるのーと(fullnote)です!(*^^*)
GPGPUとかAIとかディープラーニングとか、最近GPUが話題ですよね。
ちょっと調べて見ましたのでシェアします。
なお、記載値はカタログ値だったり計算値だったり、WEBニュースの情報だったりと、混ざったりしてますので正式値は、公式をご確認ください。
Pascal+Volta世代GPUスペックまとめ
Tesla シリーズ
P100はHPC向け。倍精度演算が高い。
P40/P4はディープラーニング向け。INT8が高い。
外部出力端子はなし。
NVIDIA社が全てのTeslaの動作確認。
Tesla V100 (NVLINK) | Tesla V100 (PCIe) | Tesla P100 (NVLINK) | Tesla P100 (PCIe) | Tesla P40 | Tesla P4 | |
---|---|---|---|---|---|---|
GPU | GP100 | GP100 | GP102 | GP104 | ||
Cores | 5120 | 5120 | 3584 | 3584 | 3840 | 2560 |
Boost Clock | 1462 MHz | 1480 MHz | 1328 MHz | 1531 MHz | 1063 MHz | |
FP64 | 7.48 TF | 7 TF | 5.30 TF | 4.76 TF | 0.37 TF | 0.17 TF |
FP32 | 14.9TF | 14 TF | 10.61 TF | 9.52 TF* | 11.76 TF | 5.44 TF |
FP16 | 21.22 TF | 19.04 TF | ||||
INT8 | 47 TOPS | 22 TOPS | ||||
Tensor | ||||||
Mem | HBM2 | HBM2 | HBM2 | HBM2 | GDDR5 | GDDR5 |
Mem Clock | 1.43 Gbps | 1.43 Gbps | 7.23 Gbps | 6 Gbps | ||
Mem Bus Width | 4096bit | 4096bit | 4096 bit | 4096 bit | 384 bit | 256 bit |
Mem Band Width | 900GB/s | 900GB/s | 732 GB/s | 732 GB/s | 347 GB/s | 192 GB/s |
VRAM | 32GB/16GB | 32GB/16GB | 16GB | 16GB | 24GB | 8GB |
TDP | 300W | 250W | 300 W | 250 W | 250 W | 75 W |
LINK | WhitePaper | Product Brief | Whtepaper | Product Brief | Product Brief | WEB |
Price(Amazon) | 70万円前後? |
*3584cores x 1328 MHz x2 = 9.519になるのだが、公式ページでは9.3TFになっている。
GP100は歩留まりの関係で60個のSM(Streaming Multiprocessor:1SM=64cores)中、4個が無効にされているみたい(参考:後藤弘茂さんのWeekly海外ニュース)なんですが、PCIe版は実は5個向こうになっているとか?
詳しい人いたら教えてください。⇒3584cores x 1.3 GHz x2 = 9.3が濃厚。。
Quadroシリーズ
Quadroはハイエンドグラフィックスで業務向けが多い。
OpenGLに最適化。
NVIDIAがサンプルを公開かつ認定した企業のみグラフィックボードの製造が許されているらしい。
Quadro GV100 | Quadro GP100 | Quadro P6000 | Quadro P5000 | |
---|---|---|---|---|
GPU | GV100 | GP100 | GP102 | GP104 |
CUDA Cores | 5120 | 3584 | 3840 | 2560 |
Boost Clock | 1450 MHz | 1430 MHz | 1531 MHz | 1733 MHz |
FP64 | 14.8TF | 5.13 TFLOPS | 0.37 TFLOPS | 0.28 TFLOPS |
FP32 | 7.4TF | 10.25 TFLOPS | 11.76 TFLOPS | 8.87 TFLOPS |
Tensor | 118TF | – | – | – |
Mem | HBM2 | HBM2 | GDDR5 | GDDR5 |
Mem Clock | 1.7Gbps | 1.43 Gbps | 9 Gbps | 9 Gbps |
Mem Bus Width | 4096 bit | 4096 bit | 384 bit | 256 bit |
Mem Band Width | 870GB/s | 732 GB/s | 432 GB/ | 288 GB/s |
VRAM | 32GB | 16 GB | 24 GB | 12 GB |
TDP | 250W | 235 W | 250 W | 180 W |
LINK | ||||
Price(Amazon) | $8,999 | 115万円前後 | 70万円前後 | 30万円前後 |
Quadro GV100とTesla V100(PCIe)の違いが殆ど無いですね。(同じチップ使っているので当然ですが。)
冷却方式がActive FanかPassive Fanで搭載制限の違いはありそうですね。
1~2GPU搭載であればQuadro GV100のほうが良さそうですね。
Geforce(GTX)シリーズ
Geforceは、ゲーミング向けが多い。
DirectXに最適化。
チップ開発・製造はNVIDIAだが、それを載せるグラフィックボードはOEMが担当。
TitanV | TitanXp Pascal | TitanX Pascal | GTX 1080 ti Pascal | GTX 1080 Pascal | |
---|---|---|---|---|---|
GPU | GV100 | GP102-450 | GP102 | GP102 | GP104 |
CUDA Cores | 5120 | 3840 | 3584 | 3584 | 2560 |
Tensor Cores | 640 | ||||
Boost Clock | 1455 MHz | 1582 MHz | 1531 MHz | 1582 MHz | 1733 MHz |
FP64 | 6.9TF | 0.37 TFLOPS | 0.34 TFLOPS | 0.35 TFLOPS | 0.28 TFLOPS |
FP32 | 13.8TF | 12.1 TFLOPS | 10.97 TFLOPS | 11.3 TFLOPS | 8.87 TFLOPS |
Tensor Performance | 110TF | ||||
Mem Clock | 1.7 Gbps | 11.4 Gbps | 10 Gbps | 11 Gbps | 10 Gbps |
Mem Bus Width | 3072-bit | 384 bit | 384 bit | 352 bit | 256 bit |
Mem Band Width | 652.8 GB/s | 547.7 GB/s | 480 GB/s | 484 GB/s | 320 GB/s |
GDDR5 | – | 12 GB | 12 GB | 11 GB | 8 GB |
HBM2 | 12GB | ||||
TDP | 250W | 250 W | 250 W | 250 W | 180 W |
LINK | WEB | WEB | WEB | WEB | Whitepaper |
Price(Amazon) | $2999 | $1200 | 20万円前後 | 10万円前後 | 10万円前後 |
TitanVとTesla V100の構成はcore数やclockほとんど変わらないので、TitanVのFLOPS値は、少し低めになっています。
クロックが低いのか使えるコア数が少ないのか分かる人いたら教えてください。
MSI NVIDIA Pascalアーキテクチャー採用 GeForce GTX 1080搭載グラフィックボード GEFORCE GTX 1080 FOUNDERS EDITION
参考にしたページ
GPUのスペックはtechpowerupやwccftechも参考にしました。
NVIDIA Tesla GPUのロードマップ
NVIDIA Tesla GPUですが、Pascal、Voltaときて次はAmpereだそうです。
出る時期は未定です。NVIDIA’s GTC( GPU Technology Conference) 2018では発表されませんでしたので詳細情報が出てくるのはもう少し先になりそうですね。