SlideShare a Scribd company logo
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
https://docs.microsoft.com/ja-jp/azure/machine-learning/data-science-virtual-
machine/overview
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
6
②クラスター(Ubuntu / デー
タサイエンスVM)の作成
①ストレージの作成
③ジョブ投入
学習で使えるサービスの下には、、、
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
並列化可能な領域 𝑝並列化できない領域
1 − 𝑝
𝑝
𝑛
1 − 𝑝
並列化可能な領域 𝑝並列化できない領域
1 − 𝑝
𝑝
𝑛
1 − 𝑝
並列化できない領
域
依存関係があり並列化できない処理、
ファイルI/O、ノード間通信、GPU-CPU間のデータ
転送、並列化のためのオーバーヘッドなど
並列化可能な領域 依存関係がなく並列化可能な処理など
0
20
40
60
80
100
120
140
0 16 32 48 64 80 96 112 128
スピードアップ
並列数
100%
99%
95%
90%
並列化率を少しでも向上させることが、
スケーラビリティの向上につながる
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
メリット
• 待機時間の短縮/1秒当たりのパケット数の向上
• ジッターの削減
• CPU使用率の削減
0
100
200
300
400
500
600
700
800
900
1000
1 10 100 1000 10000
Latency[μsec]
Size [bytes]
SR-IOV
non SR-IOV
0
500
1000
1500
2000
2500
1 100 10000 1000000 100000000 1E+10
Bandwidth[Mbytes/sec]
Size [bytes]
SR-IOV
non SR-IOV
1
10
100
1000
1 10 100 1000 10000
Latency[μsec]
Size [bytes]
SR-IOV (DS5_v2)
non SR-IOV (DS5_v2)
InfiniBand FDR (H16r)
0
1000
2000
3000
4000
5000
6000
7000
1 100 10000 1000000 100000000 1E+10
Bandwidth[Mbytes/sec]
Size [bytes]
SR-IOV (DS5_v2)
non SR-IOV (DS5_v2)
InfiniBand FDR (H16r)
InfiniBand
RDMA
スペック H16r H16mr H8 H8m H16 H16m
コア数 16 16 8 8 16 16
CPU Xeon E5-2667 v3 3.2 GHz - Haswell
メモリ
DDR 4
112 GB
DDR 4
224 GB
DDR 4
56 GB
DDR 4
112 GB
DDR 4
112 GB
DDR 4
224 GB
標準データ
ディスク
2.0 TB
SSD
2.0 TB SSD 1.0 TB SSD 1.0 TB SSD 2.0 TB SSD 2.0 TB SSD
フロント
ネットワーク
40G bps Ethernet
バックエンド
ネットワーク
FDR InfiniBand with
RDMA
N/A
Azure がベストパフォーマンスを記録
InfiniBandにより、複数ノード実行時の性能劣化を抑制Comparative benchmarking of cloud computing vendors with High Performance Linpack
Mohammad Mohammadi, Timur Bazhirov, Exabyte Inc. https://arxiv.org/pdf/1702.02968.pdf
Azure A9, H16がトップライン Azure H16がトップライン
0
5
10
15
20
25
0 64 128 192 256 320 384 448 512
TFLOPS
Number of Cores
A9
H16r
H16r (東日本リージョン) A9 (東日本リージョン)
CPU Intel Xeon E5-2667 v3 Intel Xeon E5-2670
クロック周波数 3.2GHz 2.6GHz
ソケット当たりのコア数 8コア 8コア
ノード当たりのソケット数(コア数) 2ソケット(16コア) 2ソケット(16コア)
ノード当たりの主記憶容量 112GB 112GB
OS SLES 12 SP1 for HPC
MPI Intel MPI 2017 update2 Build 20170125
HPL Intel® Optimized MP LINPACK Benchmark for Cluster
Intel Parallel Studio Cluster Edition 2017 update2のMKLに含まれるmp_linpack(static)を使
用
低レイテンシ・高バンド幅のインターコネクトを搭載したHPC向けイン
スタンスH16r(4x FDR)およびA9(4x QDR)でHPLを実行した結果、512
並列(32ノード)でピーク性能比95%以上(H16r)を達成。
NCシリーズ NVシリーズ NCv2シリーズ NDシリーズ NCv3シリーズ
用途 HPC & DL 可視化 HPC & DL DL HPC & DL
GPU Tesla K80
(1~4GPU)
Tesla M60
(1~4GPU)
Tesla P100
(1~4GPU)
Tesla P40
(1~4GPU)
Tesla V100
(1~4GPU)
GPU Xeon E5-2690 v3
(1~24コア)
Xeon E5-2690 v3
(1~24コア)
Xeon E5-2690 v4
(1~24コア)
Xeon E5-2690 v4
(1~24コア)
Xeon E5-2690 v4
(1~24コア)
メモリ 56~224GB 56~224GB 112GB~448GB 112GB~448GB 112GB~448GB
ローカルSSD ~1.4TB ~1.4TB ~1.344TB ~1.344TB ~1.344TB
InfiniBand FDR InfiniBand N/A FDR InfiniBand FDR InfiniBand FDR InfiniBand
0.00
5.00
10.00
15.00
20.00
25.00
Tflops
#GPUs
AzureのGPUインスタンスで物理サーバーに遜色ない性能を実現!
NC24r NC24rs_v2
CPU Intel Xeon E5-2690 v3 Intel Xeon E5-2690 v4
クロック周波数 2.6GHz 2.6GHz
ソケット当たりのコア数 12コア 12コア
ノード当たりのソケット数
(コア数)
2ソケット(24コア) 2ソケット(24コア)
ノード当たりの主記憶容量 224GB 224GB
OS Ubuntu 16.04 Ubuntu 16.04
MPI Intel MPI 5.1.3.223 Intel MPI 5.1.3.223
0
2000
4000
6000
8000
10000
12000
0 50 100 150
Speedup(times,linear)
# of GPUs
K80 vs P100 – Scale-out Comparison
NC24r (K80) NC24rs_v2 (P100)
NVIDIA GPU 製品のおおまかな一覧
Kepler
(2012)
Maxwell
(2014)
Pascal
(2016)
Volta
(2017)
GeForceゲーミング
Quadro
プロフェッショナル
グラフィックス
M40
M6000K6000
GTX
980
GTX
780
HPC 用
GRID 用
K80
DL 用
M60
GP100P5000
K2
K1
GTX 1080 TITAN X
V100データセンタ
& クラウド
Tesla
P40
P100
P6
TITAN V
Fermi
(2010)
M2070
6000
GTX
580
P4
GV100
M6 M10
NC
NCv2 NCv3ND
NV
トランジスタ数:21B
815 mm2
80 SM
5120 CUDAコア
640 Tensorコア
HBM2
16 GB, 900 GB/s
NVLink 300 GB/s
TESLA V100
*full GV100 chip contains 84 SMs
P100 V100 性能UP
トレーニング性能 10 TOPS 125 TOPS 12x
インファレンス性能 21 TFLOPS 125 TOPS 6x
FP64/FP32 5/10 TFLOPS 7.8/15.6 TFLOPS 1.5x
HBM2 バンド幅 720 GB/s 900 GB/s 1.2x
NVLink バンド幅 160 GB/s 300 GB/s 1.9x
L2 キャッシュ 4 MB 6 MB 1.5x
L1 キャッシュ 1.3 MB 10 MB 7.7x
GPUピーク性能比較: P100 vs v100
VOLTA
HPC 性能を大きく向上
P100に対する相対性能
HPC アプリケーション性能
System Config Info: 2X Xeon E5-2690 v4, 2.6GHz, w/ 1X Tesla
P100 or V100. V100 measured on pre-production hardware.
Summit Supercom
200+ PetaFlops
~3,400 Nodes
10 Megawatts
VOLTA TENSORコア
TENSOR コア
混合精度行列計算ユニット
D = AB + C
D =
FP16 or FP32 FP16 FP16 FP16 or FP32
A0,0 A0,1 A0,2 A0,3
A1,0 A1,1 A1,2 A1,3
A2,0 A2,1 A2,2 A2,3
A3,0 A3,1 A3,2 A3,3
B0,0 B0,1 B0,2 B0,3
B1,0 B1,1 B1,2 B1,3
B2,0 B2,1 B2,2 B2,3
B3,0 B3,1 B3,2 B3,3
C0,0 C0,1 C0,2 C0,3
C1,0 C1,1 C1,2 C1,3
C2,0 C2,1 C2,2 C2,3
C3,0 C3,1 C3,2 C3,3
4x4 の行列の積和演算を1サイクルで計算する性能 (128演算/サイクル)
行列のFMA (Fused Multiply-Add)
VOLTA TENSOR コア
Volta Tensor Core
P100 V100
FP16/Tensorコア 20 TFLOPS 125 TFLOPS
FP32 10 TFLOPS 15.6 TFLOPS
FP16
FP16
× + FP32
FP32
FP16 FP32
混合精度演算
16bit
16bit
32bit
CUBLAS: TENSORコアの実効性能
P100 FP32 vs. V100 Tensorコア
最大9倍の
性能向上
CUDNN: TENSOR コアの実効性能
P100 FP32 vs. V100 Tensorコア
Convolution層
の性能比較
Resnet50, Imagenet, Batch:128
P100 FP32, V100 FP32 vs. V100 Tensorコア
0 100 200 300 400 500 600
Conv BN Relu Cupy_* Misc.
570 ms
360 ms
197 ms
Time per iteration [ms]
約3倍
P100 FP32
V100 FP32
V100
Tensorコア
(*) Chainer 3.0.0rc1+ と CuPy 2.0.0rc1+ を使用
NVIDIA TENSORRT 3
CNN による画像分類 (推論) のパフォーマンス
CNN - IMAGES
0
1,000
2,000
3,000
4,000
5,000
6,000
画像/秒(レイテンシ目標:7ms)
ResNet-50 のスループット
17ms
CPU + Caffe P100 +
TensorRT
P4 +
TensorRT
CPU throughput based on measured inference throughput performance on Broadwell-based Xeon E2690v4 CPU, and doubled to reflect Intel’s
stated claim that Xeon Scalable Processor will deliver 2x the performance of Broadwell-based Xeon CPUs on Deep Learning Inference.
V100 +
TensorRT
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
GoogLeNet のスループット
8ms
CPU + Caffe P100 +
TensorRT
P4 +
TensorRT
V100 +
TensorRT
7ms 7ms
CNN - IMAGES
画像/秒(レイテンシ目標:7ms)
VOLTA
ディープラーニング性能を大幅に向上
P100 V100 P100 V100
ImagesperSecond
ImagesperSecond
2.4x faster 3.7x faster
FP32 Tensorコア FP16 Tensorコア
トレーニング インファレンス
TensorRT - 7ms Latency
(*) DLモデルはResNet50
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
②クラスター(Ubuntu / デー
タサイエンスVM)の作成
①ストレージの作成
③ジョブ投入
クラスターをすぐ展開
削除 オートスケール
 低優先度仮想マシン 80
 データサイエンス仮想マシン Docker 環境をすぐ
設定不要でマルチノード間の通信
リソースグループ
ワークスペース
クラスター Experiment
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
注意点
• Batch AIのクオータは、仮想マ
シンやAzure Batchとは異なり
ます
• 仮想マシンのクオータを持ってい
ても、Batch AIでは別途クオータ
の申請が必要です
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
• リソースグループは
Azureのリソース管理で
一番大きなくくり
• 通常ライフサイクルが同
じものをまとめる
• ワークスペースはBatch
AIの各リソースの管理単
位
• プロジェクトやチーム単
位で1つ作るのがおす
すめ
• Experimentはジョブ管
理の単位
• 同じモデルの計算や、
パラメータごと、日付など
で分ける
推奨
コンテナーの中に仮想的なディレクトリ構造を作ることもできる
https://azure.microsoft.com/ja-jp/blog/linux-fuse-adapter-for-blob-storage/
Linuxからマウント
ファイルアクセススピード
 並列ダウンロード、アップロード
Read-onlyシナリオ、シ
ングルノードからの書き込み
0
50
100
150
200
250
Azure Files Blob Fuse
実行時間[min]
Dockerコンテナー OSイメージ
利点 カスタマイズが容易
すでにあるものを利用できる
DSVMならばMSが提供
ダウンロード時間がかからない
欠点 イメージのダウンロード時間がかかる 作成がやや手間がかかる
https://docs.microsoft.com/ja-jp/azure/machine-learning/data-science-virtual-
machine/overview
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
https://raw.githubusercontent.com/Azure/BatchA
I/master/schemas/2018-05-01/job.json
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
https://docs.microsoft.com/ja-jp/azure/batch-
ai/quickstart-cli
https://docs.microsoft.com/ja-jp/azure/batch-
ai/quickstart-python
https://github.com/Azure/BatchAI/tree/master/recipe
s
https://github.com/Azure/BatchAI/blob/master/documentat
ion/using-azure-cli-20.md
https://github.com/Azure/BatchAI/tree/master/recipes
こちらを読めばオプションなど細かい部分含めて
詳細な理解が可能です
InfiniBand GPU
 GPUインスタンスは、Kepler(Tesla K80)から最新のVolta(Tesla
V100)まで取り揃えています。
GPU搭載マシン
低優先度仮想マシン
わずか数ステップ
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
◼ 本書に記載した情報は、本書各項目に関する発行日現在の Microsoft の見解を表明するものですMicrosoftは絶えず変化する市場に対応しなければならないため、ここに記載した情報に対していかなる責務を負う
ものではなく、提示された情報の信憑性については保証できません
◼ 本書は情報提供のみを目的としています Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありません
◼ すべての当該著作権法を遵守することはお客様の責務ですMicrosoftの書面による明確な許可なく、本書の如何なる部分についても、転載や検索システムへの格納または挿入を行うことは、どのような形式または手
段(電子的、機械的、複写、レコーディング、その他)、および目的であっても禁じられていますこれらは著作権保護された権利を制限するものではありません
◼ Microsoftは、本書の内容を保護する特許、特許出願書、商標、著作権、またはその他の知的財産権を保有する場合がありますMicrosoftから書面によるライセンス契約が明確に供給される場合を除いて、本書の
提供はこれらの特許、商標、著作権、またはその他の知的財産へのライセンスを与えるものではありません
© 2018 Microsoft Corporation. All rights reserved.
Microsoft, Windows, その他本文中に登場した各製品名は、Microsoft Corporation の米国およびその他の国における登録商標または商標です
その他、記載されている会社名および製品名は、一般に各社の商標です
Ad

Recommended

研究を加速するChainerファミリー
研究を加速するChainerファミリー
Deep Learning Lab(ディープラーニング・ラボ)
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Daiyu Hatakeyama
 
マイクロソフトが考えるAI活用のロードマップ
マイクロソフトが考えるAI活用のロードマップ
Deep Learning Lab(ディープラーニング・ラボ)
 
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
Daiyu Hatakeyama
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
Daiyu Hatakeyama
 
実世界に埋め込まれる深層学習
実世界に埋め込まれる深層学習
Deep Learning Lab(ディープラーニング・ラボ)
 
DLLab 2018 - Azure Machine Learning update
DLLab 2018 - Azure Machine Learning update
Daiyu Hatakeyama
 
Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話
NVIDIA Japan
 
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
NVIDIA Japan
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
kcnguo
 
1000: 基調講演
1000: 基調講演
NVIDIA Japan
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Daiyu Hatakeyama
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなす
NVIDIA Japan
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
Kazunori Sato
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
NVIDIA Japan
 
CUDAプログラミング入門
CUDAプログラミング入門
NVIDIA Japan
 
GPU クラウド コンピューティング
GPU クラウド コンピューティング
NVIDIA Japan
 
ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報
NVIDIA Japan
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているか
NVIDIA Japan
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
NVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Japan
 
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
Preferred Networks
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
Hirono Jumpei
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
Developers Summit
 
MII conference177 nvidia
MII conference177 nvidia
Tak Izaki
 

More Related Content

What's hot (20)

Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話
NVIDIA Japan
 
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
NVIDIA Japan
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
kcnguo
 
1000: 基調講演
1000: 基調講演
NVIDIA Japan
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Daiyu Hatakeyama
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなす
NVIDIA Japan
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
Kazunori Sato
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
NVIDIA Japan
 
CUDAプログラミング入門
CUDAプログラミング入門
NVIDIA Japan
 
GPU クラウド コンピューティング
GPU クラウド コンピューティング
NVIDIA Japan
 
ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報
NVIDIA Japan
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているか
NVIDIA Japan
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
NVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Japan
 
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
Preferred Networks
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
Hirono Jumpei
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
 
Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話
NVIDIA Japan
 
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)
NVIDIA Japan
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
kcnguo
 
1000: 基調講演
1000: 基調講演
NVIDIA Japan
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Daiyu Hatakeyama
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなす
NVIDIA Japan
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
Kazunori Sato
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
NVIDIA Japan
 
CUDAプログラミング入門
CUDAプログラミング入門
NVIDIA Japan
 
GPU クラウド コンピューティング
GPU クラウド コンピューティング
NVIDIA Japan
 
ディープラーニング最新動向と技術情報
ディープラーニング最新動向と技術情報
NVIDIA Japan
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているか
NVIDIA Japan
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
NVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Japan
 
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
Preferred Networks
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
Hirono Jumpei
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
 

Similar to Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI (20)

【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
Developers Summit
 
MII conference177 nvidia
MII conference177 nvidia
Tak Izaki
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報
ReNom User Group
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
Kuninobu SaSaki
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
日本マイクロソフト株式会社
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
Deep Learning Lab(ディープラーニング・ラボ)
 
NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA Japan
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup
ManaMurakami1
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性
Yusaku Watanabe
 
生活を豊かにするデータ解析と計算機の使われ方の進化
生活を豊かにするデータ解析と計算機の使われ方の進化
Naoto MATSUMOTO
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
Insight Technology, Inc.
 
20170726 py data.tokyo
20170726 py data.tokyo
ManaMurakami1
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
Takefumi MIYOSHI
 
NVIDIA ディープラーニング入門
NVIDIA ディープラーニング入門
Seong-Hun Choe
 
【旧版】2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
【旧版】2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
Preferred Networks
 
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
Preferred Networks
 
[Azure Antenna] クラウドで HPC ~ HPC on Azure ~
[Azure Antenna] クラウドで HPC ~ HPC on Azure ~
Shuichi Gojuki
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
 
TVM の紹介
TVM の紹介
Masahiro Masuda
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
Developers Summit
 
MII conference177 nvidia
MII conference177 nvidia
Tak Izaki
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報
ReNom User Group
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
Kuninobu SaSaki
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
日本マイクロソフト株式会社
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
Deep Learning Lab(ディープラーニング・ラボ)
 
NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA Japan
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup
ManaMurakami1
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性
Yusaku Watanabe
 
生活を豊かにするデータ解析と計算機の使われ方の進化
生活を豊かにするデータ解析と計算機の使われ方の進化
Naoto MATSUMOTO
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
Insight Technology, Inc.
 
20170726 py data.tokyo
20170726 py data.tokyo
ManaMurakami1
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
Takefumi MIYOSHI
 
NVIDIA ディープラーニング入門
NVIDIA ディープラーニング入門
Seong-Hun Choe
 
【旧版】2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
【旧版】2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
Preferred Networks
 
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
Preferred Networks
 
[Azure Antenna] クラウドで HPC ~ HPC on Azure ~
[Azure Antenna] クラウドで HPC ~ HPC on Azure ~
Shuichi Gojuki
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
 
Ad

Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI