分析指向データレイク実現の次の一手～Delta Lake、なにそれおいしいの？～（NTTデータテクノロジーカンファレンス 2020 発表資料）

NTTデータテクノロジーカンファレンス 2020
© 2020 NTT DATA Corporation
分析志向データレイク実現の次の一手
〜Delta Lake、なにそれおいしいの？〜
2020年10月16日
株式会社NTTデータシステム技術本部デジタル技術部
シニアIT/R&Dスペシャリスト梅森直人

2
【質問】「Delta Lake」とはナニモノか？
初耳です、なにそれおいしいの？
名前を聞いたことがあります
動かしたことがあります or 動かしています
中の人です
A
B
D
C

3
この講演の対象者は以下の方々です
中の人です
A
B
C
D

4
このセッションでお伝えしたいこと
1
2
Delta Lake の概要と基本的な使い方について
データ活用基盤アーキテクチャの例を通じてご紹介します
Delta Lake を動かしたときの特徴の一部をご紹介します

Delta Lake とは
A
B
C
このセクションの主な対象者
中の人です
D

6
はじめに - データを永続的に扱うストレージ(データレイク*)の課題
当講演『NTTデータが考えるデータ基盤の次の一手～AI活用のために知っておくべき新潮流とは？～』より引用
注* この講演でデータレイクは、「データを永続的に扱う分散ストレージ」のことを表します
こちらを深堀り

7
分散ストレージに向けられる期待を体系化
データ操作、処理データ操作の補助非機能
多様なデータ多様なライブラリ、
入出力手法
多様なストレージの活用
再現性、説明可能性担保
コラボレーション
品質管理
特徴把握
スケーラビリティ
可用性
運用保守性
移行性
セキュリティ
OK
スケーラブルであることは前提
多様性、柔軟性、安心を支える特徴が求められている

8
分散ストレージ高度化のアプローチ
大まかに、以下の３種類のアプローチがある
1
2
3
アプリケーション側、処理エンジン側を工夫する
ストレージを上手く使う技術を追加して工夫する
ストレージ側を工夫する

9
分散ストレージ高度化のアプローチ
ストレージを上手く使う技術、それが「ストレージレイヤソフトウェア」
1
2
3
アプリケーション側、処理エンジン側を工夫する
ストレージを上手く使う技術を追加して工夫する
ストレージ側を工夫する
⇒ ストレージレイヤソフトウェア

10
ストレージを上手く使う技術の一例
ストレージ
（分散ファイルシステム、オブジェクトストレージ等）
ストレージレイヤソフトウェア
アプリケーション、処理ライブラリ
論理的なデータセットやテーブル
便利な特徴を提供読み書き
素朴な機能を提供データの実体や管理情報を読み書き
論理的なデータセットやテーブルに読
み書きすることで、便利な機能を使い
つつ透過的にストレージに読み書き
下回りにスケーラブルな
基盤を利用可能

11
論理的なテーブル (Delta Table) 物理的なファイル、データ配置
Delta Lake の基本的な使い方 - 「論理的なテーブル操作」とは
Delta table に対してCRUD操作を行うこと
例えば、Delta Lake を介することで、論理的なテーブルの更新ができる
アプリケーション
id fruit price …
1 apple 100 …
2 orange 50 …
3 pineapple 500 …
id fruit price …
1 apple 100 …
2 orange 50 …
3 pineapple 400 …
１２３
データの実体を保存するファイル群
メタデータを保存するファイル群
(delta log)
Update
“Remove” : 3
“Add” : 3’
1 2 3’
３
Read
(アニメーション有)

12
Delta Lake を利用したデータ活用基盤のアーキテクチャ例
ストレージ
ストレージレイヤ
ソフトウェア
データ投入
Amazon Kinesis
Amazon S3
処理エンジン
Azure
Data Lake Storage
BI
ツール
機械学習
入力
・ストリーム
・バッチ
データ格納・管理データ読み出し
データ要求
データ提供
外部
システム
たとえば、SparkからDelta Lakeを利用して
データの保存はHDFSなどのデータレイク上で行う、等ができる

13
Delta Lake のうまみ
Realtime
Historical
データソース
バッチ
ストリーム
機械学習
分析（BIツール）
データ連携
接続
API
更新
スキャン
ACIDトランザクション書き込み
一貫性のある効率的なスキャン
データ品質のコントロールが可能
過去のデータを再現可能
ストリーム処理とバッチ処理の統合
格納データ量に影響されにくい高いパフォーマンス
他製品と組み合わせて
様々なデータソースとの連携/加工/分析が可能
Delta Lakeは、楽観ロックに基づく排他制御を提供するのが特長
既存の分散ストレージが不得手なトランザクション管理が可能になる

14
【回答】「Delta Lake」とはナニモノか？
中の人です
A
B
D
C
(アンケート回答表示予定)

ベンチマークからポイントをご紹介
C
中の人です
このセクションの主な対象者
D
A
B

16
Delta Lake ベンチマーク概要
名称版備考
Delta Lake 0.7.0
Apache Spark 3.0.0
Apache Ambari 2.7.4
Apache Hadoop 3.1.1
TPC-DSデータジェネレータ
spark-tpcds-datagen
(0b1df3f)
https://github.com/maropu/
spark-tpcds-datagen
OpenJDK 1.8.0 Java-1.8.0-openjdk-devel
Python 3.6
CentOS x86_64 7.7 2002_01
AWS EC2 インスタンス用途台数
m5.xlarge Hadoop Master Node 3
m5.8xlarge Hadoop Slave Node 3
t2.large Hadoop Client 1
ベンチマークで扱うデータは、Spark対応のTPC-DSデータジェネレータで生成
Delta Lake の基本特性を知るためのベンチマークを実施
構成情報ベンチマーク用データ
• 『Store Sales テーブル』データ↑
• データ増幅はジェネレータのscale-factorを利用
Delta Lake に対するデータR/W
ローカルファイルシステム
HDFS
Delta Lake
Store
Sales
spark-
tpcds-
datagen
自前
APP
生成
事前に
ロード
自前
APP
HDFS
Delta Lake
SS
■データ書込
■データ読込
Datatype カラム数
identifier 10
int 1
decimal(7, 2) 12

17
Delta Lake ベンチマーク概要
名称版備考
Delta Lake 0.7.0
Apache Spark 3.0.0
Apache Ambari 2.7.4
Apache Hadoop 3.1.1
TPC-DSデータジェネレータ
spark-tpcds-datagen
(0b1df3f)
https://github.com/maropu/
spark-tpcds-datagen
OpenJDK 1.8.0 Java-1.8.0-openjdk-devel
Python 3.6
CentOS x86_64 7.7 2002_01
AWS EC2 インスタンス用途台数
m5.xlarge Hadoop Master Node 3
m5.8xlarge Hadoop Slave Node 3
t2.large Hadoop Client 1
ベンチマークで扱うデータは、Spark対応のTPC-DSデータジェネレータで生成
Delta Lake の基本特性を知るためのベンチマークを実施
構成情報ベンチマーク用データ
• 『Store Sales テーブル』データ↑
• データ増幅はジェネレータのscale-factorを利用
Delta Lake に対するデータR/W
HDFS
Delta Lake
Store
Sales
spark-
tpcds-
datagen
自前
APP
生成
事前に
ロード
自前
APP
HDFS
Delta Lake
SS
■データ書込
■データ読込
1: Read 性能
Datatype カラム数
identifier 10
int 1
decimal(7, 2) 12
2: Upsert* 性能
* データがあれば Update, なければ Insert

18
HDFS
Delta Lake
SS
HDFS
Delta Lake
SS
1: Read – ベンチマーク概要
HDFS内に配置されたデータを
Delta Lake経由で読む場合と、HDFS直読みの場合の実行時間を比較
自前
APP
自前
APP
vs.
• Read対象のデータ量に応じてRead実行時間がどのように変化するかを観測する
→ 0.2GB, 1.8GB, 18.1GB, 184.5GB, 346.0GB
• Delta Lake経由でデータを読む場合と、HDFS直読みの２パターンを実施する
Read対象のデータ量を変えると
実行時間はどう変化するか？

19
1: Read – ベンチマーク結果
0
10
20
30
40
50
60
70
80
90
0.2 1.8 18.1 184.5 346.0
実行時間
[秒]
読込データサイズ [GiB]
Read 実行時間
HDFS 直読み Delta Lake 介在
注: この区間は2倍差
実行時間差は30秒未満
• 実行時間差は30秒未満だが、ユースケースによって影
響度が異なるので注意が必要。
• Delta Lakeを介してのRead時はdelta logファイルの
読み込みを行い、その部分がフットプリントになっている。
0
10
1
11
2
12
3
13
4
14
5
15
6 7 8 9
0 1 2 3 4 5 6 7 8 9
チェックポイント
データの実体を保存するファイル (parquet)
メタデータ保存ファイル[delta log] (json)
APP

20
2: Upsert – ベンチマーク概要
HDFS内に配置されたデータに対して
(Upsert)更新/挿入操作した場合の実行時間を比較
自前
APP
『データ活用基盤を使うほどにデータは溜まっていくけど、5年近く経った今も、更新処理を走らせても大丈夫？』
→ (言い換えると) HDFS内の保存データ量が増えた場合の更新/挿入処理の実行時間はどうなるか？
「元々HDFS内に保存されている」
データ量を変えると
想定シーン
ベンチマーク概要
• Delta Lakeを介してHDFSに入れるデータ量は一定
‣ 更新対象データ
‣ 挿入対象データ
更新対象
Store Sales
spark-
tpcds-
datagen
生成
事前に
ロード
挿入対象
Store Sales HDFS
Delta Lake
SS
• HDFS内の保存データ量を増やす
→ 0.2GB, 1.8GB, 18.1GB, 184.5GB, 346.0GB
総データ量は一定

21
与えるデータの更新/挿入の割合の影響
最適化オプション* による影響
パターンA
パターンB
* merge.optimizeInsertOnlyMerge.enabled および merge.optimizeMatchedOnlyMerge.enabled
「元々HDFS内に保存されている」データ量を変えると

22
パターンA
パターンB

23
2: Upsert – ベンチマーク
パターン.A: 与えるデータの更新/挿入の割合の影響
与えるデータの更新、挿入の割合が変わると実行時間は変化するか？
自前
APP
更新対象
Store Sales
spark-
tpcds-
datagen
生成
事前に
ロード
挿入対象
Store Sales HDFS
Delta Lake
SS
データパターン更新対象SS 挿入対象SS
1. Update 30,000 レコード 0
2. Insert 0 30,000
3. Half & Half 15,000 15,000
データ量
0.2GB, 1.8GB, 18.1GB, 184.5GB, 346.0GB
Upsert
②HDFS内の保存データ量：5 通り
①データの与え方：3 通り

24
2: Upsert – ベンチマーク結果
パターン.A: 与えるデータの更新/挿入の割合の影響 – 結果
1.0
10.0
100.0
0.2 1.8 18.1 184.5 346.0
実行時間
[分]
更新データサイズ [GiB]
Upsert
Insert
(Insert:Update=100:0)
Half & Half
Update
更新対象データの割合を変えても
実行時間が変わらないこともある
Point
Insert
Update
Half & Half
更新対象となるデータの割合が実行時間の支配項、というわけではない
・・・なぜか？

25
なぜ実行時間が同じになったのか？[考察]
全データに対する更新対象となるデータの単純な割合ではなく
マージ対象データが含まれるファイルがデータストア中に何個存在するかがポイント
• Delta Lake では、Update/Delete等レコードを更新する際、そのレコードを含むParquetFileをまるごと書き直す。
• 逆に、更新対象のレコードを含まないParquetFileは書き直されない。
0.parquet 1.parquet 2.parquet 3.parquet 0.parquet 1.parquet 2.parquet 3.parquet
Update Update Update Update Update Update
処理
時間
データ
量
更新対象データ
0’.parquet 1’.parquet 2’.parquet 3’.parquet 0’.parquet 3’.parquet
1.parquet 2.parquet

26
なぜ実行時間が同じになったのか？[考察]
テーブルや更新データの状態によって処理時間が変化するケースがある
状態を予想しきれない場合は、最悪値で処理時間を見積もっておくのが安全
• Delta Lake では、Update/Delete等レコードを更新する際、そのレコードを含むParquetFileをまるごと書き直す。
• 逆に、更新対象のレコードを含まないParquetFileは書き直されない。
0.parquet 1.parquet 2.parquet 3.parquet 0.parquet 1.parquet 2.parquet 3.parquet
Update Update Update Update Update Update
処理
時間
データ
量
更新対象データ
0’.parquet 1’.parquet 2’.parquet 3’.parquet 0’.parquet 3’.parquet
1.parquet 2.parquet

27
パターンA
パターンB

28
2: Upsert – ベンチマーク
パターン.B: 最適化オプションによる影響
最適化オプションの有無で実行時間は変化するか？
自前
APP
更新対象
Store Sales
spark-
tpcds-
datagen
生成
事前に
ロード
挿入対象
Store Sales HDFS
Delta Lake
SS
Upsert
①データの与え方：4 通り
③最適化オプション：2 通り
データパターン更新対象SS 挿入対象SS
1. Update-1 30,000 レコード 0
2. Update-2 3,000,000 0
3. Insert-1 0 30,000
4. Insert-2 0 3,000,000
更新：merge.optimizeMatchedOnlyMerge.enabled
挿入：merge.optimizeInsertOnlyMerge.enabled
データ量
0.2GB, 1.8GB, 18.1GB, 184.5GB, 346.0GB
②HDFS内の保存データ量：5 通り

29
1.0
10.0
0.2 1.8 18.1 184.5 346.0
実行時間
[分]
Upsert (Insert : Update = 100 : 0), Σ(Records)=3M
Insert w/ Optimization Insert w/o Optimization
1.0
10.0
100.0
0.2 1.8 18.1 184.5 346.0
実行時間
[分]
Upsert (Insert : Update = 0 : 100), Σ(Records)=3M
Update w/ Optimization Update w/o Optimization
注: この区間は2倍差注: この区間は2倍差
配置するデータ件数が300万(レコード)の場合、
『Insert』のケースで最適化オプション有で実行速度が短縮
『最適化オプション有』の方が速い『最適化オプション』有無で性能差なし

30
1.0
10.0
0.2 1.8 18.1 184.5 346.0
実行時間
[分]
Upsert (Insert : Update = 100 : 0), Σ(Records)=30K
Insert w/ Optimization Insert w/o Optimization
1.0
10.0
100.0
0.2 1.8 18.1 184.5 346.0
実行時間
[分]
Upsert (Insert : Update = 0 : 100), Σ(Records)=30K
Update w/ Optimization Update w/o Optimization
注: この区間は2倍差注: この区間は2倍差
『最適化オプション有』の方が速い
配置するデータ件数が3万(レコード)の場合、
最適化オプション有無で実行速度が改善したり、悪化したり。
『最適化オプション有』の方が遅い

31
なぜそんなことが起きるのか？
更新対象ファイルのリスト生成・取得処理をスキップするまでは良いが
その後の全件データに対するシャッフル処理が遅くなった
Upsertフェーズ最適化オプション有最適化オプション無
1
更新対象ファイルの
リスト生成・取得処理
(Skip)
Upsertするデータ(レコード)件数が、
spark.sql.autoBroadcastJoinThreshold
よりも
2
ファイル更新処理
全件データ
に対する
SortMergeJoin
更新対象ファイル
に対する
SortMergeJoin
少ない多い
BroadcastHashJoin SortMergeJoin
実質０件

32
なぜそんなことが起きるのか？
ストリーム処理併用などで細かなデータをUpsertする場合
データ流量から計算し、最適化オプション有無を選択する必要がある
Upsertフェーズ最適化オプション有最適化オプション無
1
更新対象ファイルの
リスト生成・取得処理
(Skip)
Upsertするデータ(レコード)件数が、
spark.sql.autoBroadcastJoinThreshold
よりも
2
ファイル更新処理
全件データ
に対する
SortMergeJoin
更新対象ファイル
に対する
SortMergeJoin
少ない多い
BroadcastHashJoin SortMergeJoin
実質０件

33
まとめ
Delta Lake の基本とマイクロベンチマーク例についてご紹介しました
1
2
Delta Lake の概要と基本的な使い方についてデータ活用基盤アーキテクチャの例を
通じてご紹介します
⇒ Delta Lakeはストレージレイヤソフトウェアの１つ
⇒ 楽観ロックに基づく排他制御を提供し、従来の分散ストレージに
トランザクション管理の仕組みをもたらします
Delta Lake を動かしたときの特徴の一部をご紹介します
⇒ Read, Upsertの実行例とDelta Lake利用の注意点をご紹介
⇒ Delta Lakeの設定変更の際は Sparkへの影響を要考慮

免責事項
• 当資料に記載されているデータは、独自の検証環境で取得した2020年10月時点での一参考値です。コンテンツ等の内容に関して記載時に最新の注意を払っておりま
すが、当社はその正確性、有用性、確実性その他いかなる保証もするものではありません。コンテンツ等のご利用により万が一何らかの損害が発生したとしても、当社が一
切責任を負うものではありません。また、当資料に記載されている事項を予告なしに変更または中止することがありますのでご了承ください。
• その他、記載されている会社名、商品名、又はサービス名は、各社の登録商標又は商標です。

分析指向データレイク実現の次の一手～Delta Lake、なにそれおいしいの？～（NTTデータテクノロジーカンファレンス 2020 発表資料）

More Related Content

What's hot (20)

Similar to 分析指向データレイク実現の次の一手～Delta Lake、なにそれおいしいの？～（NTTデータテクノロジーカンファレンス 2020 発表資料） (20)

More from NTT DATA Technology & Innovation (20)

Recently uploaded (6)