HDFS新機能総まとめin 2015 （日本Hadoopユーザー会ライトニングトーク＠Cloudera World Tokyo 2015　講演資料）

Copyright © 2015 NTT DATA Corporation
2015/11/10
NTTデータ
鯵坂明
HDFS新機能総まとめ in 2015
Cloudera World Tokyo 2015
ライトニングトーク

2Copyright © 2015 NTT DATA Corporation
Agenda
 Hadoop 2.6の新機能
 Hadoop 2.7の新機能
 今後の新機能

Hadoop 2.6 (2014-11-18)
 Hot swap volumes
 ディスクの設定 (dfs.datanode.data.dir) を変更
 リロード
 DataNodeは動作を継続
 考えられる応用例
 DataNodeを停止させず、故障したディスクを新品に換える
 必要条件:
 dfs.datanode.failed.volumes.tolerated > 1
 ハード側がディスクのhot swapに対応していること
$ hdfs dfsadmin -reconfig datanode <host:port>

HTrace対応
 Integrate Apache HTrace
 HDFSのノード間で発行されるRPCをトレース
 ボトルネックの特定が容易に
Time
Span A
trace id: 12345
parent: rootnode 1
Span B
trace id: 12345
parent: Anode 2
Span C Span Dnode 3
RPC
RPC RPC
Hadoop 2.6

Heterogeneous Storages
 課題
 SSDが手ごろな価格になっている
 よく使われるデータはSSDに置きたい
 Storage typeとBlock placement policyを導入
 Type: HDD, SSD, ARCHIVE, ...
 Policy: One_SSD, HOT, WARM, COLD, ...
 Example: A -> One_SSD, B -> HOT
DN1
SSD DISK
DISK DISK
A
B
DN2
SSD DISK
DISK DISK
A
B DN3
SSD DISK
DISK DISK
A B
Hadoop 2.6

 利用方法
 hdfs-site.xmlを編集し、各ディスクのstorage
typeを認識させる
 Block placement policyを設定
 データを置いてからポリシーを変更することもできる
 Moverを起動して、ポリシーを満たすようにブロックを
再配置させる
Hadoop 2.6
Heterogeneous Storages
<parameter>
<name>dfs.datanode.data.dir</name>
<value>[SSD]file:///data/ssd,[HDD]file:///data/hdd</value>
</parameter>
$ hdfs setstoragepolicies -setStoragePolicy -path <path> -policy <policy>

Archival Storage
 DISKとARCHIVEの違い
 あまり使われないデータはARCHIVEに
 eBayの事例: ストレージの単価を1/5に [1]
 低スペックのDataNodeをアーカイブ用途に使う
 クラスタを分割する必要がないことが、長所
[1] Reduce Storage Costs by 5x Using The New HDFS Tierd Storage Feature
http://www.slideshare.net/Hadoop_Summit/reduce-storage-costs-by-5x-using-the-new-hdfs-
tiered-storage-feature
Regular Node Archival Node
Drives 12 HDDs 60 HDDs
CPU 32 Cores 4 Cores
Memory 128GB 64GB
Run NodeManager Yes No
Hadoop 2.6

Transparent Encryption
 課題
 OSレベルの攻撃からデータを守れなかった
 End-to-endの "透過的な" 暗号化を提供
 Encryption Zone (EZ) に配置するデータは、クライ
アント側で暗号化される
 アプリケーションに新たな実装を増やす必要がない
Hadoop 2.6
Client
DataNode
DataTransferProtocol
can be encrypted
DISK
Data
DataEncrypted data
NOT encrypted!
$ hdfs crypto -createZone -keyName myKey -path /encrypted

Transparent Encryption: 高速な暗号/復号
 スレーブ3台の簡単なベンチマーク
 m3.xlarge, 4 core Xeon E5-2670 v2
 AES-NIを利用
 高速な命令セット (Java実装より10倍くらい速い)
 注意
 暗号化が正しく処理されない (HADOOP-11343)
 元に戻せない可能性がある
 2.6.1以上のバージョンが必須
Hadoop 2.6
Encryption Off Encryption On
1GB Teragen 17 sec 18 sec
1GB Terasort 47 sec 49 sec

Hadoop 2.7 (2015-07-06)
 Quota per storage type
 Truncate API
 Files with variable-length blocks
 Web UI for NFS gateway
 NNTop: top-like tool for NameNode
 各操作ごとの、トップユーザランキング
 Metrics化されている
 fsck -blockId option
 blockIdに紐付いたファイルの情報を出力
 トラブルシュートに便利

INotify for HDFS
 課題
 Hadoopのコンポーネントでキャッシュを使うもの
がある
 HiveはHDFSのパスをキャッシュする
 Impalaはblockの位置をキャッシュする
 では、いつキャッシュを更新するのか?
 解決策
 Linux inotifyと同様のツールを実装
 NameNodeのログを監視することなく、名前空間
の変更を把握できる
Hadoop 2.7

 NameNodeに定期的にポーリングする
 注意
 Truncate APIに対応していない (HDFS-8742)
 Fixed in 2.8.0
INotify for HDFS
Client NameNode
1. Poll any events after #XX
2. Return events after #XX
Caches the highest
event number
Hadoop 2.7

Many features are being developed
 2.8 (not released)
 Support OAuth2 in WebHDFS
 RPC Congestion control
 2.9 or 3.0 (not released)
 Erasure Coding
 Feature branches
 Ozone: Object store (HDFS-7240)
 BlockManager Scalability Improvements (HDFS-7836)
 HTTP/2 support for DataTransferProtocol (HDFS-7966)
 Implement an async pure c++ HDFS client (HDFS-
8707)

RPC Congestion Control
 課題
 NameNodeのRPCキューが FIFO
 以下のようなDDoS攻撃で、最悪クラスタが死ぬ
 解決策
 RPCキューにFair schedulingを導入 (2.6.0)
 2.8で設定方法が簡単になるかも (HDFS-8820)
 キューから溢れたときに、exponential backoffで
リトライさせる (2.8.0)
while (true) {
dfs.exists("/data");
}
Don't do this!
Hadoop 2.8

Erasure Coding
 課題
 ストレージにかかるコストを下げたい
 レプリカを3冗長で持つのがもったいない
 解決策
 Erasure Codeを使う
3-replication (6,3)-Reed-Solomon
Tolerates 2 failures 3 failures
Disk Usage 3x 1.5x

References
 Apache Hadoop Docs: http://hadoop.apache.org/docs/current/
 Heterogeneous Storages (HDFS-5682)
 Reduce Storage Costs by 5x Using The New HDFS Tiered Storage
Feature: http://www.slideshare.net/Hadoop_Summit/reduce-
storage-costs-by-5x-using-the-new-hdfs-tiered-storage-feature
 Transparent Encryption (HDFS-6134)
 Transparent Encryption in HDFS:
http://www.slideshare.net/Hadoop_Summit/transparent-
encryption-in-hdfs
 INotify (HDFS-6634)
 Keep Me in the Loop: Introducing HDFS Inotify:
http://www.slideshare.net/Hadoop_Summit/keep-me-in-the-loop-
inotify-in-hdfs

References
 RPC congestion control (HADOOP-9640, HADOOP-10597, HDFS-8820)
 Improving HDFS Availability with Hadoop RPC Quality of Service:
http://www.slideshare.net/MingMa4/hadoop-
rpcqoshadoopsummit2015
 Erasure Coding (HDFS-7285)
 HDFS Erasure Code Storage - Same Reliability at Better Storage
Efficiency: http://www.slideshare.net/Hadoop_Summit/hdfs-
erasure-code-storage-same-reliability-at-better-storage-efficiency

HDFS新機能総まとめin 2015 （日本Hadoopユーザー会ライトニングトーク＠Cloudera World Tokyo 2015　講演資料）

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to HDFS新機能総まとめin 2015 （日本Hadoopユーザー会ライトニングトーク＠Cloudera World Tokyo 2015　講演資料） (20)

More from NTT DATA OSS Professional Services (7)