SlideShare a Scribd company logo
Copyright © 2015 NTT DATA Corporation
2015/11/10
NTTデータ
鯵坂 明
HDFS新機能総まとめ in 2015
Cloudera World Tokyo 2015
ライトニングトーク
2Copyright © 2015 NTT DATA Corporation
Agenda
 Hadoop 2.6の新機能
 Hadoop 2.7の新機能
 今後の新機能
3Copyright © 2015 NTT DATA Corporation
Hadoop 2.6 (2014-11-18)
 Hot swap volumes
 ディスクの設定 (dfs.datanode.data.dir) を変更
 リロード
 DataNodeは動作を継続
 考えられる応用例
 DataNodeを停止させず、故障したディスクを新品に換える
 必要条件:
 dfs.datanode.failed.volumes.tolerated > 1
 ハード側がディスクのhot swapに対応していること
$ hdfs dfsadmin -reconfig datanode <host:port>
4Copyright © 2015 NTT DATA Corporation
HTrace対応
 Integrate Apache HTrace
 HDFSのノード間で発行されるRPCをトレース
 ボトルネックの特定が容易に
Time
Span A
trace id: 12345
parent: rootnode 1
Span B
trace id: 12345
parent: Anode 2
Span C Span Dnode 3
RPC
RPC RPC
Hadoop 2.6
5Copyright © 2015 NTT DATA Corporation
Heterogeneous Storages
 課題
 SSDが手ごろな価格になっている
 よく使われるデータはSSDに置きたい
 Storage typeとBlock placement policyを導入
 Type: HDD, SSD, ARCHIVE, ...
 Policy: One_SSD, HOT, WARM, COLD, ...
 Example: A -> One_SSD, B -> HOT
DN1
SSD DISK
DISK DISK
A
B
DN2
SSD DISK
DISK DISK
A
B DN3
SSD DISK
DISK DISK
A B
Hadoop 2.6
6Copyright © 2015 NTT DATA Corporation
 利用方法
 hdfs-site.xmlを編集し、各ディスクのstorage
typeを認識させる
 Block placement policyを設定
 データを置いてからポリシーを変更することもできる
 Moverを起動して、ポリシーを満たすようにブロックを
再配置させる
Hadoop 2.6
Heterogeneous Storages
<parameter>
<name>dfs.datanode.data.dir</name>
<value>[SSD]file:///data/ssd,[HDD]file:///data/hdd</value>
</parameter>
$ hdfs setstoragepolicies -setStoragePolicy -path <path> -policy <policy>
7Copyright © 2015 NTT DATA Corporation
Archival Storage
 DISKとARCHIVEの違い
 あまり使われないデータはARCHIVEに
 eBayの事例: ストレージの単価を1/5に [1]
 低スペックのDataNodeをアーカイブ用途に使う
 クラスタを分割する必要がないことが、長所
[1] Reduce Storage Costs by 5x Using The New HDFS Tierd Storage Feature
http://www.slideshare.net/Hadoop_Summit/reduce-storage-costs-by-5x-using-the-new-hdfs-
tiered-storage-feature
Regular Node Archival Node
Drives 12 HDDs 60 HDDs
CPU 32 Cores 4 Cores
Memory 128GB 64GB
Run NodeManager Yes No
Hadoop 2.6
8Copyright © 2015 NTT DATA Corporation
Transparent Encryption
 課題
 OSレベルの攻撃からデータを守れなかった
 End-to-endの "透過的な" 暗号化を提供
 Encryption Zone (EZ) に配置するデータは、クライ
アント側で暗号化される
 アプリケーションに新たな実装を増やす必要がない
Hadoop 2.6
Client
DataNode
DataTransferProtocol
can be encrypted
DISK
Data
DataEncrypted data
NOT encrypted!
$ hdfs crypto -createZone -keyName myKey -path /encrypted
9Copyright © 2015 NTT DATA Corporation
Transparent Encryption: 高速な暗号/復号
 スレーブ3台の簡単なベンチマーク
 m3.xlarge, 4 core Xeon E5-2670 v2
 AES-NIを利用
 高速な命令セット (Java実装より10倍くらい速い)
 注意
 暗号化が正しく処理されない (HADOOP-11343)
 元に戻せない可能性がある
 2.6.1以上のバージョンが必須
Hadoop 2.6
Encryption Off Encryption On
1GB Teragen 17 sec 18 sec
1GB Terasort 47 sec 49 sec
10Copyright © 2015 NTT DATA Corporation
Hadoop 2.7 (2015-07-06)
 Quota per storage type
 Truncate API
 Files with variable-length blocks
 Web UI for NFS gateway
 NNTop: top-like tool for NameNode
 各操作ごとの、トップユーザランキング
 Metrics化されている
 fsck -blockId option
 blockIdに紐付いたファイルの情報を出力
 トラブルシュートに便利
11Copyright © 2015 NTT DATA Corporation
INotify for HDFS
 課題
 Hadoopのコンポーネントでキャッシュを使うもの
がある
 HiveはHDFSのパスをキャッシュする
 Impalaはblockの位置をキャッシュする
 では、いつキャッシュを更新するのか?
 解決策
 Linux inotifyと同様のツールを実装
 NameNodeのログを監視することなく、名前空間
の変更を把握できる
Hadoop 2.7
12Copyright © 2015 NTT DATA Corporation
 NameNodeに定期的にポーリングする
 注意
 Truncate APIに対応していない (HDFS-8742)
 Fixed in 2.8.0
INotify for HDFS
Client NameNode
1. Poll any events after #XX
2. Return events after #XX
Caches the highest
event number
Hadoop 2.7
13Copyright © 2015 NTT DATA Corporation
Many features are being developed
 2.8 (not released)
 Support OAuth2 in WebHDFS
 RPC Congestion control
 2.9 or 3.0 (not released)
 Erasure Coding
 Feature branches
 Ozone: Object store (HDFS-7240)
 BlockManager Scalability Improvements (HDFS-7836)
 HTTP/2 support for DataTransferProtocol (HDFS-7966)
 Implement an async pure c++ HDFS client (HDFS-
8707)
14Copyright © 2015 NTT DATA Corporation
RPC Congestion Control
 課題
 NameNodeのRPCキューが FIFO
 以下のようなDDoS攻撃で、最悪クラスタが死ぬ
 解決策
 RPCキューにFair schedulingを導入 (2.6.0)
 2.8で設定方法が簡単になるかも (HDFS-8820)
 キューから溢れたときに、exponential backoffで
リトライさせる (2.8.0)
while (true) {
dfs.exists("/data");
}
Don't do this!
Hadoop 2.8
15Copyright © 2015 NTT DATA Corporation
Erasure Coding
 課題
 ストレージにかかるコストを下げたい
 レプリカを3冗長で持つのがもったいない
 解決策
 Erasure Codeを使う
3-replication (6,3)-Reed-Solomon
Tolerates 2 failures 3 failures
Disk Usage 3x 1.5x
Copyright © 2011 NTT DATA Corporation
Copyright © 2015 NTT DATA Corporation
17Copyright © 2015 NTT DATA Corporation
References
 Apache Hadoop Docs: http://hadoop.apache.org/docs/current/
 Heterogeneous Storages (HDFS-5682)
 Reduce Storage Costs by 5x Using The New HDFS Tiered Storage
Feature: http://www.slideshare.net/Hadoop_Summit/reduce-
storage-costs-by-5x-using-the-new-hdfs-tiered-storage-feature
 Transparent Encryption (HDFS-6134)
 Transparent Encryption in HDFS:
http://www.slideshare.net/Hadoop_Summit/transparent-
encryption-in-hdfs
 INotify (HDFS-6634)
 Keep Me in the Loop: Introducing HDFS Inotify:
http://www.slideshare.net/Hadoop_Summit/keep-me-in-the-loop-
inotify-in-hdfs
18Copyright © 2015 NTT DATA Corporation
References
 RPC congestion control (HADOOP-9640, HADOOP-10597, HDFS-8820)
 Improving HDFS Availability with Hadoop RPC Quality of Service:
http://www.slideshare.net/MingMa4/hadoop-
rpcqoshadoopsummit2015
 Erasure Coding (HDFS-7285)
 HDFS Erasure Code Storage - Same Reliability at Better Storage
Efficiency: http://www.slideshare.net/Hadoop_Summit/hdfs-
erasure-code-storage-same-reliability-at-better-storage-efficiency
Ad

More Related Content

What's hot (20)

Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
NTT DATA OSS Professional Services
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
shuichi iida
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
NTT DATA OSS Professional Services
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
Masanori Itoh
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
NTT DATA OSS Professional Services
 
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
NTT DATA OSS Professional Services
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
NTT DATA OSS Professional Services
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
オラクルエンジニア通信
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
NTT DATA OSS Professional Services
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
shuichi iida
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
Masanori Itoh
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
NTT DATA OSS Professional Services
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
NTT DATA OSS Professional Services
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
オラクルエンジニア通信
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 

Viewers also liked (20)

Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
NTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
NTT DATA OSS Professional Services
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
NTT DATA OSS Professional Services
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
NTT DATA OSS Professional Services
 
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
NTT DATA OSS Professional Services
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
NTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
NTT DATA OSS Professional Services
 
PostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もうPostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もう
NTT DATA OSS Professional Services
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
NTT DATA OSS Professional Services
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
NTT DATA OSS Professional Services
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
NTT DATA OSS Professional Services
 
ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~
ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~
ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~
Brocade
 
ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~
ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~
ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~
Hideaki Tokida
 
IBM Software, Tivoli Storage Manager
IBM Software, Tivoli Storage ManagerIBM Software, Tivoli Storage Manager
IBM Software, Tivoli Storage Manager
Zainal Abidin
 
Big Data Developers Moscow Meetup 1 - sql on hadoop
Big Data Developers Moscow Meetup 1  - sql on hadoopBig Data Developers Moscow Meetup 1  - sql on hadoop
Big Data Developers Moscow Meetup 1 - sql on hadoop
bddmoscow
 
Filesystems, RPC and HDFS
Filesystems, RPC and HDFSFilesystems, RPC and HDFS
Filesystems, RPC and HDFS
Alexander Alten
 
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
 
Basics of IBM Tivoli Storage Manager
Basics of IBM Tivoli Storage ManagerBasics of IBM Tivoli Storage Manager
Basics of IBM Tivoli Storage Manager
imagineers7
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
NTT DATA OSS Professional Services
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
NTT DATA OSS Professional Services
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
NTT DATA OSS Professional Services
 
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
NTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
NTT DATA OSS Professional Services
 
ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~
ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~
ストレージ管理者が今、押さえておくべきネットワーク基本の「キ」 ~必要なのは性能とシンプルさ。その極意とは?~
Brocade
 
ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~
ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~
ビジネス変革の基盤となるIBM Bluemix ~基礎から最新の取り組みまで~
Hideaki Tokida
 
IBM Software, Tivoli Storage Manager
IBM Software, Tivoli Storage ManagerIBM Software, Tivoli Storage Manager
IBM Software, Tivoli Storage Manager
Zainal Abidin
 
Big Data Developers Moscow Meetup 1 - sql on hadoop
Big Data Developers Moscow Meetup 1  - sql on hadoopBig Data Developers Moscow Meetup 1  - sql on hadoop
Big Data Developers Moscow Meetup 1 - sql on hadoop
bddmoscow
 
Filesystems, RPC and HDFS
Filesystems, RPC and HDFSFilesystems, RPC and HDFS
Filesystems, RPC and HDFS
Alexander Alten
 
Basics of IBM Tivoli Storage Manager
Basics of IBM Tivoli Storage ManagerBasics of IBM Tivoli Storage Manager
Basics of IBM Tivoli Storage Manager
imagineers7
 
Ad

Similar to HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料) (20)

Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
NTT DATA Technology & Innovation
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
NTT DATA OSS Professional Services
 
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Yahoo!デベロッパーネットワーク
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
Cloudera Japan
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
 
Apache Hadoopを改めて知る
Apache Hadoopを改めて知るApache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
 
Hadoopとその周辺の紹介
Hadoopとその周辺の紹介Hadoopとその周辺の紹介
Hadoopとその周辺の紹介
Shinya Okano
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
NTT DATA Technology & Innovation
 
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
NTT DATA Technology & Innovation
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
Cloudera Japan
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
 
Hadoopとその周辺の紹介
Hadoopとその周辺の紹介Hadoopとその周辺の紹介
Hadoopとその周辺の紹介
Shinya Okano
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
NTT DATA Technology & Innovation
 
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
 
Ad

More from NTT DATA OSS Professional Services (7)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
NTT DATA OSS Professional Services
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
NTT DATA OSS Professional Services
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
NTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
 
Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
 

HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)

  • 1. Copyright © 2015 NTT DATA Corporation 2015/11/10 NTTデータ 鯵坂 明 HDFS新機能総まとめ in 2015 Cloudera World Tokyo 2015 ライトニングトーク
  • 2. 2Copyright © 2015 NTT DATA Corporation Agenda  Hadoop 2.6の新機能  Hadoop 2.7の新機能  今後の新機能
  • 3. 3Copyright © 2015 NTT DATA Corporation Hadoop 2.6 (2014-11-18)  Hot swap volumes  ディスクの設定 (dfs.datanode.data.dir) を変更  リロード  DataNodeは動作を継続  考えられる応用例  DataNodeを停止させず、故障したディスクを新品に換える  必要条件:  dfs.datanode.failed.volumes.tolerated > 1  ハード側がディスクのhot swapに対応していること $ hdfs dfsadmin -reconfig datanode <host:port>
  • 4. 4Copyright © 2015 NTT DATA Corporation HTrace対応  Integrate Apache HTrace  HDFSのノード間で発行されるRPCをトレース  ボトルネックの特定が容易に Time Span A trace id: 12345 parent: rootnode 1 Span B trace id: 12345 parent: Anode 2 Span C Span Dnode 3 RPC RPC RPC Hadoop 2.6
  • 5. 5Copyright © 2015 NTT DATA Corporation Heterogeneous Storages  課題  SSDが手ごろな価格になっている  よく使われるデータはSSDに置きたい  Storage typeとBlock placement policyを導入  Type: HDD, SSD, ARCHIVE, ...  Policy: One_SSD, HOT, WARM, COLD, ...  Example: A -> One_SSD, B -> HOT DN1 SSD DISK DISK DISK A B DN2 SSD DISK DISK DISK A B DN3 SSD DISK DISK DISK A B Hadoop 2.6
  • 6. 6Copyright © 2015 NTT DATA Corporation  利用方法  hdfs-site.xmlを編集し、各ディスクのstorage typeを認識させる  Block placement policyを設定  データを置いてからポリシーを変更することもできる  Moverを起動して、ポリシーを満たすようにブロックを 再配置させる Hadoop 2.6 Heterogeneous Storages <parameter> <name>dfs.datanode.data.dir</name> <value>[SSD]file:///data/ssd,[HDD]file:///data/hdd</value> </parameter> $ hdfs setstoragepolicies -setStoragePolicy -path <path> -policy <policy>
  • 7. 7Copyright © 2015 NTT DATA Corporation Archival Storage  DISKとARCHIVEの違い  あまり使われないデータはARCHIVEに  eBayの事例: ストレージの単価を1/5に [1]  低スペックのDataNodeをアーカイブ用途に使う  クラスタを分割する必要がないことが、長所 [1] Reduce Storage Costs by 5x Using The New HDFS Tierd Storage Feature http://www.slideshare.net/Hadoop_Summit/reduce-storage-costs-by-5x-using-the-new-hdfs- tiered-storage-feature Regular Node Archival Node Drives 12 HDDs 60 HDDs CPU 32 Cores 4 Cores Memory 128GB 64GB Run NodeManager Yes No Hadoop 2.6
  • 8. 8Copyright © 2015 NTT DATA Corporation Transparent Encryption  課題  OSレベルの攻撃からデータを守れなかった  End-to-endの "透過的な" 暗号化を提供  Encryption Zone (EZ) に配置するデータは、クライ アント側で暗号化される  アプリケーションに新たな実装を増やす必要がない Hadoop 2.6 Client DataNode DataTransferProtocol can be encrypted DISK Data DataEncrypted data NOT encrypted! $ hdfs crypto -createZone -keyName myKey -path /encrypted
  • 9. 9Copyright © 2015 NTT DATA Corporation Transparent Encryption: 高速な暗号/復号  スレーブ3台の簡単なベンチマーク  m3.xlarge, 4 core Xeon E5-2670 v2  AES-NIを利用  高速な命令セット (Java実装より10倍くらい速い)  注意  暗号化が正しく処理されない (HADOOP-11343)  元に戻せない可能性がある  2.6.1以上のバージョンが必須 Hadoop 2.6 Encryption Off Encryption On 1GB Teragen 17 sec 18 sec 1GB Terasort 47 sec 49 sec
  • 10. 10Copyright © 2015 NTT DATA Corporation Hadoop 2.7 (2015-07-06)  Quota per storage type  Truncate API  Files with variable-length blocks  Web UI for NFS gateway  NNTop: top-like tool for NameNode  各操作ごとの、トップユーザランキング  Metrics化されている  fsck -blockId option  blockIdに紐付いたファイルの情報を出力  トラブルシュートに便利
  • 11. 11Copyright © 2015 NTT DATA Corporation INotify for HDFS  課題  Hadoopのコンポーネントでキャッシュを使うもの がある  HiveはHDFSのパスをキャッシュする  Impalaはblockの位置をキャッシュする  では、いつキャッシュを更新するのか?  解決策  Linux inotifyと同様のツールを実装  NameNodeのログを監視することなく、名前空間 の変更を把握できる Hadoop 2.7
  • 12. 12Copyright © 2015 NTT DATA Corporation  NameNodeに定期的にポーリングする  注意  Truncate APIに対応していない (HDFS-8742)  Fixed in 2.8.0 INotify for HDFS Client NameNode 1. Poll any events after #XX 2. Return events after #XX Caches the highest event number Hadoop 2.7
  • 13. 13Copyright © 2015 NTT DATA Corporation Many features are being developed  2.8 (not released)  Support OAuth2 in WebHDFS  RPC Congestion control  2.9 or 3.0 (not released)  Erasure Coding  Feature branches  Ozone: Object store (HDFS-7240)  BlockManager Scalability Improvements (HDFS-7836)  HTTP/2 support for DataTransferProtocol (HDFS-7966)  Implement an async pure c++ HDFS client (HDFS- 8707)
  • 14. 14Copyright © 2015 NTT DATA Corporation RPC Congestion Control  課題  NameNodeのRPCキューが FIFO  以下のようなDDoS攻撃で、最悪クラスタが死ぬ  解決策  RPCキューにFair schedulingを導入 (2.6.0)  2.8で設定方法が簡単になるかも (HDFS-8820)  キューから溢れたときに、exponential backoffで リトライさせる (2.8.0) while (true) { dfs.exists("/data"); } Don't do this! Hadoop 2.8
  • 15. 15Copyright © 2015 NTT DATA Corporation Erasure Coding  課題  ストレージにかかるコストを下げたい  レプリカを3冗長で持つのがもったいない  解決策  Erasure Codeを使う 3-replication (6,3)-Reed-Solomon Tolerates 2 failures 3 failures Disk Usage 3x 1.5x
  • 16. Copyright © 2011 NTT DATA Corporation Copyright © 2015 NTT DATA Corporation
  • 17. 17Copyright © 2015 NTT DATA Corporation References  Apache Hadoop Docs: http://hadoop.apache.org/docs/current/  Heterogeneous Storages (HDFS-5682)  Reduce Storage Costs by 5x Using The New HDFS Tiered Storage Feature: http://www.slideshare.net/Hadoop_Summit/reduce- storage-costs-by-5x-using-the-new-hdfs-tiered-storage-feature  Transparent Encryption (HDFS-6134)  Transparent Encryption in HDFS: http://www.slideshare.net/Hadoop_Summit/transparent- encryption-in-hdfs  INotify (HDFS-6634)  Keep Me in the Loop: Introducing HDFS Inotify: http://www.slideshare.net/Hadoop_Summit/keep-me-in-the-loop- inotify-in-hdfs
  • 18. 18Copyright © 2015 NTT DATA Corporation References  RPC congestion control (HADOOP-9640, HADOOP-10597, HDFS-8820)  Improving HDFS Availability with Hadoop RPC Quality of Service: http://www.slideshare.net/MingMa4/hadoop- rpcqoshadoopsummit2015  Erasure Coding (HDFS-7285)  HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency: http://www.slideshare.net/Hadoop_Summit/hdfs- erasure-code-storage-same-reliability-at-better-storage-efficiency