2022/3/24に開催した「オンプレML基盤 on Kubernetes」の資料です。機械学習モデルの開発者が、よりモデルの開発にのみ集中できるようにすることを目指して開発している「LakeTahoe(レイクタホ)」について紹介します。
https://ml-kubernetes.connpass.com/event/239859/
2022/3/24に開催した「オンプレML基盤 on Kubernetes」の資料です。オンプレミス環境のKubernetesを使って構築した機械学習基盤の開発、運用の取り組みをご紹介します。
https://ml-kubernetes.connpass.com/event/239859/
27. Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 27
無停止アップグレード
処理 ストレージ
Map
Reduce
Hive Spark … Replica
Check
missing
AmbariのCustom Serviceを利用 スクリプトでコントロール
Ansibleで自動化
28. Ambari Custom Service
28Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• その名の通り、独自にカスタマイズしたサービスを
Ambariに追加することができる
• 運用コマンド等を追加
• NameNode F/O
• ロードバランサ In/Out
29. Ambari Custom Service
29Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• サービス構成xmlとPythonスクリプトを配置し、
Ambariにサービスとして追加するだけで、
既存のものと同様にUIやAPIからオペレーション可
• サーバにログインしてコマンドを打つ必要がなく、
オペミスも防げる
30. Ambari CLI
30Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 運用のために独自に作成したスクリプト
• Ambari, NameNode, ResourceManagerなどの
APIをラップし、より安全なオペレーションを提供
31. 例: HiveServer2の安全なリスタート
31Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 各コンポーンネントごとに安全に外す手順を確立
• 実行中のジョブに影響を与えない
写真: アフロ
Load balancer
HiveServer2
Client
Wait for jobs to be finished
Established connection
Job submit
32. Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 32
無停止アップグレード
処理 ストレージ
Map
Reduce
Hive Spark … Replica
Check
missing
AmbariのCustom Serviceを利用 スクリプトでコントロール
Ansibleで自動化
33. DataNodeの安全なリスタート
33Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• データ配置を考慮し横一列でリスタート
• MissingBlockなどが解消されるのを待つ
MissingBlocks: 0
UnderReplicatedBlocks: 0
CorruptBlocks: 0
写真: アフロ
34. 各コンポーネントのテストジョブを作成
34Copyright (C) 2017 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• HDFS, MapReduce
Hive, Hive on Tez, Pig, Spark
HttpFS, Oozie
• バージョンアップ中に常時実行するようにし、
ジョブに影響が出ていないことを確認