SlideShare a Scribd company logo
© 2020 NTT DATA Corporation 1 © 2020 NTT DATA Corporation
NTTデータ テクノロジーカンファレンス 2020
データ活用を俊敏に進めるためのDataOps実践方法と
その高度化のためのナレッジグラフ活用の取り組み
2020年10月14日
株式会社NTTデータ デジタル技術部
八木香充 / 大山真実
© 2020 NTT DATA Corporation
DXからDataOpsへ
2
© 2020 NTT DATA Corporation 3
DX(デジタルトランスフォーメーション)とは?
現行
ビジネス
デジタル
ビジネス
DX
アプリケーション
モダナイズ
データ活用
© 2020 NTT DATA Corporation 4
DataOpsはシステム化フェーズで特に重要になる
MLOps MLOps MLOps
DataOps DataOps
実証実験(PoC)フェーズ システム化フェーズ 基幹系更改フェーズ
一部データでスピーディーに
低コストで繰り返しモデル開発
全量データをスピーディーにモデ
ルに供給するシステムを開発
データ構造を最適化するため
既存APをモダナイズ
データをいかに素早く分析側に
供給できるかが重要なポイント
データ活用基盤への素早いデータ供
給のために既存アプリケーションの
モダナイズが必要
データ活用 アプリケーションモダナイズ
アプリケーション
モダナイズ
© 2020 NTT DATA Corporation
DataOpsとは?
5
© 2020 NTT DATA Corporation 6
データを活用できている企業は少ない
データを全社的に利活用できている日本企業は 20% (※1)
利活用
できている
(※1)https://www.gartner.com/jp/newsroom/press-releases/pr-20190527
DataOps が有効な武器のひとつ
© 2020 NTT DATA Corporation 7
DataOpsの定義
組織全体のデータ管理者とデータ消費者の間のデータフローの
コミュニケーション、統合、自動化を改善することに
焦点を当てた協調的なデータ管理手法(※)
(※)https://www.gartner.com/en/information-technology/glossary/dataops
© 2020 NTT DATA Corporation 8
DataOpsは、情報系と何がちがうのか?
データ量
分析内容
定型
非定型
情報系
少 多
DataOps
双方向性
データ分析者が必要としているデータを供給す
るため、データ分析者からのフィードバックを重
要視する。
スピード
データ分析者の要望をこまめに取り入れるため、
すばやい構築を行う。
© 2020 NTT DATA Corporation 9
DataOpsの登場人物
データエンジニア データスチュワード データサイエンティスト
データ共有のパイプラインを構築し、メン
テナンスを行うエンジニア。
データエンジニアとデータサイエンティスト
をつなぐコミュニケーター。データガバナン
スに関する責任者でもある。
統計や機械学習を駆使して、データを
分析しビジネスに貢献する。
DataOpsで特に重要な役割
© 2020 NTT DATA Corporation
データスチュワードによる
DataOpsの実践
10
© 2020 NTT DATA Corporation 11
NTTデータが考えるDataOpsとは?
スピード 双方性
目的意識 Oneチーム
SE、データエンジニア、機械学習エ
ンジニア、データサイエンティストが
1つチームとなり、データスチュワー
ドを中心としてDataOpsを実現す
る必要がある。
データ供給者側も、データ分析者
の目的を意識しながら、データ供
給基盤を構築しないと、手段と目
的が入れ替わる危険がある。
© 2020 NTT DATA Corporation 12
DataOps実現へのロードマップ
レベル1
古いDWHが乱立して
おり、分析もアドホック
に実施されている。
レベル2 レベル3
データがサイロ化
手動で
データを整理・統合
自動で
データを整理・統合
データスチュワードが中
心となり、データ統合
を進めている。
自然言語処理やグラ
フテクノロジーを使って
データ統合を自動化。
DataOps オントロジー
NLP
PoC
データスチュワード
まずはここをめざす
© 2020 NTT DATA Corporation 13
よくあるデータ分析基盤
見えていない領域
データ加工 DWH1 DM1
システム A
DM2
システム B
データサイエンティスト A
データサイエンティスト B
分析基盤 B
分析基盤 A
© 2020 NTT DATA Corporation 14
【レベル1】 各所でサイロ化が進んでいる
見えていない領域
データ加工 DWH1 DM1
システム A
DM2
システム B
データサイエンティスト A
データサイエンティスト B
分析基盤 B
分析基盤 A
システム間のサイロ化
上流-下流のサイロ化
© 2020 NTT DATA Corporation 15
【レベル1】 サイロ化に起因してさまざまな課題が発生する
見えていない領域
データ加工 DWH1 DM1
システム A
DM2
システム B
データサイエンティスト A
データサイエンティスト B
システムの違い
ベンダの違い
セキュリティ要件の違い
データ活用への意識の違い
加工処理が属人化
分析基盤 B
DSとデータエンジニアの連携不足
コミュニケーション不足
コード体系の違い
更新頻度の違い
データ品質の違い
データに関する問い合わせ窓口なし
ベンダの違い
類似処理が放置
仕様が不明確
分析基盤 A
システムのデータ変更
紙媒体・Excel
類似データが大量
© 2020 NTT DATA Corporation 16
【レベル2】 データスチュワードがまず担当者をつなぐ
見えていない領域
データ加工 DWH1 DM1
システム A
DM2
システム B
データサイエンティスト A
データサイエンティスト B
システムの違い
ベンダの違い
セキュリティ要件の違い
データ活用への意識の違い
加工処理が属人化
分析基盤 B
DSとデータエンジニアの連携不足
コミュニケーション不足
コード体系の違い
更新頻度の違い
データ品質の違い
データに関する問い合わせ窓口なし
ベンダの違い
類似処理が放置
仕様が不明確
分析基盤 A
システムのデータ変更
紙媒体・Excel
データスチュワード
最適化
名寄せ
調査
ヒヤリング
類似データが大量
© 2020 NTT DATA Corporation 17
【レベル2】 担当者を起点にしてシステムを全方位的につなぐ
見えていない領域
データ加工 DWH1 DM1
システム A
DM2
システム B
データサイエンティスト A
データサイエンティスト B
システムの違い
ベンダの違い
セキュリティ要件の違い
データ活用への意識の違い
加工処理が属人化
分析基盤 B
DSとデータエンジニアの連携不足
コミュニケーション不足
コード体系の違い
更新頻度の違い
データ品質の違い
データに関する問い合わせ窓口なし
ベンダの違い
類似処理が放置
仕様が不明確
分析基盤 A
システムのデータ変更
紙媒体・Excel
データスチュワード
最適化
名寄せ
調査
ヒヤリング
類似データが大量
© 2020 NTT DATA Corporation 18
DataOps実践のために大事なこと
コミュニケーション
お客様業務・分析・システムを理
解することで、システムと経営をつ
なぎ、組織間のサイロを打破してい
く。自律的な働きが重要。
標準化→自動化
データスチュワードによって暗黙知
の形式知化をすすめ、さらに標準
化から自動化することで人的作業
を縮小していく。
品質の維持
データ品質・サービス品質を維持
するため、定量的監視を行う。
特に業務要件に近いものは、ド
キュメンテーションにより理解を促進
する取り組みも重要。
© 2020 NTT DATA Corporation 19
ここまでのまとめ
レベル1
古いDWHが乱立して
おり、分析もアドホック
に実施されている。
レベル2 レベル3
データがサイロ化
手動で
データを整理・統合
自動で
データを整理・統合
データスチュワードが中
心となり、データ統合
を進めている。
自然言語処理やグラ
フテクノロジーを使って
データ統合を自動化。
DataOps オントロジー
NLP
PoC
データスチュワード
ここまでのおはなし
© 2020 NTT DATA Corporation 20
ここまでのまとめ
ここからのおはなし
レベル1
古いDWHが乱立して
おり、分析もアドホック
に実施されている。
レベル2 レベル3
データがサイロ化
手動で
データを整理・統合
自動で
データを整理・統合
データスチュワードが中
心となり、データ統合
を進めている。
自然言語処理やグラ
フテクノロジーを使って
データ統合を自動化。
DataOps オントロジー
NLP
PoC
データスチュワード
© 2020 NTT DATA Corporation
ナレッジグラフによる
メタデータ活用の取り組み
21
© 2020 NTT DATA Corporation 22
© 2020 NTT DATA Corporation 22
データスチュワード業務の効率化・高度化を目指して
IT部門
DB, DWH, ETLなど IT部門エンジニア
事業部B
ビジネスユーザ
事業部A
ビジネスユーザ
・・・
データスチュワード
© 2020 NTT DATA Corporation 23
© 2020 NTT DATA Corporation 23
データスチュワード業務の効率化・高度化を目指して
IT部門
DB, DWH, ETLなど IT部門エンジニア
事業部B
ビジネスユーザ
事業部A
ビジネスユーザ
・・・
データスチュワード
現状の理解
 ヒヤリング
 ドキュメント調査
© 2020 NTT DATA Corporation 24
© 2020 NTT DATA Corporation 24
データスチュワード業務の効率化・高度化を目指して
IT部門
DB, DWH, ETLなど IT部門エンジニア
事業部B
ビジネスユーザ
事業部A
ビジネスユーザ
・・・
データスチュワード
現状の理解
 ヒヤリング
 ドキュメント調査
あるべき姿の提案とそのための作業
 新たなデータ活用の提案
 データの処理と配置の最適化
© 2020 NTT DATA Corporation 25
© 2020 NTT DATA Corporation 25
DB, DWH, ETLなど IT部門エンジニア
データスチュワード業務の効率化・高度化を目指して
IT部門 事業部B
ビジネスユーザ
事業部B
ビジネスユーザ
・・・
データスチュワー
ド
あるべき姿の提案とそのための作業
 新たなデータ活用の提案
 データの処理と配置の最適化
多くの企業ではシステムとデータの
現状を理解するためのコストが増大している
• 多種多様な大量のデータが存在
• ビジネス知識の共有の難しさ
現状の理解
 ヒヤリング
 ドキュメント調査
© 2020 NTT DATA Corporation 26
© 2020 NTT DATA Corporation 26
DB, DWH, ETLなど IT部門エンジニア
データスチュワード業務の効率化・高度化を目指して
IT部門 事業部B
ビジネスユーザ
事業部B
ビジネスユーザ
・・・
データスチュワー
ド
あるべき姿の提案とそのための作業
 新たなデータ活用の提案
 データの処理と配置の最適化
多くの企業ではシステムとデータの
現状を理解するためのコストが増大している
• 多種多様な大量のデータが存在
• ビジネス知識の共有の難しさ
現状の理解
 ヒヤリング
 ドキュメント調査
ナレッジグラフによるメタデータ活用!
これらの課題解決を技術の力で支援したい
© 2020 NTT DATA Corporation 27
© 2020 NTT DATA Corporation 27
ナレッジグラフとは?
現実世界の実体(Entity)同士の関係やそれを説明する情報を
グラフ構造で表現したもの
人間と機械が理解できる
RDF(Resource Description Framework)
• W3Cで標準化されている情報の関係をグラフ構
造で表現するための仕組み
機械的に推論することができる
OWL(Web ontology language)
• W3Cで標準化されているオントロジーを表現す
るための仕組み
• 階層化された分類や分類同士の関係、それら
のルールを機械が理解可能な形で表現する
ナレッジグラフの例
http://mowl-power.cs.man.ac.uk/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf
© 2020 NTT DATA Corporation 28
© 2020 NTT DATA Corporation 28
NTTデータによるナレッジグラフを中心とした取り組み
© 2020 NTT DATA Corporation 29
© 2020 NTT DATA Corporation 29
メタデータとは?
データを説明するデータのこと
データはメタデータを付与されて始めて人間が理解できるようになる。
Business Metadata Social Metadata
Technical Metadata Operational Metadata
• 各部署ごとのビジネス知識
例:ビジネス用語集、業務プロセス文書、ドキュメント化さ
れていないビジネスノウハウなど
• データに関わるステークホルダー同士のコミュニケーション
例:データ分析者によるデータの使いやすさの評価
• 組織外部のデータと組織内部のデータの関係
例:3rdパーティデータに関する情報
• データベースやファイルサーバの設計書、設定ファイル
例:ER図、データベースのスキーマ設計図
• 実際にデータベースやファイルサーバに保存されているメタ
データ
• データの処理に関わる設計書
例:バッチ処理設計書、ETLフロー設計書
• データ処理の履歴・リソース情報
例:データの変更履歴、ジョブ実行時のパフォーマンス情報
© 2020 NTT DATA Corporation 30
© 2020 NTT DATA Corporation 30
メタデータをナレッジグラフとして統合する
どこにどのようなデータがあるのか明らかにする
 ビジネスの実体(Entity)と物理データを結びつける
(例:事業部門Aの「SS-001」のデータが「CSA01」テーブルにあることがわかる)
データの価値を明らかにする
 データの重要度、価値を理解できる(例:アクセス頻度、データの履歴・用途)
 不要/冗長なデータや処理を発見できる
© 2020 NTT DATA Corporation 31
© 2020 NTT DATA Corporation 31
ナレッジグラフでデータの流れと価値を可視化する
どこにどのようなデータがあるのか明らかにする
最もビジネスに価値をもたらすデータからデータ活用を進めることができる
データの処理と配置を最適化してデータ活用基盤のコスト最適化ができる
 ビジネスの実体(Entity)と物理データを結びつける
(例:事業部門Aの「SS-001」のデータが「CSA01」テーブルにあることがわかる)
データの価値を明らかにする
 データの重要度、価値を理解できる(例:アクセス頻度、データの用途)
 不要/冗長なデータや処理を発見できる
© 2020 NTT DATA Corporation 32
© 2020 NTT DATA Corporation 32
ナレッジグラフによるメタデータ活用実現に向けた取り組み
メタデータをどのように集めてナレッジグラフに統合するか?
課題
© 2020 NTT DATA Corporation 33
© 2020 NTT DATA Corporation 33
ナレッジグラフによるメタデータ活用実現に向けた取り組み
メタデータをどのように集めてナレッジグラフに統合するか?
課題
NTTデータによる「データカタログソリューション」
ビジネスメタデータをどのように集めるか?
© 2020 NTT DATA Corporation 34
© 2020 NTT DATA Corporation 34
NTTデータによる「データカタログソリューション」
NTTデータ流通サービス事業部の「Data-Driven Catalog」
© 2020 NTT DATA Corporation 35
© 2020 NTT DATA Corporation 35
NTTデータによる「データカタログ実践事例」
こちらの発表にぜひご注目ください!
© 2020 NTT DATA Corporation 36
© 2020 NTT DATA Corporation 36
ナレッジグラフによるメタデータ活用実現に向けた取り組み
メタデータをどのように集めてナレッジグラフに統合するか?
課題
NTTデータによる「データカタログソリューション」
NTT ソフトウェアイノベーションセンタによる「協働型機械学習技術」
ビジネスメタデータをどのように集めるか?
© 2020 NTT DATA Corporation 37
© 2020 NTT DATA Corporation 37
NTT ソフトウェアイノベーションセンタによる
「協働型機械学習技術」
こちらの発表にぜひご注目ください!
© 2020 NTT DATA Corporation 38
© 2020 NTT DATA Corporation 38
ナレッジグラフによるメタデータ活用実現に向けた取り組み
メタデータをどのように集めてナレッジグラフに統合するか?
課題
NTTデータによる「データカタログソリューション」
NTT ソフトウェアイノベーションセンタによる「協働型機械学習技術」
NTTデータによる「ドメイン特化BERT」
ビジネスメタデータをどのように集めるか?
自然文で記述されているメタデータをどのように集めるか?
© 2020 NTT DATA Corporation 39
© 2020 NTT DATA Corporation 39
NTTデータによる「ドメイン特化BERT」
こちらの発表にぜひご注目ください!
© 2020 NTT DATA Corporation 40
© 2020 NTT DATA Corporation 40
ナレッジグラフによるメタデータ活用実現に向けた取り組み
メタデータをどのように集めてナレッジグラフに統合するか?
課題
NTTデータによる「データカタログソリューション」
NTT ソフトウェアイノベーションセンタによる「協働型機械学習技術」
NTTデータによる「ドメイン特化BERT」
ABLERによる「ナレッジグラフ構築FW」
ビジネスメタデータをどのように集めるか?
自然文で記述されているメタデータをどのように集めるか?
ナレッジグラフの構築を如何に機械化・自動化するか?
© 2020 NTT DATA Corporation 41
© 2020 NTT DATA Corporation 41
データスチュワード業務の効率化・高度化を目指して
IT部門
DB, DWH, ETLなど IT部門エンジニア
事業部B
ビジネスユーザ
事業部A
ビジネスユーザ
・・・
データスチュワード
ナレッジグラフ
テクニカルメタデータ、オペレーショナ
ルメタデータをナレッジグラフに統合
ビジネスメタデータ、ソーシャルメ
タデータをナレッジグラフに統合
インターネット
Linked Open Data をナ
レッジグラフに統合
データカタログ
ビジネス文書
データカタログ
ビジネス文書
機械学習によるビジネス
メタデータ入力支援機能
自然言語処理技術による自
然文からの情報抽出機能
• 最もビジネスに価値をもたらすデータから
データ活用を進めることができる
• データの処理と配置を最適化して
データ活用基盤のコスト最適化ができる
© 2020 NTT DATA Corporation

More Related Content

What's hot (20)

PDF
ナレッジグラフ入門
KnowledgeGraph
 
PPTX
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
PDF
データ活用をするための組織
Kon Yuichi
 
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
 
PDF
AWSではじめるMLOps
MariOhbuchi
 
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
 
PDF
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
 
PDF
オントロジーとは?
Kouji Kozaki
 
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
PDF
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
 
PDF
Data platformdesign
Ryoma Nagata
 
PDF
データ分析を支える技術 DWH再入門
Satoru Ishikawa
 
PDF
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
 
PDF
Snowflake Architecture and Performance
Mineaki Motohashi
 
PPTX
DRIVE CHARTを支えるAI技術
Yusuke Uchida
 
PDF
失敗から学ぶ機械学習応用
Hiroyuki Masuda
 
PPTX
ヒューレットパッカード社の 社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
Tokoroten Nakayama
 
PDF
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
 
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
 
ナレッジグラフ入門
KnowledgeGraph
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
データ活用をするための組織
Kon Yuichi
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
 
AWSではじめるMLOps
MariOhbuchi
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
 
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
 
オントロジーとは?
Kouji Kozaki
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
 
Data platformdesign
Ryoma Nagata
 
データ分析を支える技術 DWH再入門
Satoru Ishikawa
 
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
 
Snowflake Architecture and Performance
Mineaki Motohashi
 
DRIVE CHARTを支えるAI技術
Yusuke Uchida
 
失敗から学ぶ機械学習応用
Hiroyuki Masuda
 
ヒューレットパッカード社の 社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
Tokoroten Nakayama
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
 

Similar to データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 発表資料) (20)

PDF
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PC Cluster Consortium
 
PDF
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
PDF
基調講演:「多様化する情報を支える技術」/西川徹
Preferred Networks
 
PPTX
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
NTT DATA Technology & Innovation
 
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC
Yahoo!デベロッパーネットワーク
 
PPTX
株式会社シーイーシー_DX事例集&導入事例_企業におけるDXの進め方_20241210
mimai11
 
PDF
避けては通れないビッグデータ周辺の重要課題
kurikiyo
 
PDF
Global Top 5 を目指す NTT DATA の確かで意外な技術力
NTT DATA OSS Professional Services
 
PDF
20170912 data analyst meetup tokyo vol.5
tetsuro ito
 
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
 
PPTX
顧客/サプライヤー・データモデルの考察
博文 小野沢さん
 
PDF
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
 
PDF
Data Science Summit 2012 レポート
nagix
 
PPTX
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
QlikPresalesJapan
 
PDF
プランニングツールにおけるインタラクティブな可視化を支えるバックエンド
Yahoo!デベロッパーネットワーク
 
PDF
RIT assesment service for DX
RIT
 
PPTX
Wagby で100+ のクラウドデータに連携するアプリを開発(CData JDBC Drivers)
CData Software Japan
 
PDF
データファブリック実現のためのプロジェクトの進め方とは
Denodo
 
PDF
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
 
PDF
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
 
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PC Cluster Consortium
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
基調講演:「多様化する情報を支える技術」/西川徹
Preferred Networks
 
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
NTT DATA Technology & Innovation
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
Yahoo!デベロッパーネットワーク
 
株式会社シーイーシー_DX事例集&導入事例_企業におけるDXの進め方_20241210
mimai11
 
避けては通れないビッグデータ周辺の重要課題
kurikiyo
 
Global Top 5 を目指す NTT DATA の確かで意外な技術力
NTT DATA OSS Professional Services
 
20170912 data analyst meetup tokyo vol.5
tetsuro ito
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
 
顧客/サプライヤー・データモデルの考察
博文 小野沢さん
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
 
Data Science Summit 2012 レポート
nagix
 
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
QlikPresalesJapan
 
プランニングツールにおけるインタラクティブな可視化を支えるバックエンド
Yahoo!デベロッパーネットワーク
 
RIT assesment service for DX
RIT
 
Wagby で100+ のクラウドデータに連携するアプリを開発(CData JDBC Drivers)
CData Software Japan
 
データファブリック実現のためのプロジェクトの進め方とは
Denodo
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
 
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
 
Ad

More from NTT DATA Technology & Innovation (20)

PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
NTT DATA Technology & Innovation
 
PDF
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
NTT DATA Technology & Innovation
 
PDF
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
NTT DATA Technology & Innovation
 
PDF
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
NTT DATA Technology & Innovation
 
PDF
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
NTT DATA Technology & Innovation
 
PDF
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
NTT DATA Technology & Innovation
 
PDF
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
NTT DATA Technology & Innovation
 
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
NTT DATA Technology & Innovation
 
PDF
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
NTT DATA Technology & Innovation
 
PDF
Gartnerも注目するグリーンソフトウェアの実現に向けて (Green Software Foundation Global Summit 2024 T...
NTT DATA Technology & Innovation
 
PDF
パーティションのATTACH時の注意ポイント (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQL17対応版 EXPLAINオプションについて (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
 
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
NTT DATA Technology & Innovation
 
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
NTT DATA Technology & Innovation
 
2025年現在のNewSQL (最強DB講義 #36 発表資料)
NTT DATA Technology & Innovation
 
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
NTT DATA Technology & Innovation
 
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
NTT DATA Technology & Innovation
 
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
 
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
NTT DATA Technology & Innovation
 
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
NTT DATA Technology & Innovation
 
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
NTT DATA Technology & Innovation
 
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
NTT DATA Technology & Innovation
 
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
NTT DATA Technology & Innovation
 
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
NTT DATA Technology & Innovation
 
Gartnerも注目するグリーンソフトウェアの実現に向けて (Green Software Foundation Global Summit 2024 T...
NTT DATA Technology & Innovation
 
パーティションのATTACH時の注意ポイント (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQL17対応版 EXPLAINオプションについて (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
Ad

Recently uploaded (8)

PPTX
オープンソース界隈の利用者や技術者から見たオープンソースEDAとは? What is open source EDA from the perspecti...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
go tool と Minimal Version Selection アルゴリズム
Keisuke Ishigami
 
PPTX
新卒・中途採用者向け採用ピッチ資料2025年7月版(20250702).pptx
Official74
 
PDF
2023年版Web3技術の理想と現実
Syuhei Hiya
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
オープンソース界隈の利用者や技術者から見たオープンソースEDAとは? What is open source EDA from the perspecti...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
go tool と Minimal Version Selection アルゴリズム
Keisuke Ishigami
 
新卒・中途採用者向け採用ピッチ資料2025年7月版(20250702).pptx
Official74
 
2023年版Web3技術の理想と現実
Syuhei Hiya
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 

データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 発表資料)

  • 1. © 2020 NTT DATA Corporation 1 © 2020 NTT DATA Corporation NTTデータ テクノロジーカンファレンス 2020 データ活用を俊敏に進めるためのDataOps実践方法と その高度化のためのナレッジグラフ活用の取り組み 2020年10月14日 株式会社NTTデータ デジタル技術部 八木香充 / 大山真実
  • 2. © 2020 NTT DATA Corporation DXからDataOpsへ 2
  • 3. © 2020 NTT DATA Corporation 3 DX(デジタルトランスフォーメーション)とは? 現行 ビジネス デジタル ビジネス DX アプリケーション モダナイズ データ活用
  • 4. © 2020 NTT DATA Corporation 4 DataOpsはシステム化フェーズで特に重要になる MLOps MLOps MLOps DataOps DataOps 実証実験(PoC)フェーズ システム化フェーズ 基幹系更改フェーズ 一部データでスピーディーに 低コストで繰り返しモデル開発 全量データをスピーディーにモデ ルに供給するシステムを開発 データ構造を最適化するため 既存APをモダナイズ データをいかに素早く分析側に 供給できるかが重要なポイント データ活用基盤への素早いデータ供 給のために既存アプリケーションの モダナイズが必要 データ活用 アプリケーションモダナイズ アプリケーション モダナイズ
  • 5. © 2020 NTT DATA Corporation DataOpsとは? 5
  • 6. © 2020 NTT DATA Corporation 6 データを活用できている企業は少ない データを全社的に利活用できている日本企業は 20% (※1) 利活用 できている (※1)https://www.gartner.com/jp/newsroom/press-releases/pr-20190527 DataOps が有効な武器のひとつ
  • 7. © 2020 NTT DATA Corporation 7 DataOpsの定義 組織全体のデータ管理者とデータ消費者の間のデータフローの コミュニケーション、統合、自動化を改善することに 焦点を当てた協調的なデータ管理手法(※) (※)https://www.gartner.com/en/information-technology/glossary/dataops
  • 8. © 2020 NTT DATA Corporation 8 DataOpsは、情報系と何がちがうのか? データ量 分析内容 定型 非定型 情報系 少 多 DataOps 双方向性 データ分析者が必要としているデータを供給す るため、データ分析者からのフィードバックを重 要視する。 スピード データ分析者の要望をこまめに取り入れるため、 すばやい構築を行う。
  • 9. © 2020 NTT DATA Corporation 9 DataOpsの登場人物 データエンジニア データスチュワード データサイエンティスト データ共有のパイプラインを構築し、メン テナンスを行うエンジニア。 データエンジニアとデータサイエンティスト をつなぐコミュニケーター。データガバナン スに関する責任者でもある。 統計や機械学習を駆使して、データを 分析しビジネスに貢献する。 DataOpsで特に重要な役割
  • 10. © 2020 NTT DATA Corporation データスチュワードによる DataOpsの実践 10
  • 11. © 2020 NTT DATA Corporation 11 NTTデータが考えるDataOpsとは? スピード 双方性 目的意識 Oneチーム SE、データエンジニア、機械学習エ ンジニア、データサイエンティストが 1つチームとなり、データスチュワー ドを中心としてDataOpsを実現す る必要がある。 データ供給者側も、データ分析者 の目的を意識しながら、データ供 給基盤を構築しないと、手段と目 的が入れ替わる危険がある。
  • 12. © 2020 NTT DATA Corporation 12 DataOps実現へのロードマップ レベル1 古いDWHが乱立して おり、分析もアドホック に実施されている。 レベル2 レベル3 データがサイロ化 手動で データを整理・統合 自動で データを整理・統合 データスチュワードが中 心となり、データ統合 を進めている。 自然言語処理やグラ フテクノロジーを使って データ統合を自動化。 DataOps オントロジー NLP PoC データスチュワード まずはここをめざす
  • 13. © 2020 NTT DATA Corporation 13 よくあるデータ分析基盤 見えていない領域 データ加工 DWH1 DM1 システム A DM2 システム B データサイエンティスト A データサイエンティスト B 分析基盤 B 分析基盤 A
  • 14. © 2020 NTT DATA Corporation 14 【レベル1】 各所でサイロ化が進んでいる 見えていない領域 データ加工 DWH1 DM1 システム A DM2 システム B データサイエンティスト A データサイエンティスト B 分析基盤 B 分析基盤 A システム間のサイロ化 上流-下流のサイロ化
  • 15. © 2020 NTT DATA Corporation 15 【レベル1】 サイロ化に起因してさまざまな課題が発生する 見えていない領域 データ加工 DWH1 DM1 システム A DM2 システム B データサイエンティスト A データサイエンティスト B システムの違い ベンダの違い セキュリティ要件の違い データ活用への意識の違い 加工処理が属人化 分析基盤 B DSとデータエンジニアの連携不足 コミュニケーション不足 コード体系の違い 更新頻度の違い データ品質の違い データに関する問い合わせ窓口なし ベンダの違い 類似処理が放置 仕様が不明確 分析基盤 A システムのデータ変更 紙媒体・Excel 類似データが大量
  • 16. © 2020 NTT DATA Corporation 16 【レベル2】 データスチュワードがまず担当者をつなぐ 見えていない領域 データ加工 DWH1 DM1 システム A DM2 システム B データサイエンティスト A データサイエンティスト B システムの違い ベンダの違い セキュリティ要件の違い データ活用への意識の違い 加工処理が属人化 分析基盤 B DSとデータエンジニアの連携不足 コミュニケーション不足 コード体系の違い 更新頻度の違い データ品質の違い データに関する問い合わせ窓口なし ベンダの違い 類似処理が放置 仕様が不明確 分析基盤 A システムのデータ変更 紙媒体・Excel データスチュワード 最適化 名寄せ 調査 ヒヤリング 類似データが大量
  • 17. © 2020 NTT DATA Corporation 17 【レベル2】 担当者を起点にしてシステムを全方位的につなぐ 見えていない領域 データ加工 DWH1 DM1 システム A DM2 システム B データサイエンティスト A データサイエンティスト B システムの違い ベンダの違い セキュリティ要件の違い データ活用への意識の違い 加工処理が属人化 分析基盤 B DSとデータエンジニアの連携不足 コミュニケーション不足 コード体系の違い 更新頻度の違い データ品質の違い データに関する問い合わせ窓口なし ベンダの違い 類似処理が放置 仕様が不明確 分析基盤 A システムのデータ変更 紙媒体・Excel データスチュワード 最適化 名寄せ 調査 ヒヤリング 類似データが大量
  • 18. © 2020 NTT DATA Corporation 18 DataOps実践のために大事なこと コミュニケーション お客様業務・分析・システムを理 解することで、システムと経営をつ なぎ、組織間のサイロを打破してい く。自律的な働きが重要。 標準化→自動化 データスチュワードによって暗黙知 の形式知化をすすめ、さらに標準 化から自動化することで人的作業 を縮小していく。 品質の維持 データ品質・サービス品質を維持 するため、定量的監視を行う。 特に業務要件に近いものは、ド キュメンテーションにより理解を促進 する取り組みも重要。
  • 19. © 2020 NTT DATA Corporation 19 ここまでのまとめ レベル1 古いDWHが乱立して おり、分析もアドホック に実施されている。 レベル2 レベル3 データがサイロ化 手動で データを整理・統合 自動で データを整理・統合 データスチュワードが中 心となり、データ統合 を進めている。 自然言語処理やグラ フテクノロジーを使って データ統合を自動化。 DataOps オントロジー NLP PoC データスチュワード ここまでのおはなし
  • 20. © 2020 NTT DATA Corporation 20 ここまでのまとめ ここからのおはなし レベル1 古いDWHが乱立して おり、分析もアドホック に実施されている。 レベル2 レベル3 データがサイロ化 手動で データを整理・統合 自動で データを整理・統合 データスチュワードが中 心となり、データ統合 を進めている。 自然言語処理やグラ フテクノロジーを使って データ統合を自動化。 DataOps オントロジー NLP PoC データスチュワード
  • 21. © 2020 NTT DATA Corporation ナレッジグラフによる メタデータ活用の取り組み 21
  • 22. © 2020 NTT DATA Corporation 22 © 2020 NTT DATA Corporation 22 データスチュワード業務の効率化・高度化を目指して IT部門 DB, DWH, ETLなど IT部門エンジニア 事業部B ビジネスユーザ 事業部A ビジネスユーザ ・・・ データスチュワード
  • 23. © 2020 NTT DATA Corporation 23 © 2020 NTT DATA Corporation 23 データスチュワード業務の効率化・高度化を目指して IT部門 DB, DWH, ETLなど IT部門エンジニア 事業部B ビジネスユーザ 事業部A ビジネスユーザ ・・・ データスチュワード 現状の理解  ヒヤリング  ドキュメント調査
  • 24. © 2020 NTT DATA Corporation 24 © 2020 NTT DATA Corporation 24 データスチュワード業務の効率化・高度化を目指して IT部門 DB, DWH, ETLなど IT部門エンジニア 事業部B ビジネスユーザ 事業部A ビジネスユーザ ・・・ データスチュワード 現状の理解  ヒヤリング  ドキュメント調査 あるべき姿の提案とそのための作業  新たなデータ活用の提案  データの処理と配置の最適化
  • 25. © 2020 NTT DATA Corporation 25 © 2020 NTT DATA Corporation 25 DB, DWH, ETLなど IT部門エンジニア データスチュワード業務の効率化・高度化を目指して IT部門 事業部B ビジネスユーザ 事業部B ビジネスユーザ ・・・ データスチュワー ド あるべき姿の提案とそのための作業  新たなデータ活用の提案  データの処理と配置の最適化 多くの企業ではシステムとデータの 現状を理解するためのコストが増大している • 多種多様な大量のデータが存在 • ビジネス知識の共有の難しさ 現状の理解  ヒヤリング  ドキュメント調査
  • 26. © 2020 NTT DATA Corporation 26 © 2020 NTT DATA Corporation 26 DB, DWH, ETLなど IT部門エンジニア データスチュワード業務の効率化・高度化を目指して IT部門 事業部B ビジネスユーザ 事業部B ビジネスユーザ ・・・ データスチュワー ド あるべき姿の提案とそのための作業  新たなデータ活用の提案  データの処理と配置の最適化 多くの企業ではシステムとデータの 現状を理解するためのコストが増大している • 多種多様な大量のデータが存在 • ビジネス知識の共有の難しさ 現状の理解  ヒヤリング  ドキュメント調査 ナレッジグラフによるメタデータ活用! これらの課題解決を技術の力で支援したい
  • 27. © 2020 NTT DATA Corporation 27 © 2020 NTT DATA Corporation 27 ナレッジグラフとは? 現実世界の実体(Entity)同士の関係やそれを説明する情報を グラフ構造で表現したもの 人間と機械が理解できる RDF(Resource Description Framework) • W3Cで標準化されている情報の関係をグラフ構 造で表現するための仕組み 機械的に推論することができる OWL(Web ontology language) • W3Cで標準化されているオントロジーを表現す るための仕組み • 階層化された分類や分類同士の関係、それら のルールを機械が理解可能な形で表現する ナレッジグラフの例 http://mowl-power.cs.man.ac.uk/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf
  • 28. © 2020 NTT DATA Corporation 28 © 2020 NTT DATA Corporation 28 NTTデータによるナレッジグラフを中心とした取り組み
  • 29. © 2020 NTT DATA Corporation 29 © 2020 NTT DATA Corporation 29 メタデータとは? データを説明するデータのこと データはメタデータを付与されて始めて人間が理解できるようになる。 Business Metadata Social Metadata Technical Metadata Operational Metadata • 各部署ごとのビジネス知識 例:ビジネス用語集、業務プロセス文書、ドキュメント化さ れていないビジネスノウハウなど • データに関わるステークホルダー同士のコミュニケーション 例:データ分析者によるデータの使いやすさの評価 • 組織外部のデータと組織内部のデータの関係 例:3rdパーティデータに関する情報 • データベースやファイルサーバの設計書、設定ファイル 例:ER図、データベースのスキーマ設計図 • 実際にデータベースやファイルサーバに保存されているメタ データ • データの処理に関わる設計書 例:バッチ処理設計書、ETLフロー設計書 • データ処理の履歴・リソース情報 例:データの変更履歴、ジョブ実行時のパフォーマンス情報
  • 30. © 2020 NTT DATA Corporation 30 © 2020 NTT DATA Corporation 30 メタデータをナレッジグラフとして統合する どこにどのようなデータがあるのか明らかにする  ビジネスの実体(Entity)と物理データを結びつける (例:事業部門Aの「SS-001」のデータが「CSA01」テーブルにあることがわかる) データの価値を明らかにする  データの重要度、価値を理解できる(例:アクセス頻度、データの履歴・用途)  不要/冗長なデータや処理を発見できる
  • 31. © 2020 NTT DATA Corporation 31 © 2020 NTT DATA Corporation 31 ナレッジグラフでデータの流れと価値を可視化する どこにどのようなデータがあるのか明らかにする 最もビジネスに価値をもたらすデータからデータ活用を進めることができる データの処理と配置を最適化してデータ活用基盤のコスト最適化ができる  ビジネスの実体(Entity)と物理データを結びつける (例:事業部門Aの「SS-001」のデータが「CSA01」テーブルにあることがわかる) データの価値を明らかにする  データの重要度、価値を理解できる(例:アクセス頻度、データの用途)  不要/冗長なデータや処理を発見できる
  • 32. © 2020 NTT DATA Corporation 32 © 2020 NTT DATA Corporation 32 ナレッジグラフによるメタデータ活用実現に向けた取り組み メタデータをどのように集めてナレッジグラフに統合するか? 課題
  • 33. © 2020 NTT DATA Corporation 33 © 2020 NTT DATA Corporation 33 ナレッジグラフによるメタデータ活用実現に向けた取り組み メタデータをどのように集めてナレッジグラフに統合するか? 課題 NTTデータによる「データカタログソリューション」 ビジネスメタデータをどのように集めるか?
  • 34. © 2020 NTT DATA Corporation 34 © 2020 NTT DATA Corporation 34 NTTデータによる「データカタログソリューション」 NTTデータ流通サービス事業部の「Data-Driven Catalog」
  • 35. © 2020 NTT DATA Corporation 35 © 2020 NTT DATA Corporation 35 NTTデータによる「データカタログ実践事例」 こちらの発表にぜひご注目ください!
  • 36. © 2020 NTT DATA Corporation 36 © 2020 NTT DATA Corporation 36 ナレッジグラフによるメタデータ活用実現に向けた取り組み メタデータをどのように集めてナレッジグラフに統合するか? 課題 NTTデータによる「データカタログソリューション」 NTT ソフトウェアイノベーションセンタによる「協働型機械学習技術」 ビジネスメタデータをどのように集めるか?
  • 37. © 2020 NTT DATA Corporation 37 © 2020 NTT DATA Corporation 37 NTT ソフトウェアイノベーションセンタによる 「協働型機械学習技術」 こちらの発表にぜひご注目ください!
  • 38. © 2020 NTT DATA Corporation 38 © 2020 NTT DATA Corporation 38 ナレッジグラフによるメタデータ活用実現に向けた取り組み メタデータをどのように集めてナレッジグラフに統合するか? 課題 NTTデータによる「データカタログソリューション」 NTT ソフトウェアイノベーションセンタによる「協働型機械学習技術」 NTTデータによる「ドメイン特化BERT」 ビジネスメタデータをどのように集めるか? 自然文で記述されているメタデータをどのように集めるか?
  • 39. © 2020 NTT DATA Corporation 39 © 2020 NTT DATA Corporation 39 NTTデータによる「ドメイン特化BERT」 こちらの発表にぜひご注目ください!
  • 40. © 2020 NTT DATA Corporation 40 © 2020 NTT DATA Corporation 40 ナレッジグラフによるメタデータ活用実現に向けた取り組み メタデータをどのように集めてナレッジグラフに統合するか? 課題 NTTデータによる「データカタログソリューション」 NTT ソフトウェアイノベーションセンタによる「協働型機械学習技術」 NTTデータによる「ドメイン特化BERT」 ABLERによる「ナレッジグラフ構築FW」 ビジネスメタデータをどのように集めるか? 自然文で記述されているメタデータをどのように集めるか? ナレッジグラフの構築を如何に機械化・自動化するか?
  • 41. © 2020 NTT DATA Corporation 41 © 2020 NTT DATA Corporation 41 データスチュワード業務の効率化・高度化を目指して IT部門 DB, DWH, ETLなど IT部門エンジニア 事業部B ビジネスユーザ 事業部A ビジネスユーザ ・・・ データスチュワード ナレッジグラフ テクニカルメタデータ、オペレーショナ ルメタデータをナレッジグラフに統合 ビジネスメタデータ、ソーシャルメ タデータをナレッジグラフに統合 インターネット Linked Open Data をナ レッジグラフに統合 データカタログ ビジネス文書 データカタログ ビジネス文書 機械学習によるビジネス メタデータ入力支援機能 自然言語処理技術による自 然文からの情報抽出機能 • 最もビジネスに価値をもたらすデータから データ活用を進めることができる • データの処理と配置を最適化して データ活用基盤のコスト最適化ができる
  • 42. © 2020 NTT DATA Corporation

Editor's Notes

  • #4: ・デジタルトランスフォーメーションは、現行ビジネスをデジタル企業に変革するプロセスそのもの。 ・DXには一般的に、人や組織の改革も含まれますが、ここではシステム観点でDXを述べる。
  • #5: ・DXの2つの要素をさらに分解したのが、この図になります。 ・データ活用は実証実験(いわゆるPoC)フェーズとシステム化フェーズに分けられます。 ・PoCフェーズでは分析の実験を繰り返すことで、ビジネス価値の高い分析内容を見つけ出すことに注力し、効果ありとされたものについて次のシステム化フェーズに進みます。 ・ここで今回の話題の中心となるDataOpsが登場しますが、ここではデータをいかに素早く分析側に供給できるかが、重要なポイントになります。 ・さらに次のフェーズに進むと、データを作り出す源泉システムについて、データ活用基盤への素早いデータ供給のためにモダナイズが必要となります。 --- 取り回しをよくする、柔軟性を上げることを主眼に置くことが多いが、 データ活用をする側から見た、モダナイズの意識を モノリスの悪さ=データ活用ができないからだ。という人は少ない。 データ活用ができないから、モダナイズしたいというお客様は少ないので、そこを強調する必要がある。
  • #8: ・各社様々な定義がありますが、ここではガートナー社の定義を引用させていただきたいと思います。
  • #10: データサイエンティスト:統計や機械学習を駆使して、データを分析する人。 データスチュワード:データ利用者とデータ供給者をつなぐ橋渡し役。データのガバナンスに対する責任者。 データエンジニア:データ共有のパイプラインを構築し、メンテナンスするエンジニア。
  • #12: ・最終的な目的はデータを使ってビジネスに価値を生み出すことであり、データ供給基盤を構築することが目的ではありません。 ・データを供給する側もこの意識をもって取り組まなければ、手段と目的が入れ替わってしまう懸念がある。 ・データ分析においてはより高度な専門性が求められるため、一人の人材ですべての領域をカバーすることは難しくなっている。 ・したがって様々なロールが一つのチームとしてふるまうことで、DataOpsを実現することができる。
  • #13: ・我々はDataOps実現のロードマップとして3つのレベルを定義している。 ・レベル1はなにも取り組みがなされていない状況だが、我々はお客様に最低限レベル2を達成することを目標にしていただきたいと考えています。 ・ここからはレベル1のサイロ状態をどのようにして、レベル2に引き上げていくのかというお話をするつもりである。 ・なおレベル3については後半に大山よりお話があります。 ------ ・レベル2までは最低限しなくちゃいけないよ。 ・データスチュワードのみなさんが何をしなければならないか?DataOps ・情報活用基盤をDataOpsにしたいCIO向け  スチュワードが大事  レベル1レベル2が大事 スチュワードへの話なのか、CIOへの話なのかがわかりにくい。
  • #14: ・我々は様々なお客様を支援させていただいているが、多くのお客様のデータ分析基盤はこの図のようになっている。 ・分析基盤がゼロということはまれで、むしろ複数のシステムや分析基盤が乱立していることがおおい。
  • #15: だいたいエンタープライズのお客様のところに行くと、見えない壁が立っている状態。システム間、上流下流 ヒトの説得 関係者が大量にいて関係調整大変 システムと同時に担当者がサイロ化している。 また分析と源泉システムとの距離が遠いことが問題。
  • #16: 代表的な課題をマッピングするとこのようになる。 実はDataOpsを実現するにあたっての課題を洗い出すだけでも、かなりの労力を有する。 ある程度発生するであろう課題に目途をつけておかないと、どこから手を付けてよいか、将来どのような点で躓くのかが、わからなくなる。 ・NTTデータ流のDataOpsを実現をブロックしている理由にしたい。 ・データシチズンは用意されたDMを利用するので、DSだけがいる
  • #17: ・関係者の利害関係を調整しながら、暗黙知を形式知化していく。
  • #18: 最終的には上流~下流をつなぐ(これをデータリネージュと呼ぶ) また、サイロ化されたシステムをつなぐことで、データ仕様の統一やアーキテクチャの最適化を行う。 これらをデータガバナンスツールで記録・管理することでデータの透明性を高めていく。 現時点のアーキテクチャを明確にし、業務的に意味のある形で記録する作業がいまはほぼ人手になっている(※)大山くんへのつなぎ
  • #19: ・特定の担当者が仕様を把握している状態を解消して、担当者間の引継ぎやお客さまの内製化を進めやすくする必要がある。
  • #20: ここまでな人間系のお話を中心にしてきた。 ・レベル2までは最低限しなくちゃいけないよ。 ・データスチュワードのみなさんが何をしなければならないか?DataOps ・情報活用基盤をDataOpsにしたいCIO向け  スチュワードが大事  レベル1レベル2が大事 スチュワードへの話なのか、CIOへの話なのかがわかりにくい。