SlideShare a Scribd company logo
サクっと業務でつくった
ログ/データ調査環境
(re:dash ☓ AWS Athena ☓ embulk)
自己紹介
2
茂木 高宏(もてき たかひろ)
株式会社 CyberZ
F.O.X事業 SRE engineer
twitter: @tkmoteki
facebook: takahiro.moteki.31
最近の業務
● ログ/データ調査環境
● AWS内の移行
はじめに: 対象のログ/データ
3
● サービスログ
○ 例:) 広告系(クリック,コンバージョン), KPIログ...
● システムログ
○ 例:) アクセスログ, パフォーマンスログ, セキュリティログ...
● サービスデータ
○ 例:) マスタデータ, 中間データ, アカウントデータ...
● システムデータ
○ 例:) サービスディスカバリデータ, 監視/モニタリングデータ...
はじめに: 話すところ
データ収集 ETL/集計/保存 分析/調査/可視化
今回対象
(赤字)
今回対象外
(既存環境)
Agenda
背景/課題1
方針2
選定/設計(システム/運用)3
構想(今後)5
re:dash紹介4
背景: チーム/ユーザの用途
6
チーム
A
チーム
B
チーム
C
チーム
SRE
チーム
SDK
CS
PO
CSE
セールス
開発チーム(ベーシックユーザ): 開
発/運用/調査用途
CSチーム(ライトユーザ):
調査用途, 顧客依頼の特殊対応
分析用途
エンジニア 非エンジニア
背景: チーム/ユーザの調査利用
7
チーム
A
チーム
B
チーム
C
チーム
SRE
チーム
SDK CS
PO
CSE
セールス
データベース
エンジニア
CS
ETL/集計/保存
ビッグデータ
クエリ
クエリ
エンジニア/CSで
同じユーザイン
ターフェース
エンジニア/CSで
同じ計算機リソー
ス
エンジニア 非エンジニア
課題:
8
集計環境に影響し
クエリ ゲロ遅い
● 1週間に2回 影響受けるETL/集計環境
● Hive利用のため
データ活用性低下
画面開発工数問題 ● ○○データの一覧取得&一括ダウンロード等で
画面開発工数かかる
● 大量データストアの調査クエリ発行の煩瑣
● 全データ/結果を組み合わせにくい
ログ/データ調査環境をサクっとつくる
(分析環境ではない)
Agenda
背景/課題1
方針2
設計(システム/運用)3
構想(今後)5
re:dash紹介4
方針: 解決方針
11
集計環境に影響,
クエリ ゲロ遅い 実行エンジンの見直し
~課題~
データ活用性低下
画面開発工数問題
~解決方針~
ユーザインタフェース見直
し
データの一元アクセス ,
結果の結合が可能
方針: システム要件
12
集計環境に影響,
クエリ ゲロ遅い 実行エンジンの見直し
~課題~
データ活用性低下
画面開発工数問題
~解決方針~
ユーザインタフェース見直
し
データの一元アクセス ,
結果の結合が可能
~システム要件~
Scalability
Simply
Maintenability
サクッとつくる極意
13
● プログラムレス(なるべくコーディングしない)
● 構築レス(なるべくサーバつくらない)
● 設定レス(なるべくチューニングしない)
Agenda
背景/課題1
方針2
設計(システム/運用)3
構想(今後)5
re:dash紹介4
設計: 導入
15
集計環境に影響,
クエリ ゲロ遅い 実行エンジンの見直し
~課題~
データ活用性低下
画面開発工数問題
~解決方針~
ユーザインタフェース見直
し
データの一元アクセス ,
結果の結合が可能
~システム要件~~導入~
Scalability
Simply
Maintenability
AWS Athena
re:dash
embulk
設計: 全体システムアーキ
S3
S3
エンジニア
CS
フロントエンド
Athena
S3
バックエンド
ログ/データ調査環境既存環境
他データストア/ストレージ
設計: カンタンに説明
17
● AWS Athena
○ クラスタ不要/サーバ不要 インタラクティブなクエリサービス(マネージドpresto環境)
○ S3上データにpresto queryでアクセス
○ Big Queryとは異なる(DWH的に使えない)
● embulk
○ データロード, ETLを補完するツール(スキーマ推定型)
○ データストア、ストレージ/ファイルシステムへ対応
○ プラグインアーキテクチャ(世の中の既存実装を取り込める)
● re:dash
○ 後ほど紹介
規模
18
まだやり始めたばかりなので小規模
● AWS Athena
○ 12 データベース
○ 106 テーブル
○ 課金 約40$/月(※ これホントです! partition設計、ストレージフォーマット、スモールファイル撤廃等もろもろやってる)
● AWS S3 (Athenaスキャン対象 既存データ)
○ 総データ量 375TB
● embulk
○ データロード数(バッチ数) 32
● re:dash
○ 約50~100 クエリ/日
○ 登録query数 62
○ dash boards数 8
工数: 約2~3週間でサクっとつくった
Agenda
背景/課題1
方針2
設計(システム/運用)3
構想(今後)5
re:dash紹介4
re:dash?
オープンソースの軽量BI/可視化、
コラボレーションツール
(エンジニア向けツール)
何が出来るのか?
画面(ここからdemo)
UI/機能 超シンプル
基本3つ(dashborad, query, aleart)
re:dash メリット
対応データストアが多い
(パブリッククラウドと親和性が高い)
メリット
低コスト
(金額面、システム面、運用面)
メリット
便利機能 他
● SQLスイスアーミーナイフ
● スケジュールクエリ
● アラート
● クエリ/BIリンク
● クエリフォーク
● 異なるデータストア間での結合(join)
● REST API
どう使ってるか?(例)
頻出クエリを登録&任意パラメータ実行
@AWS Athenaデータストア
簡単な可視化
どう使ってるか?(例)
どう使ってるか? :他
● 大量データストアの調査クエリ等
● データ仕様書確認 @スプレッドシートデータソース
● 利用統計 @postgresql データソース
● 複数クエリの結合 @pythonデータソース
Agenda
背景/課題1
方針2
設計(システム/運用)3
構想(今後)5
re:dash紹介4
構想(今後)
● 分析環境(既存Tableau) ☓ バックエンド連携
30
Liquid
Athena
S3
バックエンド

More Related Content

What's hot (20)

PPTX
re:Growth athena
淳 千葉
 
PDF
ついに解禁!Amazon Aurora徹底検証!
Terui Masashi
 
PPTX
Programming AWS with Python
Yasuhiro Matsuo
 
PDF
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
 
PPTX
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
 
PDF
Re invent 2017 データベースサービス総復習!
Satoru Ishikawa
 
PDF
Using Amazon Aurora for Enterprise Workloads
Amazon Web Services Japan
 
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
 
PDF
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
 
PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
Amazon Web Services Japan
 
PPTX
オンプレからAuroraへの移行とその効果
Masato Kataoka
 
PDF
ソーシャルゲームのEMR活用事例
知教 本間
 
PDF
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
 
PPTX
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
 
PDF
AWS サービスアップデートまとめ re:Invent 2017 直前編
Amazon Web Services Japan
 
PPTX
Scaling MongoDB on AWS
Yasuhiro Matsuo
 
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
 
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
Takahiro Moteki
 
PPTX
Aurora新時代の幕開けとDynamoDBの進化
Classmethod,Inc.
 
PPTX
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Recruit Technologies
 
re:Growth athena
淳 千葉
 
ついに解禁!Amazon Aurora徹底検証!
Terui Masashi
 
Programming AWS with Python
Yasuhiro Matsuo
 
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
 
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
 
Re invent 2017 データベースサービス総復習!
Satoru Ishikawa
 
Using Amazon Aurora for Enterprise Workloads
Amazon Web Services Japan
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
 
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
 
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
Amazon Web Services Japan
 
オンプレからAuroraへの移行とその効果
Masato Kataoka
 
ソーシャルゲームのEMR活用事例
知教 本間
 
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
 
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
 
AWS サービスアップデートまとめ re:Invent 2017 直前編
Amazon Web Services Japan
 
Scaling MongoDB on AWS
Yasuhiro Matsuo
 
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
Takahiro Moteki
 
Aurora新時代の幕開けとDynamoDBの進化
Classmethod,Inc.
 
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Recruit Technologies
 

Similar to [社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk) (20)

PPTX
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Ohyama Masanori
 
PDF
実践で学んだLog Analytics
Tetsuya Odashima
 
PDF
シンプルでシステマチックな Oracle Database, Exadata 性能分析
Yohei Azekatsu
 
PDF
【第21回Elasticsearch勉強会】aws環境に合わせてelastic stackをログ分析基盤として構築した話
Hibino Hisashi
 
PDF
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
 
PDF
AWSでのビッグデータ分析
Amazon Web Services Japan
 
PDF
The overview of Server-ide Bulk Loader
Treasure Data, Inc.
 
PDF
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
 
PDF
AWS Lambdaによるデータ処理理の⾃自動化とコモディティ化
Amazon Web Services Japan
 
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
 
PDF
Moving from on prem to managed services with elastic on azure-final
Shotaro Suzuki
 
PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
Tetsutaro Watanabe
 
PDF
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
 
PDF
Elasticsearchで教師あり機械学習
shinhiguchi
 
PDF
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
 
PDF
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
 
PPTX
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
 
PDF
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
 
PDF
Spark Analytics - スケーラブルな分散処理
Tusyoshi Matsuzaki
 
PDF
アプリのロギングからデータ収集・分析・活用
Atsushi Yokohama (BEACHSIDE)
 
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Ohyama Masanori
 
実践で学んだLog Analytics
Tetsuya Odashima
 
シンプルでシステマチックな Oracle Database, Exadata 性能分析
Yohei Azekatsu
 
【第21回Elasticsearch勉強会】aws環境に合わせてelastic stackをログ分析基盤として構築した話
Hibino Hisashi
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
 
AWSでのビッグデータ分析
Amazon Web Services Japan
 
The overview of Server-ide Bulk Loader
Treasure Data, Inc.
 
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
 
AWS Lambdaによるデータ処理理の⾃自動化とコモディティ化
Amazon Web Services Japan
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
 
Moving from on prem to managed services with elastic on azure-final
Shotaro Suzuki
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
Tetsutaro Watanabe
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
 
Elasticsearchで教師あり機械学習
shinhiguchi
 
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
 
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
 
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
 
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
 
Spark Analytics - スケーラブルな分散処理
Tusyoshi Matsuzaki
 
アプリのロギングからデータ収集・分析・活用
Atsushi Yokohama (BEACHSIDE)
 
Ad

More from Takahiro Moteki (9)

PDF
[excite open beerbash 特別篇]レガシーシステムをAWS移行で幸せになった話
Takahiro Moteki
 
PDF
[社内勉強会]ワークフローエンジンdigdag研究&プロダクトF.O.Xに導入
Takahiro Moteki
 
PDF
[社内共有会]AWS NAT-GW導入と構成変化 2年運用して 同時接続数 秒間100->10万へ成長
Takahiro Moteki
 
PDF
[社内勉強会]計算機工学のスケジューリングを現実世界に活かせないだろうか(ネタ)
Takahiro Moteki
 
PDF
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
Takahiro Moteki
 
PDF
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
Takahiro Moteki
 
PDF
[社内勉強会]エンジニアな僕の情報収集法
Takahiro Moteki
 
PPTX
[社内勉強会]ELBとALBと数万スパイク負荷テスト
Takahiro Moteki
 
PPTX
[社内勉強会]Webエンジニアへ送るインフラのおすすめ本:記事7本
Takahiro Moteki
 
[excite open beerbash 特別篇]レガシーシステムをAWS移行で幸せになった話
Takahiro Moteki
 
[社内勉強会]ワークフローエンジンdigdag研究&プロダクトF.O.Xに導入
Takahiro Moteki
 
[社内共有会]AWS NAT-GW導入と構成変化 2年運用して 同時接続数 秒間100->10万へ成長
Takahiro Moteki
 
[社内勉強会]計算機工学のスケジューリングを現実世界に活かせないだろうか(ネタ)
Takahiro Moteki
 
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
Takahiro Moteki
 
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
Takahiro Moteki
 
[社内勉強会]エンジニアな僕の情報収集法
Takahiro Moteki
 
[社内勉強会]ELBとALBと数万スパイク負荷テスト
Takahiro Moteki
 
[社内勉強会]Webエンジニアへ送るインフラのおすすめ本:記事7本
Takahiro Moteki
 
Ad

Recently uploaded (7)

PDF
Google Driveハブ型Obsidian同期環境:PC編集とモバイル閲覧を安全・効率的に実現するクロスデバイス構築ガイド
honeshabri
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)
Sony - Neural Network Libraries
 
PPTX
Devcontainerのススメ(1)-Devcontainerとはどういう技術?-
iPride Co., Ltd.
 
PDF
20250711JIMUC総会_先進IT運用管理分科会Connpass公開資料.pdf
ChikakoInami1
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
Google Driveハブ型Obsidian同期環境:PC編集とモバイル閲覧を安全・効率的に実現するクロスデバイス構築ガイド
honeshabri
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)
Sony - Neural Network Libraries
 
Devcontainerのススメ(1)-Devcontainerとはどういう技術?-
iPride Co., Ltd.
 
20250711JIMUC総会_先進IT運用管理分科会Connpass公開資料.pdf
ChikakoInami1
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 

[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)