[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)

サクっと業務でつくった
ログ/データ調査環境
(re:dash ☓ AWS Athena ☓ embulk)

自己紹介
2
茂木高宏(もてきたかひろ)
株式会社 CyberZ
F.O.X事業 SRE engineer
twitter: @tkmoteki
facebook: takahiro.moteki.31
最近の業務
● ログ/データ調査環境
● AWS内の移行

はじめに: 対象のログ/データ
3
● サービスログ
○ 例:) 広告系(クリック,コンバージョン), KPIログ...
● システムログ
○ 例:) アクセスログ, パフォーマンスログ, セキュリティログ...
● サービスデータ
○ 例:) マスタデータ, 中間データ, アカウントデータ...
● システムデータ
○ 例:) サービスディスカバリデータ, 監視/モニタリングデータ...

はじめに: 話すところ
データ収集 ETL/集計/保存分析/調査/可視化
今回対象
(赤字)
今回対象外
(既存環境)

Agenda
背景/課題1
方針２
選定/設計(システム/運用)３
構想(今後)5
re:dash紹介4

背景: チーム/ユーザの用途
6
チーム
A
チーム
B
チーム
C
チーム
SRE
チーム
SDK
CS
PO
CSE
セールス
開発チーム(ベーシックユーザ): 開
発/運用/調査用途
CSチーム(ライトユーザ):
調査用途, 顧客依頼の特殊対応
分析用途
エンジニア非エンジニア

背景: チーム/ユーザの調査利用
7
チーム
A
チーム
B
チーム
C
チーム
SRE
チーム
SDK CS
PO
CSE
セールス
データベース
エンジニア
CS
ETL/集計/保存
ビッグデータ
クエリ
クエリ
エンジニア/CSで
同じユーザイン
ターフェース
エンジニア/CSで
同じ計算機リソー
ス
エンジニア非エンジニア

課題:
8
集計環境に影響し
クエリゲロ遅い
● 1週間に2回影響受けるETL/集計環境
● Hive利用のため
データ活用性低下
画面開発工数問題 ● ○○データの一覧取得&一括ダウンロード等で
画面開発工数かかる
● 大量データストアの調査クエリ発行の煩瑣
● 全データ/結果を組み合わせにくい

ログ/データ調査環境をサクっとつくる
(分析環境ではない)

Agenda
背景/課題1
方針２
設計(システム/運用)３
構想(今後)5
re:dash紹介4

方針: 解決方針
11
集計環境に影響,
クエリゲロ遅い実行エンジンの見直し
~課題~
画面開発工数問題
~解決方針~
ユーザインタフェース見直
し
データの一元アクセス ,
結果の結合が可能

方針: システム要件
12
~課題~
~解決方針~
し
~システム要件~
Scalability
Simply
Maintenability

サクッとつくる極意
13
● プログラムレス(なるべくコーディングしない)
● 構築レス(なるべくサーバつくらない)
● 設定レス(なるべくチューニングしない)

設計: 導入
15
~課題~
~解決方針~
し
~システム要件~~導入~
Scalability
Simply
Maintenability
AWS Athena
re:dash
embulk

設計: 全体システムアーキ
S3
S3
エンジニア
CS
フロントエンド
Athena
S3
バックエンド
ログ/データ調査環境既存環境
他データストア/ストレージ

設計: カンタンに説明
17
● AWS Athena
○ クラスタ不要/サーバ不要インタラクティブなクエリサービス(マネージドpresto環境)
○ S3上データにpresto queryでアクセス
○ Big Queryとは異なる(DWH的に使えない)
● embulk
○ データロード, ETLを補完するツール(スキーマ推定型)
○ データストア、ストレージ/ファイルシステムへ対応
○ プラグインアーキテクチャ(世の中の既存実装を取り込める)
● re:dash
○ 後ほど紹介

規模
18
まだやり始めたばかりなので小規模
● AWS Athena
○ 12 データベース
○ 106 テーブル
○ 課金約40$/月(※ これホントです! partition設計、ストレージフォーマット、スモールファイル撤廃等もろもろやってる)
● AWS S3 (Athenaスキャン対象既存データ)
○ 総データ量 375TB
● embulk
○ データロード数(バッチ数) 32
● re:dash
○ 約50~100 クエリ/日
○ 登録query数 62
○ dash boards数 8
工数: 約2~3週間でサクっとつくった

re:dash?
オープンソースの軽量BI/可視化、
コラボレーションツール
(エンジニア向けツール)

何が出来るのか？
画面(ここからdemo)

UI/機能超シンプル
基本3つ(dashborad, query, aleart)
re:dash メリット

対応データストアが多い
(パブリッククラウドと親和性が高い)
メリット

低コスト
(金額面、システム面、運用面)
メリット

便利機能他
● SQLスイスアーミーナイフ
● スケジュールクエリ
● アラート
● クエリ/BIリンク
● クエリフォーク
● 異なるデータストア間での結合(join)
● REST API

どう使ってるか?(例)
頻出クエリを登録&任意パラメータ実行
@AWS Athenaデータストア

簡単な可視化
どう使ってるか?(例)

どう使ってるか? :他
● 大量データストアの調査クエリ等
● データ仕様書確認 @スプレッドシートデータソース
● 利用統計 @postgresql データソース
● 複数クエリの結合 @pythonデータソース

構想(今後)
● 分析環境(既存Tableau) ☓ バックエンド連携
30
Liquid
Athena
S3
バックエンド

[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)

More Related Content

What's hot (20)

Similar to [社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk) (20)

More from Takahiro Moteki (9)

Recently uploaded (7)

[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)