Submit Search
[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)
5 likes
•
2,388 views
Takahiro Moteki
CyberZ社内勉強会資料@201711
Technology
Read more
1 of 30
Download now
Downloaded 13 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
More Related Content
What's hot
(20)
PPTX
re:Growth athena
淳 千葉
PDF
ついに解禁!Amazon Aurora徹底検証!
Terui Masashi
PPTX
Programming AWS with Python
Yasuhiro Matsuo
PDF
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
PPTX
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
PDF
Re invent 2017 データベースサービス総復習!
Satoru Ishikawa
PDF
Using Amazon Aurora for Enterprise Workloads
Amazon Web Services Japan
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
PDF
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
Amazon Web Services Japan
PPTX
オンプレからAuroraへの移行とその効果
Masato Kataoka
PDF
ソーシャルゲームのEMR活用事例
知教 本間
PDF
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
PPTX
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
PDF
AWS サービスアップデートまとめ re:Invent 2017 直前編
Amazon Web Services Japan
PPTX
Scaling MongoDB on AWS
Yasuhiro Matsuo
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
Takahiro Moteki
PPTX
Aurora新時代の幕開けとDynamoDBの進化
Classmethod,Inc.
PPTX
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Recruit Technologies
re:Growth athena
淳 千葉
ついに解禁!Amazon Aurora徹底検証!
Terui Masashi
Programming AWS with Python
Yasuhiro Matsuo
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
Re invent 2017 データベースサービス総復習!
Satoru Ishikawa
Using Amazon Aurora for Enterprise Workloads
Amazon Web Services Japan
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
Amazon Web Services Japan
オンプレからAuroraへの移行とその効果
Masato Kataoka
ソーシャルゲームのEMR活用事例
知教 本間
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
AWS サービスアップデートまとめ re:Invent 2017 直前編
Amazon Web Services Japan
Scaling MongoDB on AWS
Yasuhiro Matsuo
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
Takahiro Moteki
Aurora新時代の幕開けとDynamoDBの進化
Classmethod,Inc.
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Recruit Technologies
Similar to [社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)
(20)
PPTX
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Ohyama Masanori
PDF
実践で学んだLog Analytics
Tetsuya Odashima
PDF
シンプルでシステマチックな Oracle Database, Exadata 性能分析
Yohei Azekatsu
PDF
【第21回Elasticsearch勉強会】aws環境に合わせてelastic stackをログ分析基盤として構築した話
Hibino Hisashi
PDF
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
PDF
AWSでのビッグデータ分析
Amazon Web Services Japan
PDF
The overview of Server-ide Bulk Loader
Treasure Data, Inc.
PDF
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
PDF
AWS Lambdaによるデータ処理理の⾃自動化とコモディティ化
Amazon Web Services Japan
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
PDF
Moving from on prem to managed services with elastic on azure-final
Shotaro Suzuki
PPTX
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
PDF
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
PDF
Elasticsearchで教師あり機械学習
shinhiguchi
PDF
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
PDF
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
PPTX
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
PDF
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
PDF
Spark Analytics - スケーラブルな分散処理
Tusyoshi Matsuzaki
PDF
アプリのロギングからデータ収集・分析・活用
Atsushi Yokohama (BEACHSIDE)
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Ohyama Masanori
実践で学んだLog Analytics
Tetsuya Odashima
シンプルでシステマチックな Oracle Database, Exadata 性能分析
Yohei Azekatsu
【第21回Elasticsearch勉強会】aws環境に合わせてelastic stackをログ分析基盤として構築した話
Hibino Hisashi
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
AWSでのビッグデータ分析
Amazon Web Services Japan
The overview of Server-ide Bulk Loader
Treasure Data, Inc.
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
AWS Lambdaによるデータ処理理の⾃自動化とコモディティ化
Amazon Web Services Japan
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
Moving from on prem to managed services with elastic on azure-final
Shotaro Suzuki
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
Elasticsearchで教師あり機械学習
shinhiguchi
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
Spark Analytics - スケーラブルな分散処理
Tusyoshi Matsuzaki
アプリのロギングからデータ収集・分析・活用
Atsushi Yokohama (BEACHSIDE)
Ad
More from Takahiro Moteki
(9)
PDF
[excite open beerbash 特別篇]レガシーシステムをAWS移行で幸せになった話
Takahiro Moteki
PDF
[社内勉強会]ワークフローエンジンdigdag研究&プロダクトF.O.Xに導入
Takahiro Moteki
PDF
[社内共有会]AWS NAT-GW導入と構成変化 2年運用して 同時接続数 秒間100->10万へ成長
Takahiro Moteki
PDF
[社内勉強会]計算機工学のスケジューリングを現実世界に活かせないだろうか(ネタ)
Takahiro Moteki
PDF
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
Takahiro Moteki
PDF
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
Takahiro Moteki
PDF
[社内勉強会]エンジニアな僕の情報収集法
Takahiro Moteki
PPTX
[社内勉強会]ELBとALBと数万スパイク負荷テスト
Takahiro Moteki
PPTX
[社内勉強会]Webエンジニアへ送るインフラのおすすめ本:記事7本
Takahiro Moteki
[excite open beerbash 特別篇]レガシーシステムをAWS移行で幸せになった話
Takahiro Moteki
[社内勉強会]ワークフローエンジンdigdag研究&プロダクトF.O.Xに導入
Takahiro Moteki
[社内共有会]AWS NAT-GW導入と構成変化 2年運用して 同時接続数 秒間100->10万へ成長
Takahiro Moteki
[社内勉強会]計算機工学のスケジューリングを現実世界に活かせないだろうか(ネタ)
Takahiro Moteki
[serverlessconf2017]FaaSで簡単に実現する数十万RPSスパイク負荷試験
Takahiro Moteki
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
Takahiro Moteki
[社内勉強会]エンジニアな僕の情報収集法
Takahiro Moteki
[社内勉強会]ELBとALBと数万スパイク負荷テスト
Takahiro Moteki
[社内勉強会]Webエンジニアへ送るインフラのおすすめ本:記事7本
Takahiro Moteki
Ad
Recently uploaded
(7)
PDF
Google Driveハブ型Obsidian同期環境:PC編集とモバイル閲覧を安全・効率的に実現するクロスデバイス構築ガイド
honeshabri
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
PDF
【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)
Sony - Neural Network Libraries
PPTX
Devcontainerのススメ(1)-Devcontainerとはどういう技術?-
iPride Co., Ltd.
PDF
20250711JIMUC総会_先進IT運用管理分科会Connpass公開資料.pdf
ChikakoInami1
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
Google Driveハブ型Obsidian同期環境:PC編集とモバイル閲覧を安全・効率的に実現するクロスデバイス構築ガイド
honeshabri
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)
Sony - Neural Network Libraries
Devcontainerのススメ(1)-Devcontainerとはどういう技術?-
iPride Co., Ltd.
20250711JIMUC総会_先進IT運用管理分科会Connpass公開資料.pdf
ChikakoInami1
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
[社内勉強会]サクっと業務でつくったログ/データ調査環境(re:dash ☓ AWS Athena ☓ embulk)
1.
サクっと業務でつくった ログ/データ調査環境 (re:dash ☓ AWS
Athena ☓ embulk)
2.
自己紹介 2 茂木 高宏(もてき たかひろ) 株式会社
CyberZ F.O.X事業 SRE engineer twitter: @tkmoteki facebook: takahiro.moteki.31 最近の業務 ● ログ/データ調査環境 ● AWS内の移行
3.
はじめに: 対象のログ/データ 3 ● サービスログ ○
例:) 広告系(クリック,コンバージョン), KPIログ... ● システムログ ○ 例:) アクセスログ, パフォーマンスログ, セキュリティログ... ● サービスデータ ○ 例:) マスタデータ, 中間データ, アカウントデータ... ● システムデータ ○ 例:) サービスディスカバリデータ, 監視/モニタリングデータ...
4.
はじめに: 話すところ データ収集 ETL/集計/保存
分析/調査/可視化 今回対象 (赤字) 今回対象外 (既存環境)
5.
Agenda 背景/課題1 方針2 選定/設計(システム/運用)3 構想(今後)5 re:dash紹介4
6.
背景: チーム/ユーザの用途 6 チーム A チーム B チーム C チーム SRE チーム SDK CS PO CSE セールス 開発チーム(ベーシックユーザ): 開 発/運用/調査用途 CSチーム(ライトユーザ): 調査用途,
顧客依頼の特殊対応 分析用途 エンジニア 非エンジニア
7.
背景: チーム/ユーザの調査利用 7 チーム A チーム B チーム C チーム SRE チーム SDK CS PO CSE セールス データベース エンジニア CS ETL/集計/保存 ビッグデータ クエリ クエリ エンジニア/CSで 同じユーザイン ターフェース エンジニア/CSで 同じ計算機リソー ス エンジニア
非エンジニア
8.
課題: 8 集計環境に影響し クエリ ゲロ遅い ● 1週間に2回
影響受けるETL/集計環境 ● Hive利用のため データ活用性低下 画面開発工数問題 ● ○○データの一覧取得&一括ダウンロード等で 画面開発工数かかる ● 大量データストアの調査クエリ発行の煩瑣 ● 全データ/結果を組み合わせにくい
9.
ログ/データ調査環境をサクっとつくる (分析環境ではない)
10.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
11.
方針: 解決方針 11 集計環境に影響, クエリ ゲロ遅い
実行エンジンの見直し ~課題~ データ活用性低下 画面開発工数問題 ~解決方針~ ユーザインタフェース見直 し データの一元アクセス , 結果の結合が可能
12.
方針: システム要件 12 集計環境に影響, クエリ ゲロ遅い
実行エンジンの見直し ~課題~ データ活用性低下 画面開発工数問題 ~解決方針~ ユーザインタフェース見直 し データの一元アクセス , 結果の結合が可能 ~システム要件~ Scalability Simply Maintenability
13.
サクッとつくる極意 13 ● プログラムレス(なるべくコーディングしない) ● 構築レス(なるべくサーバつくらない) ●
設定レス(なるべくチューニングしない)
14.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
15.
設計: 導入 15 集計環境に影響, クエリ ゲロ遅い
実行エンジンの見直し ~課題~ データ活用性低下 画面開発工数問題 ~解決方針~ ユーザインタフェース見直 し データの一元アクセス , 結果の結合が可能 ~システム要件~~導入~ Scalability Simply Maintenability AWS Athena re:dash embulk
16.
設計: 全体システムアーキ S3 S3 エンジニア CS フロントエンド Athena S3 バックエンド ログ/データ調査環境既存環境 他データストア/ストレージ
17.
設計: カンタンに説明 17 ● AWS
Athena ○ クラスタ不要/サーバ不要 インタラクティブなクエリサービス(マネージドpresto環境) ○ S3上データにpresto queryでアクセス ○ Big Queryとは異なる(DWH的に使えない) ● embulk ○ データロード, ETLを補完するツール(スキーマ推定型) ○ データストア、ストレージ/ファイルシステムへ対応 ○ プラグインアーキテクチャ(世の中の既存実装を取り込める) ● re:dash ○ 後ほど紹介
18.
規模 18 まだやり始めたばかりなので小規模 ● AWS Athena ○
12 データベース ○ 106 テーブル ○ 課金 約40$/月(※ これホントです! partition設計、ストレージフォーマット、スモールファイル撤廃等もろもろやってる) ● AWS S3 (Athenaスキャン対象 既存データ) ○ 総データ量 375TB ● embulk ○ データロード数(バッチ数) 32 ● re:dash ○ 約50~100 クエリ/日 ○ 登録query数 62 ○ dash boards数 8 工数: 約2~3週間でサクっとつくった
19.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
20.
re:dash? オープンソースの軽量BI/可視化、 コラボレーションツール (エンジニア向けツール)
21.
何が出来るのか? 画面(ここからdemo)
22.
UI/機能 超シンプル 基本3つ(dashborad, query,
aleart) re:dash メリット
23.
対応データストアが多い (パブリッククラウドと親和性が高い) メリット
24.
低コスト (金額面、システム面、運用面) メリット
25.
便利機能 他 ● SQLスイスアーミーナイフ ●
スケジュールクエリ ● アラート ● クエリ/BIリンク ● クエリフォーク ● 異なるデータストア間での結合(join) ● REST API
26.
どう使ってるか?(例) 頻出クエリを登録&任意パラメータ実行 @AWS Athenaデータストア
27.
簡単な可視化 どう使ってるか?(例)
28.
どう使ってるか? :他 ● 大量データストアの調査クエリ等 ●
データ仕様書確認 @スプレッドシートデータソース ● 利用統計 @postgresql データソース ● 複数クエリの結合 @pythonデータソース
29.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
30.
構想(今後) ● 分析環境(既存Tableau) ☓
バックエンド連携 30 Liquid Athena S3 バックエンド
Download