Apache Spark+Zeppelinでアドホックなネットワーク解析

Apache Spark+Zeppelinで
アドホックなネットワーク解析
Tetsuhiro Sato

自己紹介
 佐藤哲大（tetz）
 某ネットワークベンダで、SDN（っぽい）仕事をして
ます
 ネットワークプログラマビリティ勉強会の企画、運営
をしてます
http://network-programmability.connpass.com/
2

全体像
3
Netflow
コレクタ
（自作）
 Apache SparkとApache Zeppelinでデータ
アナリストちっくにアドホックにネットワークトラ
フィックを解析するっていう、ゆるふわネタ

既成可視化ツールとの違い
 さまざまな観点からアドホックに可視化できる
 期間
 集約（インターフェース、ユーザ、サーバ、アプリケー
ション）
 上記集約の組み合わせ
 グラフ形式（棒、エリア、円、離散）
 とはいえ、ネットワークトラフィックの見たい観点
なんて、そんな多様ではないかも。。。
4

自作Netflowコレクタ
5
flow record FLOW-RECORD
match ipv4 protocol
match ipv4 source address
match ipv4 destination address
match transport source-port
match transport destination-port
match application name
collect counter bytes
collect counter packets
collect timestamp absolute first
collect timestamp absolute last
テンプレートフローセットから
データフローセットを動的に解析し、
適切なフィールド名になる
https://github.com/tetsusat/fnfc
ルータの設定

ちなみに
 fluentd-plugin-netflow + MongoDB Output
Pluginでも大体同じことができます
6
fluentd-plugin-
netflow
＊作成されるレコードの構成およびフィールド名が若干違うので、適宜読み替え
る必要があります

Stratio Spark-MongoDB
 MongoDB上のコレクションに対してSpark SQLの処理
を可能にするライブラリ
7
https://github.com/Stratio/Spark-MongoDB

• MongoDBのnetflowデータベースのrecordsコレクションをSpark DataFrame
へ読み込み
Apache Spark + Apache Zeppelin 1/6

• MongoDBから読み込んだデータフレーム
（org.apache.spark.sql.DataFrame）のスキーマ

• アプリケーション毎のバイト数
%sql
SELECT record.application_name, sum(record.client_bytes) bytes FROM records GROUP BY record.application_name

• アプリケーション毎のバイト数（WHERE句をパラメータ化）
%sql
SELECT record.application_name, sum(record.client_bytes) bytes FROM records
WHERE record.ipv4_src_addr="${src}" AND record.ipv4_dst_addr="${dst}"
GROUP BY record.application_name

• 問題点
• 通信のタイミングは、セッション毎に様々なので、そのままでは集約できない
• 集約されない結果、グラフ描画ライブラリの処理しきれないほどのレコード
時系列データをグラフ化する際の課題
• 解決策
• セッションのタイミングを特定間隔のタイムスロットに割り当てる

• 30分毎に集約
タイムスロットへ割り当て
timestamp bytes packets
2016-04-01 00:11:11 1111 111
2016-04-01 00:22:22 2222 222
2016-04-01 00:33:33 3333 333
2016-04-01 00:44:44 4444 444
2016-04-01 00:55:55 5555 555
2016-04-01 01:07:06 6666 666
元データ
1回目の
SQLクエリー
の結果
2回目の
SQLクエリー
の結果
Timeslot列
の追加
Timeslot列で
Bytes&Packet列
を集約
timestamp bytes packets timeslot
2016-04-01 00:11:11 1111 111 2016-04-01 00：00：00
2016-04-01 00:22:22 2222 222 2016-04-01 00：00：00
2016-04-01 00:33:33 3333 333 2016-04-01 00：30：00
2016-04-01 00:44:44 4444 444 2016-04-01 00：30：00
2016-04-01 00:55:55 5555 555 2016-04-01 00：30：00
2016-04-01 01:07:06 6666 666 2016-04-01 01：00：00
bytes packets timeslot
3333 333 2016-04-01 00：00：00
13332 1332 2016-04-01 00:30:00
6666 666 2016-04-01 01:00:00

• 特定の1日で30分毎のバイト数を集計
%sql
SELECT from_unixtime(m.timeslot*(30*60)) dtime, sum(m.bytes) bytes
FROM (
SELECT record.client_bytes bytes, floor(unix_timestamp(record.absolute_first)/(30*60)) timeslot
FROM records
WHERE record.absolute_first >= "2016-03-24" AND record.absolute_first < "2016-03-25“
) AS m
GROUP BY m.timeslot ORDER BY m.timeslot

• アプリケーション毎に30分毎に集約
タイムスロットへ割り当て（2）
timestamp bytes packets app
2016-04-01 00:11:11 1111 111 http
2016-04-01 00:22:22 2222 222 http
2016-04-01 00:33:33 3333 333 ftp
2016-04-01 00:44:44 4444 444 tftp
2016-04-01 00:55:55 5555 555 http
2016-04-01 01:07:06 6666 666 ftp
timestamp bytes packets app timeslot
2016-04-01 00:11:11 1111 111 http 2016-04-01 00：00：00
2016-04-01 00:22:22 2222 222 http 2016-04-01 00：00：00
2016-04-01 00:33:33 3333 333 ftp 2016-04-01 00：30：00
2016-04-01 00:44:44 4444 444 tftp 2016-04-01 00：30：00
2016-04-01 00:55:55 5555 555 ftp 2016-04-01 00：30：00
2016-04-01 01:07:06 6666 666 http 2016-04-01 01：00：00
bytes packets app timeslot
3333 333 http 2016-04-01 00：00：00
8888 888 ftp 2016-04-01 00:30:00
4444 444 tftp 2016-04-01 00:30:00
6666 666 http 2016-04-01 01:00:00
元データ
1回目の
SQLクエリー
の結果
2回目の
SQLクエリー
の結果
Timeslot列
の追加
Timeslot&App列で
Bytes&Packet列
を集約

• 特定の1日で30分毎のバイト数を集計（アプリケーション毎の集約）
%sql
SELECT from_unixtime(m.timeslot*(30*60)) dtime, m.app, sum(m.bytes) bytes
FROM (
SELECT record.client_bytes bytes, record.application_name app, floor(unix_timestamp(record.absolute_first)/(30*60)) timeslot
FROM records
WHERE record.absolute_first >= "2016-03-24" AND record.absolute_first < "2016-03-25“
) AS m
GROUP BY m.timeslot, m.app ORDER BY m.timeslot

おわり
ご清聴、ありがとうございました
m(_ _)m
17

Apache Spark+Zeppelinでアドホックなネットワーク解析

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Apache Spark+Zeppelinでアドホックなネットワーク解析 (20)

More from npsg (6)

Recently uploaded (6)

Apache Spark+Zeppelinでアドホックなネットワーク解析

Editor's Notes