SlideShare a Scribd company logo
警察庁オープンデータで
交通事故の世界にDeepDive!
2021/09/25
Machine Learning 15minutes! Broadcast #59
SKUE
自己紹介
● 名前
○ SKUE ( Mr_Sakaue )
● バックグラウンド
○ 大学・大学院で経済学・統計学
● 仕事
○ 事業会社の分析部門のマネジャー兼データサイエンティスト
■ データサイエンティスト募集中です!
● スキル
○ Python, R, SQL
● 趣味
○ トランペット, ブログ作成, 料理
2
http://kamonohashiperry.com/
研究動機
3
研究動機
● 仕事帰りに幹線道路(246号線)の横断歩道を渡ろうとした際に、赤信号にも関
わらず減速せずに突っ込んできた自動車に危うく跳ねられかけた。それをきっか
けに、交通事故の危険なエリアや時間帯などについて関心を持つに至った。
4
先行研究
5
先行研究
● “Data-Driven Urban
TrafficAccidentAnalysis and Prediction
Using Logit and Machine Learning-Based
Pattern Recognition Models”
○ 2019年〜2020年のイランの交通事故データ
(Rashtという州都)で965レコード
○ 負傷or死亡のフラグを従属変数にしている。
物的損害のみは0となる。
○ 天候や時間帯、韓国のKIA自動車かどうかな
どを説明変数にしている。
6
先行研究
● “Comparison Analysis of Tree Based and
Ensembled Regression Algorithms for
Traffic Accident Severity Prediction”
○ 事故における死亡を教師データとして機械学
習を行っている事例。
○ 2016年〜2020年のアメリカの49州の交通事
故のデータ(350万レコード)を使用
○ 特徴量重要度としては、気温・気圧・風速・湿
度などの気象条件が上位にきている。
○ アルゴリズムはRFなど。
7
先行研究
● “"A Deep Learning Approach for Detecting
Traffic Accidents from Social Media Data"”
○ SNSの情報から、交通事故を予測するという
研究。
○ 1年分のTweet(300万件)と北バージニアと
ニューヨークの事故データとを関係づけた。
○ Tweetの文章を特徴量にして、事故の有無に
関して学習を行う。
○ アルゴリズムはDeep Belief Network (DBN)
やLSTM
8
警察庁オープンデータについて
9
警察庁オープンデータ
● 2019年度と2020年度の交通事故データが
公開されている。
● 事故が発生した状況(時、場所、天候)やそ
の結果に関するデータからなり、項目の数と
しては58個とオープンデータとしてはかなり
豊富な情報量となっている。
10
https://www.npa.go.jp/publications/statistic
s/koutsuu/opendata/index_opendata.html
警察庁オープンデータ
● Pros
○ 緯度経度や発生した際の日時だけでなく、天
候の情報もある。そのエリアが人口密集地か
どうかや道路の形状についても細かく記載さ
れている。
● Cons
○ .xlsxというファイル名のPDFがマスタデータな
ので、前処理コストが少しかかる。
■ 2020年はファイル名が修正されてる。
○ このマスタを使って前処理しないと分析はほと
んどできない。
11
研究概要
12
研究概要
● 日本国における2019年〜2020年の交通事故データを用いて、
地域メッシュ単位(1平方km)での事故時の死亡事故の発生有無を
機械学習を用いて予測し、危険なエリアがどこか、あるいは危険な条件が何な
のかを明らかにする。また、予測したスコアをもとに地図に可視化を行う。
13
研究計画
14
研究計画
● 分析設計
● 前処理
● EDA
● モデリング
● 可視化
15
分析設計
● 解くべきタスクの設定
○ 任意の交通事故発生において、その事故が死亡事故であるかどうかを 2値分類する。
■ 事故が発生するかどうかを明らかにしたいが、
事故発生データしかないため、タスクを限定する。
● タスクを満たすデータの構想
○ 機械学習で扱うデータを事故発生時点に得られると思われるデータに絞り込む。
■ 含める:天候、時間帯、道路の種別、道路の幅、信号機の種別、人口など
■ 含めない:年齢、車両タイプ、破損箇所
● そのエリアで発生した過去の事故における年齢分布などは利用。
16
分析設計
● 評価方法
○ 事故発生からの死亡率は 0.9%と不均衡データとなっているため、
評価指標としてPR-AUC(Precision-Recall Area Under the Curve)を用いる。
■ 不均衡データの場合、 AUCが0.8くらいと高い場合でも、
満足のいく性能を得られないことが多い。
■ 参考:"The Relationship Between Precision-Recall and ROC Curves"
17
前処理
● 基本方針
○ マスタ情報(PDF)をもとにマスタのIDを名前に変換
○ ダミー変数を作る
○ 事故発生時点に手に入るデータに絞る
● 工夫
○ 事故データについて緯度経度から 3次メッシュ化
○ メッシュ単位での過去の事故発生に関する情報を集計し、
事故発生時点で持ちうる、そのエリアの知見を特徴量で表現
18
前処理:フローチャート
19
元データ(CSV)
元データ(PDF) マスタ化
マスタ情報付与
緯度経度から
3次メッシュ作成
メッシュ単位で
過去データの集計
ダミー変数作成 特徴量
コードはこちら:https://github.com/KamonohashiPerry/traffic_accident_analysis
EDA
● 事故発生からの死亡率とオープンデータにある様々なデータとの関係を見る。
○ 今回は一部に抜粋。
20
EDA:都道府県
● 事故発生の都道府県
○ わかること
■ 人口が少ない、日本海側の都道府県
での死亡率が高い。
■ 人口が多いエリアは死亡率が低い。
○ なぞ
■ 1%ポイントくらい一気に落ち込むところ
が2箇所ある。
21
EDA:道路の種別
● 事故発生の道路の種別
○ わかること
■ 林道や農道での事故は死亡率が高
い。
■ メジャーな道路の種別に関しては差は
ない。
22
EDA:時間帯
● 事故発生の時間帯
○ わかること
■ ほとんどは昼に起きている。
■ 深夜や未明の死亡率は高い。
23
EDA:天候
● 事故発生の天候
○ わかること
■ 霧の死亡率は高い。
■ 晴れと雨の死亡率はほぼ同じ。
○ なぞ
■ 雨よりも曇りのほうが死亡率が
高い。
24
EDA:人口セグメント
● 事故発生の人口セグメント
○ わかること
■ 非市街地における死亡率は高い。
25
EDA:道路の形状
● 事故発生の道路の形状
○ わかること
■ 踏切は死亡率が高い。
■ カーブも死亡率が高い。
26
EDA:道路の幅
● 事故発生の道路の幅
○ わかること
■ 綺麗な傾向はないが、小さい道路より
も大きな道路の方が死亡率は高くな
る。
27
EDA:速度規制
● 事故発生の道路の速度規制
○ わかること
■ 規制の速度域が高いと死亡率が高く
なる。
28
EDA:曜日
● 事故発生の曜日
○ わかること
■ 土日は死亡率が高い。
29
モデリング
● アルゴリズム
○ LightGBM
● 教師データ(284,063レコードのうち2,614レコードで死亡)
○ 事故において死亡事故であるかどうかの 0-1
■ いわゆる不均衡データ
● 特徴量(570個)
○ ダミー変数(170個ほど)
■ 死亡が明らかである特徴量以外に限っている。
○ メッシュ単位の過去の事故に関する集計値( 400個ほど)
○ 今後、次元圧縮や正則化の必要がある。
● 交差検証
○ メッシュ単位でグループ化した 10-folds CVを実行
● パラメータチューニング
○ グリッドサーチ
■ LightGBMの一部のパラメータ
■ アンダーサンプリングの程度自体(任意の N:1)
30
モデリング
● データを期間で3分割している
○ 1.メッシュごとの過去データ集計用( 2019-01-01〜2019-09-01)
○ 2.学習用(2019-09-01〜2020-12-01)
○ 3.テスト用(2020-12-01〜)
31
特徴量用 学習 テスト
2019-01 2019-09 2020-12
モデリング:評価指標
32
● PR曲線
○ AUCを大きくするように選択したパラメータ
よりも、PR-AUCが高くなるように選択した
パラメータのほうがAverage Precision
Scoreがわずかながら高くなったが、水準
は7%程度と低い。
● AUC
○ 79%くらいだったが、
不均衡データの場合はあてにならない。
モデリング:特徴量重要度
33
エリア特性・道路特性・
時間帯が上位を占めている。
※dummy_と付いていないの
が、メッシュ単位の
過去データからなる特徴量
モデリング:予測スコアと死亡率
34
● 機械学習での予測スコアが高いと
実際のテストデータでの
死亡率が高くなる。90点台であれ
ば、4件に1件の精度で当てること
が可能。
可視化
● 日本地図にテスト用データに対して推論を行った際の予測スコアをプロットし、
死亡事故発生リスクの高いエリアを可視化する。
○ GeoPandasを利用している。
■ データフレームに緯度経度からなる地理情報の型のカラムを追加するだけなので、
非常に便利。
35
可視化:関東圏
36
● 人口密集地ではないところに、70%
台のスコアが点在しているように見
える。
可視化:東京都
37
● 郊外ではなくてもスコアの高いエリ
アが点在していることがわかる。
○ このケースだと北区や調布市周辺に
60%台以上が4つずつある。
おわりに:感想
● 今回、交通事故への意識の高まりから警察庁オープンデータに向き合うことと
なったが、危険なエリアやシチュエーションをデータから明らかにすることがある
程度可能なデータセットであることを知れた。
データサイエンティストの勉強用データとしては、不均衡データであることや前処
理に手間がかかることから、初学者向けではないが、
タイタニックデータよりも社会的に意義のあるデータで練習ができるのは良いこ
とに思われる。
38
おわりに:残された課題
● 不均衡データであることもあり、十分な分類性能に至れなかったので、精度向上
を行う必要がある。
○ クラスタリングなどを使った特徴量も先行研究にはあり、打ち手はまだまだある。
● 交通量のデータなどを入手できる場合、そもそもの交通事故の発生リスクなども
考慮してモデリングができるため、事故発生だけのデータでなく他のデータとも
つないで分析を行うのも一手に思う。
39
Mr_Sakaueとの約束
● 歩行者として以下の約束を結びましょう
○ 土日ないし祝前日は道路で油断をしない
○ 大きな道路での横断で油断をしない
○ 大きな交差点で油断しない
○ 霧の日には出かけない
○ 踏切で油断をしない
○ 深夜や未明では幹線道路の周辺を歩かない
○ 制限速度の高い道では油断しない
○ カーブは油断しない
○ 点滅信号で油断しない
参考情報
● Davis and Goadrich (2006), "The Relationship Between Precision-Recall and ROC Curves", ICML
● Mr_Sakaue, “警察庁オープンデータの前処理と死亡事故発生予測のための機械学習について ”, 個
人ブログ
● HASEGAWA etal (2007), "A BASIC STUDY ON TRAFFIC ACCIDENT DATA ANALYSIS USING
SUPPORT VECTOR MACHINE", Journal of the Eastern Asia Society for Transportation Studies,
Vol. 7
● Meraldo Antonio (2019), "Live Prediction of Traffic Accident Risks Using Machine Learning and
Google Maps", Towards Data Science
● https://github.com/KamonohashiPerry/traffic_accident_analysis
● Zhang et al (2018), "A Deep Learning Approach for Detecting Traffic Accidents from Social
Media Data", Transportation Research Part C: Emerging Technologies
41

More Related Content

PDF
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
PPTX
通時的な単語の意味変化の検出のサーベイ (Dynamic Word Embeddings Survey)
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
画像キャプションの自動生成
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
効用最大化理論の観点から見る強化学習
PDF
LSTM (Long short-term memory) 概要
PPTX
Kaggle meetup #3 instacart 2nd place solution
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
通時的な単語の意味変化の検出のサーベイ (Dynamic Word Embeddings Survey)
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
画像キャプションの自動生成
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
効用最大化理論の観点から見る強化学習
LSTM (Long short-term memory) 概要
Kaggle meetup #3 instacart 2nd place solution

What's hot (20)

PDF
【DL輪読会】Vision-Centric BEV Perception: A Survey
PPTX
WBICによる混合正規分布の分離と抽出
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
PDF
Supervised PCAとその周辺
PDF
Top-K Off-Policy Correction for a REINFORCE Recommender System
PPTX
Web ベースのカジュアルゲーム「block pong」の実装とビジネス
PPTX
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
PDF
工学系大学4年生のための論文の読み方
PPTX
情報検索のためのユーザモデル
PDF
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
PDF
最新業界事情から見るデータサイエンティストの「実像」
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
scikit-learnを用いた機械学習チュートリアル
PDF
[DL輪読会]Attention is not Explanation (NAACL2019)
PDF
【DL輪読会】Monocular real time volumetric performance capture
PDF
全力解説!Transformer
PDF
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
PDF
UXとユーザビリティ計測
PPTX
時系列データ分析とPython
PPTX
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
【DL輪読会】Vision-Centric BEV Perception: A Survey
WBICによる混合正規分布の分離と抽出
データサイエンス概論第一=2-1 データ間の距離と類似度
Supervised PCAとその周辺
Top-K Off-Policy Correction for a REINFORCE Recommender System
Web ベースのカジュアルゲーム「block pong」の実装とビジネス
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
工学系大学4年生のための論文の読み方
情報検索のためのユーザモデル
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
最新業界事情から見るデータサイエンティストの「実像」
畳み込みニューラルネットワークの高精度化と高速化
scikit-learnを用いた機械学習チュートリアル
[DL輪読会]Attention is not Explanation (NAACL2019)
【DL輪読会】Monocular real time volumetric performance capture
全力解説!Transformer
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
UXとユーザビリティ計測
時系列データ分析とPython
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
Ad

More from Teruyuki Sakaue (14)

PDF
実務と論文で学ぶジョブレコメンデーション最前線2022
PDF
[Music×Analytics]プロの音に近づくための研究と練習
PDF
[DSO] Machine Learning Seminar Vol.8 Chapter 9
PDF
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
PDF
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
PDF
[DSO] Machine Learning Seminar Vol.2 Chapter 3
PDF
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
PDF
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
PDF
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
PDF
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
PDF
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
PDF
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
PDF
Marketing×Python/Rで頑張れる事例16本ノック
PDF
機械学習による積極的失業〜オウンドメディアの訪問予測
実務と論文で学ぶジョブレコメンデーション最前線2022
[Music×Analytics]プロの音に近づくための研究と練習
[DSO] Machine Learning Seminar Vol.8 Chapter 9
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Marketing×Python/Rで頑張れる事例16本ノック
機械学習による積極的失業〜オウンドメディアの訪問予測
Ad

警察庁オープンデータで交通事故の世界にDeepDive!