警察庁オープンデータで交通事故の世界にDeepDive！

警察庁オープンデータで
交通事故の世界にDeepDive！
2021/09/25
Machine Learning 15minutes! Broadcast #59
SKUE

自己紹介
● 名前
○ SKUE ( Mr_Sakaue )
● バックグラウンド
○ 大学・大学院で経済学・統計学
● 仕事
○ 事業会社の分析部門のマネジャー兼データサイエンティスト
■ データサイエンティスト募集中です！
● スキル
○ Python, R, SQL
● 趣味
○ トランペット, ブログ作成, 料理
2
http://kamonohashiperry.com/

研究動機
● 仕事帰りに幹線道路（246号線）の横断歩道を渡ろうとした際に、赤信号にも関
わらず減速せずに突っ込んできた自動車に危うく跳ねられかけた。それをきっか
けに、交通事故の危険なエリアや時間帯などについて関心を持つに至った。
4

先行研究
● “Data-Driven Urban
TraﬃcAccidentAnalysis and Prediction
Using Logit and Machine Learning-Based
Pattern Recognition Models”
○ 2019年〜2020年のイランの交通事故データ
（Rashtという州都）で965レコード
○ 負傷or死亡のフラグを従属変数にしている。
物的損害のみは0となる。
○ 天候や時間帯、韓国のKIA自動車かどうかな
どを説明変数にしている。
6

先行研究
● “Comparison Analysis of Tree Based and
Ensembled Regression Algorithms for
Traﬃc Accident Severity Prediction”
○ 事故における死亡を教師データとして機械学
習を行っている事例。
○ 2016年〜2020年のアメリカの49州の交通事
故のデータ（350万レコード）を使用
○ 特徴量重要度としては、気温・気圧・風速・湿
度などの気象条件が上位にきている。
○ アルゴリズムはRFなど。
7

先行研究
● “"A Deep Learning Approach for Detecting
Traﬃc Accidents from Social Media Data"”
○ SNSの情報から、交通事故を予測するという
研究。
○ 1年分のTweet（300万件）と北バージニアと
ニューヨークの事故データとを関係づけた。
○ Tweetの文章を特徴量にして、事故の有無に
関して学習を行う。
○ アルゴリズムはDeep Belief Network (DBN)
やLSTM
8

警察庁オープンデータについて
9

警察庁オープンデータ
● 2019年度と2020年度の交通事故データが
公開されている。
● 事故が発生した状況（時、場所、天候）やそ
の結果に関するデータからなり、項目の数と
しては58個とオープンデータとしてはかなり
豊富な情報量となっている。
10
https://www.npa.go.jp/publications/statistic
s/koutsuu/opendata/index_opendata.html

警察庁オープンデータ
● Pros
○ 緯度経度や発生した際の日時だけでなく、天
候の情報もある。そのエリアが人口密集地か
どうかや道路の形状についても細かく記載さ
れている。
● Cons
○ .xlsxというファイル名のPDFがマスタデータな
ので、前処理コストが少しかかる。
■ 2020年はファイル名が修正されてる。
○ このマスタを使って前処理しないと分析はほと
んどできない。
11

研究概要
● 日本国における2019年〜2020年の交通事故データを用いて、
地域メッシュ単位（1平方km）での事故時の死亡事故の発生有無を
機械学習を用いて予測し、危険なエリアがどこか、あるいは危険な条件が何な
のかを明らかにする。また、予測したスコアをもとに地図に可視化を行う。
13

研究計画
● 分析設計
● 前処理
● EDA
● モデリング
● 可視化
15

分析設計
● 解くべきタスクの設定
○ 任意の交通事故発生において、その事故が死亡事故であるかどうかを 2値分類する。
■ 事故が発生するかどうかを明らかにしたいが、
事故発生データしかないため、タスクを限定する。
● タスクを満たすデータの構想
○ 機械学習で扱うデータを事故発生時点に得られると思われるデータに絞り込む。
■ 含める：天候、時間帯、道路の種別、道路の幅、信号機の種別、人口など
■ 含めない：年齢、車両タイプ、破損箇所
● そのエリアで発生した過去の事故における年齢分布などは利用。
16

分析設計
● 評価方法
○ 事故発生からの死亡率は 0.9%と不均衡データとなっているため、
評価指標としてPR-AUC(Precision-Recall Area Under the Curve)を用いる。
■ 不均衡データの場合、 AUCが0.8くらいと高い場合でも、
満足のいく性能を得られないことが多い。
■ 参考："The Relationship Between Precision-Recall and ROC Curves"
17

前処理
● 基本方針
○ マスタ情報（PDF）をもとにマスタのIDを名前に変換
○ ダミー変数を作る
○ 事故発生時点に手に入るデータに絞る
● 工夫
○ 事故データについて緯度経度から 3次メッシュ化
○ メッシュ単位での過去の事故発生に関する情報を集計し、
事故発生時点で持ちうる、そのエリアの知見を特徴量で表現
18

前処理：フローチャート
19
元データ(CSV)
元データ(PDF) マスタ化
マスタ情報付与
緯度経度から
3次メッシュ作成
メッシュ単位で
過去データの集計
ダミー変数作成特徴量
コードはこちら：https://github.com/KamonohashiPerry/traﬃc_accident_analysis

EDA
● 事故発生からの死亡率とオープンデータにある様々なデータとの関係を見る。
○ 今回は一部に抜粋。
20

EDA：都道府県
● 事故発生の都道府県
○ わかること
■ 人口が少ない、日本海側の都道府県
での死亡率が高い。
■ 人口が多いエリアは死亡率が低い。
○ なぞ
■ 1%ポイントくらい一気に落ち込むところ
が2箇所ある。
21

EDA：道路の種別
● 事故発生の道路の種別
○ わかること
■ 林道や農道での事故は死亡率が高
い。
■ メジャーな道路の種別に関しては差は
ない。
22

EDA：時間帯
● 事故発生の時間帯
○ わかること
■ ほとんどは昼に起きている。
■ 深夜や未明の死亡率は高い。
23

EDA：天候
● 事故発生の天候
○ わかること
■ 霧の死亡率は高い。
■ 晴れと雨の死亡率はほぼ同じ。
○ なぞ
■ 雨よりも曇りのほうが死亡率が
高い。
24

EDA：人口セグメント
● 事故発生の人口セグメント
○ わかること
■ 非市街地における死亡率は高い。
25

EDA：道路の形状
● 事故発生の道路の形状
○ わかること
■ 踏切は死亡率が高い。
■ カーブも死亡率が高い。
26

EDA：道路の幅
● 事故発生の道路の幅
○ わかること
■ 綺麗な傾向はないが、小さい道路より
も大きな道路の方が死亡率は高くな
る。
27

EDA：速度規制
● 事故発生の道路の速度規制
○ わかること
■ 規制の速度域が高いと死亡率が高く
なる。
28

EDA：曜日
● 事故発生の曜日
○ わかること
■ 土日は死亡率が高い。
29

モデリング
● アルゴリズム
○ LightGBM
● 教師データ（284,063レコードのうち2,614レコードで死亡）
○ 事故において死亡事故であるかどうかの 0-1
■ いわゆる不均衡データ
● 特徴量（570個）
○ ダミー変数（170個ほど）
■ 死亡が明らかである特徴量以外に限っている。
○ メッシュ単位の過去の事故に関する集計値（ 400個ほど）
○ 今後、次元圧縮や正則化の必要がある。
● 交差検証
○ メッシュ単位でグループ化した 10-folds CVを実行
● パラメータチューニング
○ グリッドサーチ
■ LightGBMの一部のパラメータ
■ アンダーサンプリングの程度自体（任意の N：1）
30

モデリング
● データを期間で3分割している
○ 1.メッシュごとの過去データ集計用（ 2019-01-01〜2019-09-01）
○ 2.学習用（2019-09-01〜2020-12-01）
○ 3.テスト用（2020-12-01〜）
31
特徴量用学習テスト
2019-01 2019-09 2020-12

モデリング：評価指標
32
● PR曲線
○ AUCを大きくするように選択したパラメータ
よりも、PR-AUCが高くなるように選択した
パラメータのほうがAverage Precision
Scoreがわずかながら高くなったが、水準
は7%程度と低い。
● AUC
○ 79%くらいだったが、
不均衡データの場合はあてにならない。

モデリング：特徴量重要度
33
エリア特性・道路特性・
時間帯が上位を占めている。
※dummy_と付いていないの
が、メッシュ単位の
過去データからなる特徴量

モデリング：予測スコアと死亡率
34
● 機械学習での予測スコアが高いと
実際のテストデータでの
死亡率が高くなる。90点台であれ
ば、4件に1件の精度で当てること
が可能。

可視化
● 日本地図にテスト用データに対して推論を行った際の予測スコアをプロットし、
死亡事故発生リスクの高いエリアを可視化する。
○ GeoPandasを利用している。
■ データフレームに緯度経度からなる地理情報の型のカラムを追加するだけなので、
非常に便利。
35

可視化：関東圏
36
● 人口密集地ではないところに、70%
台のスコアが点在しているように見
える。

可視化：東京都
37
● 郊外ではなくてもスコアの高いエリ
アが点在していることがわかる。
○ このケースだと北区や調布市周辺に
60%台以上が4つずつある。

おわりに：感想
● 今回、交通事故への意識の高まりから警察庁オープンデータに向き合うことと
なったが、危険なエリアやシチュエーションをデータから明らかにすることがある
程度可能なデータセットであることを知れた。
データサイエンティストの勉強用データとしては、不均衡データであることや前処
理に手間がかかることから、初学者向けではないが、
タイタニックデータよりも社会的に意義のあるデータで練習ができるのは良いこ
とに思われる。
38

おわりに：残された課題
● 不均衡データであることもあり、十分な分類性能に至れなかったので、精度向上
を行う必要がある。
○ クラスタリングなどを使った特徴量も先行研究にはあり、打ち手はまだまだある。
● 交通量のデータなどを入手できる場合、そもそもの交通事故の発生リスクなども
考慮してモデリングができるため、事故発生だけのデータでなく他のデータとも
つないで分析を行うのも一手に思う。
39

Mr_Sakaueとの約束
● 歩行者として以下の約束を結びましょう
○ 土日ないし祝前日は道路で油断をしない
○ 大きな道路での横断で油断をしない
○ 大きな交差点で油断しない
○ 霧の日には出かけない
○ 踏切で油断をしない
○ 深夜や未明では幹線道路の周辺を歩かない
○ 制限速度の高い道では油断しない
○ カーブは油断しない
○ 点滅信号で油断しない

参考情報
● Davis and Goadrich (2006), "The Relationship Between Precision-Recall and ROC Curves", ICML
● Mr_Sakaue, “警察庁オープンデータの前処理と死亡事故発生予測のための機械学習について ”, 個
人ブログ
● HASEGAWA etal (2007), "A BASIC STUDY ON TRAFFIC ACCIDENT DATA ANALYSIS USING
SUPPORT VECTOR MACHINE", Journal of the Eastern Asia Society for Transportation Studies,
Vol. 7
● Meraldo Antonio (2019), "Live Prediction of Traffic Accident Risks Using Machine Learning and
Google Maps", Towards Data Science
● https://github.com/KamonohashiPerry/traffic_accident_analysis
● Zhang et al (2018), "A Deep Learning Approach for Detecting Traffic Accidents from Social
Media Data", Transportation Research Part C: Emerging Technologies
41

警察庁オープンデータで交通事故の世界にDeepDive！

More Related Content

What's hot (20)

More from Teruyuki Sakaue (14)

警察庁オープンデータで交通事故の世界にDeepDive！