永續運輸資訊系統 - 交通事故資料分析研究

永續運輸資訊系統- 交通事故資料分析研

究

周家慶高級分析師交通部運輸研究所

簡報內容背景交通事故資料庫與地理資訊系統資料採礦 (Data Mining) Oracle 之資料採礦模組

– Oracle Data Mining (ODM)

試作過程結論與建議

背景運輸研究所進行

– 「交通事故資料庫系統」研究及其分析與設計• 評估交通事故分析所需之資料庫來源探討，包括死因資料

庫、健保資料庫、保險資料庫、事故資料庫等。– 「交通事故地理資訊系統資料庫建置」

• 進行國省道與臺北市事故資料之實作。– 本研究重點在探討各種資料庫之龐大資料量狀況下，

如何利用資料採礦架構進行事故資料分析工作。本架構將為永續運輸資訊系統中之基本資料庫，

而永續運輸資訊系統之發展目的乃是希望成為政府從事交通施政成效評估、區域交通建設發展比較與交通成長變化追蹤分析等重要工作之重要工具。

交通事故分析相關資料庫 1/3

死因檔– 死因資料係記錄我國國民死亡之有關資料，每位當年

死亡者的資訊均以一筆記錄儲存於死因檔中，而依據國際疾病傷害與死因分類標準，與道路交通事故直接相關的死因分類為 ICD 碼 E810 至 E819 之運輸事故。

事故檔 – 道路交通事故料係 A1 、 A2 及 A3 類道路交通事故案

件內容，每一事故案件所記錄之資料可分成事故地點、事件本身、涉案當事人三部份，此三部份之資料分別儲存三個資料表格，彼此間以發生時間 - 年 + 序號為串連之鍵，來連結同屬一件事故的人、事、地資料。


汽車保險資料檔– 資料檔包括一般車險及強制汽車責任險兩部份，保

險從業人員處理保險事件時，其係依據投保、理賠等處理階段與保險種類之不同，而填具不同的書面資料，包括：一般車險與強制汽車責任險個別之保單資料、批單資料、理賠申請書、理賠計算書、求償計算書，此些資料在資料記錄方式、資料庫結構設計方式上彼此相連結。

門診檔與住院檔– 健保資料庫記錄民眾以健康保險方式就醫之各種資

料，所用之資料檔為門診處方及治療明細資料檔以及住院醫療費用清單資料檔。

交通事故地理資訊系統 1/3

都市地區事故資料之空間定位– 市區交通事故，以地址或交叉路口進行發生地點的

描述。– 以完整且正確的門牌地址資料庫進，提高事故地點

的定位精度，台北市門牌地址的地理資訊資料庫。– 交叉路口型事故資料則透過交叉道路之路名與電子

地圖之道路名稱比對取得其路口 X/Y坐標值，同時亦針對事故位置資料中之地標 / 地物與電子地圖之地標 / 地物比對取得其 X/Y坐標值，以提高都市地區事故定位精度。


國省道事故資料之空間定位– 依里程數– 透過位置參考系統進行– 利用動態分段功能分別設定

• LRS Datum 為交通路網• 路網之鍵值為道路名稱與里程起訖欄位名稱• Linear Reference Methods 為依里程計算• Event Data 為透過 ODBC 連結之事故點資料• 事故資料之鍵值為道路名稱、事故發生里程

都市地區事故資料瀏覽

都市地區事故資料之空間分析 1/3

以「交通部運輸研究所」與「台北體育場郵局」為中心 500公尺半徑之範圍


以「民權東路三段」之線形 100公尺環域範圍，分析該範圍內之事故資料


對所選取之行政區，作交叉路口的半徑範圍內之肇事當量的前 10名排名 ( 肇事當量 =9.5* 死亡人數 +3.5*受傷人數 + 總肇事次數 )

國省道事故資料瀏覽

國省道事故資料之空間分析 1/2

國道 1 號於 15k 至 40k 交通尖峰時段之 A1 與 A2 事故分佈

國省道事故資料之空間分析 2/2

指定行政區範圍、分析時段、分析長度和每次移動距離，分析範圍內之道路，依肇事當量作排序

資料採礦 (Data Mining)

資料採礦是一種在大量資料之資料庫中尋找有興趣、有價值的資訊或知識，所以資料採礦可說是結合統計理論、訊息理論與資料庫技術的一種資料分析機制。

進行資料採礦之要件– 首先須定義清楚任務– 針對每個不同的任務，再來決定須要什麼樣的資料

• 再從這些資料中找出其所須的特徵，這些特徵是可以區分出不同的類別且具代表性，而它所表現的地方就是要選的屬性

– 觀察效能，成本效益，是否可以產出更高的利潤– 過程都必須是可以被量測的

資料採礦之進行步驟釐清目標與理解資料獲取相關技術與知識整合與查核資料去除錯誤或不一致及不完整的資料由資料選取樣本先行試驗建立模式與型樣實際資料採礦分析工作測試與檢核

資料採礦常用模式分類 Classification( 分類 )

– 運用已知的結果，結合其相關屬性，來推導出在資料中存在的規則及事實，方法包括類神經網路、決策樹、 ... 。

Prediction(預測 )– 運用歷史資料去預測未來變化，如 Regression 、 T

ime-series 、 ... 。 Association

– 在找尋資料的關聯性。 – 找出在某一事件或是資料中會同時出現的東西。

資料採礦常用模式分類 Segmentation

– 使用區隔 (Clustering) 方法之類聚的現像，其主要區別在於 Clustering並未於事前資料的屬性，而是直接做分群，再做資料分析；不同於 Classification 的是其已先定義每群資料，對每群資料的特性事前就知道。所以 Classification 是 supervised學習，而 Clustering 是 unsupervised學習。

Sequence– 用來分析事件的發生是否有連續性，在時間序列上，

依照經驗法則之趨勢分析。

Oracle 資料採礦模組 -ODM

由 Data Mining 應用程式介面 (API) 與 Data Mining 伺服器 (DMS) 組成。

Data Mining 應用程式介面– 提供使用者利用 java 程式語言型資料分析工作。– 應用程式介面參考 Java Data Mining (JDM) 標準規範– JDM 內容包括 Object Management Group 之通用倉儲詮釋 (Common Warehouse Metadata ， CWM), Data Mining Group (OMG) 之 Predictive Model Markup Language (PMML) 與 ISO最新版資料庫查詢語法之 SQL/MM 。

Data Mining 伺服器則為資料庫系統之伺服功能。

ODM 模式建立與應用流程

ODM 之模式建立模式建立之任務設定檔

– 資料型態、輸入資料來源、資料是否已處理狀況為unprepared 或是 discretized 、目標屬性名稱、 Naive Bayes 演算法之參數設定、任務名稱、模式名稱

模式建立主程式 – 資料庫連結、建立實體資料物件連結、建立資料採

礦函數物件設定、執行模式建立工作模式建立結果

ODM 輸入資料處理

資料為” discretized” 之 BINNED 與” unprepared” 之 UNBINNED 之差異

ODM 各採礦任務控制表格

odm_mining_model 資料表格所儲存之模式

odm_mining_task 資料表格所紀錄之各任務狀態

odm_test_result 資料表格紀錄之各 mining_task測試結果

事故資料分析試作 1/5

資料項選擇– 主要肇因

• 分駕駛人與非駕駛人因素– 速限– 天候– 光線– 路面狀況– 道路障礙物與視距– 號誌種類與狀況– 標誌


資料前置處理– 台北市 74 至 90 年事故件數為 52150 筆– 資料缺失

• 主要肇因：空白約有 20227 筆• 天候：異常值約有 17 筆• 光線：異常值約有 77 筆• 路面狀況：異常值約有 210 筆• 道路障礙物與視距：異常值約有 22 筆• 號誌種類與狀況：異常值約有 242 筆• 標誌：異常值約有 198 筆


使用模式： Naïve Bayes Classifier 進行方式

– Oracle ODM• 檢核後之事故資料匯入Accident 資料表。• 修改Oracle 所提供 Naïve Bayes Classifier 之 Java範例程式，將其

中之資料輸入與輸出方式改為本研究需求後即可使用。• 模式建立後，以模式建立資料進行檢測模式之解釋能力。

– Christian Borgelt • http://fuzzy.cs.uni-magdeburg.de/~borgelt/doc/bayes/bayes.html

• 決定各屬性資料之值域 ( 程式 dom) 。• 產生 Naïve Bayes Classifier 模式 ( 程式 bci) 。• 執行 Naïve Bayes Classifier 之分析工作 ( 程式 bcx) 。• 計算 confusion matrix 以檢測模式之解釋能力 ( 程式 xmat) 。

事故資料分析試作 4/5 Oracle ODM

事故資料分析試作 5/5 Christian Borgelt 之 Naïve Bayes

(期望值，變異數 )[ 筆數 ]

結論 Oracle ODM 之作法較複雜，也需 java 程式撰寫經驗，恐對非資訊專長之使用者形成障礙，但其與資料庫之整合程度較高，對資料量龐大之業務需求當可提高維護管理之效益，且同時提供 Naive Bayes Classifier 與 Association Rules函數之 PMML 之匯入與匯出功能，提高模式之交換能力為其優點。

本次試作僅進行 Data Mining 之整體操作，驗證其實用性。因此後續仍有許多工作要進行，其中如前所述最費時的資料準備工作，甚或會佔掉整各計畫 50% 之能量。

本研究希望先行導入 Data Mining技術於交通事故分析工作，並期望陸續將之推廣至交通運輸其他領域，如車流資料分析、家庭旅次行為分析、…等課題。

簡報結束

敬請指教

永續運輸資訊系統 - 交通事故資料分析研究

Documents

Transcript of 永續運輸資訊系統 - 交通事故資料分析研究