利用統計方法及中文訓練資料處理台語文詞性標記
-
Upload
ungian-iunn -
Category
Technology
-
view
914 -
download
2
description
Transcript of 利用統計方法及中文訓練資料處理台語文詞性標記
利用統計方法及中文訓練資料處理台語文詞性標記
Modeling Taiwanese POS tagging with statistical methods and Mandarin
training data 楊允言 戴嘉宏 劉杰岳
陳克健 高成炎
2008.9.5
2
報告大綱1. 研究架構2. 研究目的3. 研究方法4. 結果與分析5. 未來方向
3
1. 研究架構• 台語文語料庫• 詞頻 /MI 統計• 詞性標記• 兩種書寫型式互轉
(漢字 & 羅馬字)• 語法結構樹
4
2. 研究目的• 台語文 tagging
– 問題 1 :詞類集中文詞類集
– 問題 2 :缺 trainging data中文的 training data
5
2. 研究目的 -2
• Input :漢羅 / 羅馬字 段落對齊文本– Lun thak peh-oe-ji khah-ian thak Tiong-k
ok ji, chiu-si koe thak, koh m-sai leng-goa koe-seh …
– 論讀白話字較贏讀中國字,就是會讀,koh m 使另外解說 …
1885 葉牧師 白話字的利益
6
2. 研究目的 -3
• Output : Tagging 結果– 論 [Lun] (VC) 讀 [thak ] (VC) 白話字 [p
eh-oe-ji ] (Na) 較贏 [khah-ian ] (VJ) 讀 [thak ] (VC) 中國 [Tiong-kok] (Nc) 字 [ji] (Na) , (COMMACATEGORY) 就是[chiu-si ] (Cbb) 會 [koe] (D) 讀 [thak] (VC) , (COMMACATEGORY) koh[koh] (D) m 使 [m-sai ] (D) 另外 [leng-goa ] (Da) 解說 [koe-seh] (VC)
7
3. 研究方法
8
3. 研究方法 -2
• 利用台華辭典找出華語對譯詞(一對多)
– 有的找不到• HMM 挑最適當的華語詞
9
3. 研究方法 -3
• MEMM 分類器挑詞性– 10 個 features– 語詞: wi, wi-1, wi-2 wi-1 , wi+1 ,
wi+1 wi+2
– 詞性: ti-1, ti-2 ti-1
– 構詞: m1, m2 , mn
10
4. 結果與分析• 挑選 7 篇文章的第一段
– 文類:小說 3 / 散文 3 / 劇本 1– 時期:清 2 / 日 2 / 戰後 3– 837 音節 / 564 詞– 48 個詞性標記錯誤– 正確率 91.49%
11
4. 結果與分析 -2我 [góa]{ 我 }< 我 >(Nh)
將 [chiong]{ 將 }< 將 >(D)
草帽仔 [chháu-bo-á]{@ 草帽仔 }< 草帽仔 >(Na)
掛 [kòa]{ 帶 ; 掛 ; 戴 }< 帶 >(VC)
ti [ti ]{ 在 }< 在 >(P)
壁頂 [piah-téng ]{ 牆壁上 }< 牆壁上 >(Nc) ,行李 [hêng-lí]{ 行李 }< 行李 >(Na)
khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)
khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)
leh[leh]{ 咧 }< 咧 >(T) ,
12
4. 結果與分析 -3年 文類 篇名 錯誤 /
語詞數正確率
1885 散文 白話字的利益 6/109 94.50%
1919 散文 品行的遺傳 8/119 93.28%
1990 散文 老人的價值 7/49 85.71%
1950 劇本 威尼斯的生意人 4/58 93.10%
1890 小說 安樂街 9/77 88.31%
1924 小說 母親的眼淚 9/93 90.32%
1990 小說 岬角上的新娘 5/59 91.53%
13
4. 結果與分析 -4
錯誤原因 次數 比例 選錯中文詞 13 27.08%
沒有正確的中文詞可選 2 4.17%
未知詞 8 16.67%
人名 4 8.33%
傳播錯誤 4 8.33%
總計 30 62.50%
14
4. 結果與分析 -5
文類 語詞數 標記錯誤 正確率散文 277 21 92.42%
劇本 58 4 93.10%
小說 229 23 89.96%
15
4. 結果與分析 -5
文類 語詞數 標記錯誤 正確率散文 277 21 92.42%
劇本 58 4 93.10%
小說 229 23 89.96%
16
5. 未來方向• 建立 training data• 中文和台文的差異• 台語詞類集
17
敬請指教