利用統計方法及中文訓練資料處理台語文詞性標記

利用統計方法及中文訓練資料處理台語文詞性標記

Modeling Taiwanese POS tagging with statistical methods and Mandarin

training data 楊允言戴嘉宏劉杰岳

陳克健高成炎

2008.9.5

2

報告大綱1. 研究架構2. 研究目的3. 研究方法4. 結果與分析5. 未來方向

3

1. 研究架構• 台語文語料庫• 詞頻 /MI 統計• 詞性標記• 兩種書寫型式互轉

（漢字 & 羅馬字）• 語法結構樹

4

2. 研究目的• 台語文 tagging

– 問題 1 ：詞類集中文詞類集

– 問題 2 ：缺 trainging data中文的 training data

5

2. 研究目的 -2

• Input ：漢羅 / 羅馬字段落對齊文本– Lun thak peh-oe-ji khah-ian thak Tiong-k

ok ji, chiu-si koe thak, koh m-sai leng-goa koe-seh …

– 論讀白話字較贏讀中國字，就是會讀，koh m 使另外解說 …

1885 葉牧師白話字的利益

6

2. 研究目的 -3

• Output ： Tagging 結果– 論 [Lun] (VC) 讀 [thak ] (VC) 白話字 [p

eh-oe-ji ] (Na) 較贏 [khah-ian ] (VJ) 讀 [thak ] (VC) 中國 [Tiong-kok] (Nc) 字 [ji] (Na) ， (COMMACATEGORY) 就是[chiu-si ] (Cbb) 會 [koe] (D) 讀 [thak] (VC) ， (COMMACATEGORY) koh[koh] (D) m 使 [m-sai ] (D) 另外 [leng-goa ] (Da) 解說 [koe-seh] (VC)

7

3. 研究方法

8

3. 研究方法 -2

• 利用台華辭典找出華語對譯詞（一對多）

– 有的找不到• HMM 挑最適當的華語詞

9

3. 研究方法 -3

• MEMM 分類器挑詞性– 10 個 features– 語詞： wi, wi-1, wi-2 wi-1 , wi+1 ,

wi+1 wi+2

– 詞性： ti-1, ti-2 ti-1

– 構詞： m1, m2 , mn

10

4. 結果與分析• 挑選 7 篇文章的第一段

– 文類：小說 3 / 散文 3 / 劇本 1– 時期：清 2 / 日 2 / 戰後 3– 837 音節 / 564 詞– 48 個詞性標記錯誤– 正確率 91.49%

11

4. 結果與分析 -2我 [góa]{ 我 }< 我 >(Nh)

將 [chiong]{ 將 }< 將 >(D)

草帽仔 [chháu-bo-á]{@ 草帽仔 }< 草帽仔 >(Na)

掛 [kòa]{ 帶 ; 掛 ; 戴 }< 帶 >(VC)

ti [ti ]{ 在 }< 在 >(P)

壁頂 [piah-téng ]{ 牆壁上 }< 牆壁上 >(Nc) ，行李 [hêng-lí]{ 行李 }< 行李 >(Na)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

leh[leh]{ 咧 }< 咧 >(T) ，

12

4. 結果與分析 -3年文類篇名錯誤 /

語詞數正確率

1885 散文白話字的利益 6/109 94.50%

1919 散文品行的遺傳 8/119 93.28%

1990 散文老人的價值 7/49 85.71%

1950 劇本威尼斯的生意人 4/58 93.10%

1890 小說安樂街 9/77 88.31%

1924 小說母親的眼淚 9/93 90.32%

1990 小說岬角上的新娘 5/59 91.53%

13

4. 結果與分析 -4

錯誤原因次數比例選錯中文詞 13 27.08%

沒有正確的中文詞可選 2 4.17%

未知詞 8 16.67%

人名 4 8.33%

傳播錯誤 4 8.33%

總計 30 62.50%

14


文類語詞數標記錯誤正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

15


文類語詞數標記錯誤正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

16

5. 未來方向• 建立 training data• 中文和台文的差異• 台語詞類集

17

敬請指教

利用統計方法及中文訓練資料處理台語文詞性標記

Technology

Transcript of 利用統計方法及中文訓練資料處理台語文詞性標記