利用統計方法及中文訓練資料處理台語文詞性標記

17
利利利利利利利利利利利利利利利利利利利利利利 Modeling Taiwanese POS tag ging with statistical meth ods and Mandarin training data 利利利 利利利 利利利 利利利 利利利 2008.9.5

description

利用統計方法及中文訓練資料處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data

Transcript of 利用統計方法及中文訓練資料處理台語文詞性標記

Page 1: 利用統計方法及中文訓練資料處理台語文詞性標記

利用統計方法及中文訓練資料處理台語文詞性標記

Modeling Taiwanese POS tagging with statistical methods and Mandarin

training data 楊允言 戴嘉宏 劉杰岳

陳克健 高成炎

2008.9.5

Page 2: 利用統計方法及中文訓練資料處理台語文詞性標記

2

報告大綱1. 研究架構2. 研究目的3. 研究方法4. 結果與分析5. 未來方向

Page 3: 利用統計方法及中文訓練資料處理台語文詞性標記

3

1. 研究架構• 台語文語料庫• 詞頻 /MI 統計• 詞性標記• 兩種書寫型式互轉

(漢字 & 羅馬字)• 語法結構樹

Page 4: 利用統計方法及中文訓練資料處理台語文詞性標記

4

2. 研究目的• 台語文 tagging

– 問題 1 :詞類集中文詞類集

– 問題 2 :缺 trainging data中文的 training data

Page 5: 利用統計方法及中文訓練資料處理台語文詞性標記

5

2. 研究目的 -2

• Input :漢羅 / 羅馬字 段落對齊文本– Lun thak peh-oe-ji khah-ian thak Tiong-k

ok ji, chiu-si koe thak, koh m-sai leng-goa koe-seh …

– 論讀白話字較贏讀中國字,就是會讀,koh m 使另外解說 …

1885 葉牧師 白話字的利益

Page 6: 利用統計方法及中文訓練資料處理台語文詞性標記

6

2. 研究目的 -3

• Output : Tagging 結果– 論 [Lun] (VC) 讀 [thak ] (VC) 白話字 [p

eh-oe-ji ] (Na) 較贏 [khah-ian ] (VJ) 讀 [thak ] (VC) 中國 [Tiong-kok] (Nc) 字 [ji] (Na) , (COMMACATEGORY) 就是[chiu-si ] (Cbb) 會 [koe] (D) 讀 [thak] (VC) , (COMMACATEGORY) koh[koh] (D) m 使 [m-sai ] (D) 另外 [leng-goa ] (Da) 解說 [koe-seh] (VC)

Page 7: 利用統計方法及中文訓練資料處理台語文詞性標記

7

3. 研究方法

Page 8: 利用統計方法及中文訓練資料處理台語文詞性標記

8

3. 研究方法 -2

• 利用台華辭典找出華語對譯詞(一對多)

– 有的找不到• HMM 挑最適當的華語詞

Page 9: 利用統計方法及中文訓練資料處理台語文詞性標記

9

3. 研究方法 -3

• MEMM 分類器挑詞性– 10 個 features– 語詞: wi, wi-1, wi-2 wi-1 , wi+1 ,

wi+1 wi+2

– 詞性: ti-1, ti-2 ti-1

– 構詞: m1, m2 , mn

Page 10: 利用統計方法及中文訓練資料處理台語文詞性標記

10

4. 結果與分析• 挑選 7 篇文章的第一段

– 文類:小說 3 / 散文 3 / 劇本 1– 時期:清 2 / 日 2 / 戰後 3– 837 音節 / 564 詞– 48 個詞性標記錯誤– 正確率 91.49%

Page 11: 利用統計方法及中文訓練資料處理台語文詞性標記

11

4. 結果與分析 -2我 [góa]{ 我 }< 我 >(Nh)

將 [chiong]{ 將 }< 將 >(D)

草帽仔 [chháu-bo-á]{@ 草帽仔 }< 草帽仔 >(Na)

掛 [kòa]{ 帶 ; 掛 ; 戴 }< 帶 >(VC)

ti [ti ]{ 在 }< 在 >(P)

壁頂 [piah-téng ]{ 牆壁上 }< 牆壁上 >(Nc) ,行李 [hêng-lí]{ 行李 }< 行李 >(Na)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

leh[leh]{ 咧 }< 咧 >(T) ,

Page 12: 利用統計方法及中文訓練資料處理台語文詞性標記

12

4. 結果與分析 -3年 文類 篇名 錯誤 /

語詞數正確率

1885 散文 白話字的利益 6/109 94.50%

1919 散文 品行的遺傳 8/119 93.28%

1990 散文 老人的價值 7/49 85.71%

1950 劇本 威尼斯的生意人 4/58 93.10%

1890 小說 安樂街 9/77 88.31%

1924 小說 母親的眼淚 9/93 90.32%

1990 小說 岬角上的新娘 5/59 91.53%

Page 13: 利用統計方法及中文訓練資料處理台語文詞性標記

13

4. 結果與分析 -4

錯誤原因 次數 比例 選錯中文詞 13 27.08%

沒有正確的中文詞可選 2 4.17%

未知詞 8 16.67%

人名 4 8.33%

傳播錯誤 4 8.33%

總計 30 62.50%

Page 14: 利用統計方法及中文訓練資料處理台語文詞性標記

14

4. 結果與分析 -5

文類 語詞數 標記錯誤 正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

Page 15: 利用統計方法及中文訓練資料處理台語文詞性標記

15

4. 結果與分析 -5

文類 語詞數 標記錯誤 正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

Page 16: 利用統計方法及中文訓練資料處理台語文詞性標記

16

5. 未來方向• 建立 training data• 中文和台文的差異• 台語詞類集

Page 17: 利用統計方法及中文訓練資料處理台語文詞性標記

17

敬請指教