利用統計方法及中文訓練資料處理台語文詞性標記

Post on 20-May-2015

914 views 2 download

description

利用統計方法及中文訓練資料處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data

Transcript of 利用統計方法及中文訓練資料處理台語文詞性標記

利用統計方法及中文訓練資料處理台語文詞性標記

Modeling Taiwanese POS tagging with statistical methods and Mandarin

training data 楊允言 戴嘉宏 劉杰岳

陳克健 高成炎

2008.9.5

2

報告大綱1. 研究架構2. 研究目的3. 研究方法4. 結果與分析5. 未來方向

3

1. 研究架構• 台語文語料庫• 詞頻 /MI 統計• 詞性標記• 兩種書寫型式互轉

(漢字 & 羅馬字)• 語法結構樹

4

2. 研究目的• 台語文 tagging

– 問題 1 :詞類集中文詞類集

– 問題 2 :缺 trainging data中文的 training data

5

2. 研究目的 -2

• Input :漢羅 / 羅馬字 段落對齊文本– Lun thak peh-oe-ji khah-ian thak Tiong-k

ok ji, chiu-si koe thak, koh m-sai leng-goa koe-seh …

– 論讀白話字較贏讀中國字,就是會讀,koh m 使另外解說 …

1885 葉牧師 白話字的利益

6

2. 研究目的 -3

• Output : Tagging 結果– 論 [Lun] (VC) 讀 [thak ] (VC) 白話字 [p

eh-oe-ji ] (Na) 較贏 [khah-ian ] (VJ) 讀 [thak ] (VC) 中國 [Tiong-kok] (Nc) 字 [ji] (Na) , (COMMACATEGORY) 就是[chiu-si ] (Cbb) 會 [koe] (D) 讀 [thak] (VC) , (COMMACATEGORY) koh[koh] (D) m 使 [m-sai ] (D) 另外 [leng-goa ] (Da) 解說 [koe-seh] (VC)

7

3. 研究方法

8

3. 研究方法 -2

• 利用台華辭典找出華語對譯詞(一對多)

– 有的找不到• HMM 挑最適當的華語詞

9

3. 研究方法 -3

• MEMM 分類器挑詞性– 10 個 features– 語詞: wi, wi-1, wi-2 wi-1 , wi+1 ,

wi+1 wi+2

– 詞性: ti-1, ti-2 ti-1

– 構詞: m1, m2 , mn

10

4. 結果與分析• 挑選 7 篇文章的第一段

– 文類:小說 3 / 散文 3 / 劇本 1– 時期:清 2 / 日 2 / 戰後 3– 837 音節 / 564 詞– 48 個詞性標記錯誤– 正確率 91.49%

11

4. 結果與分析 -2我 [góa]{ 我 }< 我 >(Nh)

將 [chiong]{ 將 }< 將 >(D)

草帽仔 [chháu-bo-á]{@ 草帽仔 }< 草帽仔 >(Na)

掛 [kòa]{ 帶 ; 掛 ; 戴 }< 帶 >(VC)

ti [ti ]{ 在 }< 在 >(P)

壁頂 [piah-téng ]{ 牆壁上 }< 牆壁上 >(Nc) ,行李 [hêng-lí]{ 行李 }< 行李 >(Na)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

leh[leh]{ 咧 }< 咧 >(T) ,

12

4. 結果與分析 -3年 文類 篇名 錯誤 /

語詞數正確率

1885 散文 白話字的利益 6/109 94.50%

1919 散文 品行的遺傳 8/119 93.28%

1990 散文 老人的價值 7/49 85.71%

1950 劇本 威尼斯的生意人 4/58 93.10%

1890 小說 安樂街 9/77 88.31%

1924 小說 母親的眼淚 9/93 90.32%

1990 小說 岬角上的新娘 5/59 91.53%

13

4. 結果與分析 -4

錯誤原因 次數 比例 選錯中文詞 13 27.08%

沒有正確的中文詞可選 2 4.17%

未知詞 8 16.67%

人名 4 8.33%

傳播錯誤 4 8.33%

總計 30 62.50%

14

4. 結果與分析 -5

文類 語詞數 標記錯誤 正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

15

4. 結果與分析 -5

文類 語詞數 標記錯誤 正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

16

5. 未來方向• 建立 training data• 中文和台文的差異• 台語詞類集

17

敬請指教