DIY Chinese Segmentation
-
Upload
rueshyna -
Category
Technology
-
view
266 -
download
0
description
Transcript of DIY Chinese Segmentation
DIY Chinese SegmentationML/DM Monday2013/04/08Rues (rueshyna)
中文
詞性 (pos)
中文
詞性 (pos)NER
中文
詞性 (pos)
剖析樹(parsed tree)NER
中文
詞性 (pos)
剖析樹(parsed tree)NER
中文X不討論
中文 vs 英文 議題?
the cardinals met in private
to home in on candidates
the cardinals met in private
to home in on candidates
the cardinals met in private
to home in on candidates
cardinal
the cardinals met in private
to home in on candidates
cardinal meet
the cardinals met in private
to home in on candidates
cardinal meet
candidate
今天天氣真好
今天 天氣 真 好
今天 天氣 真 好
今天 天氣 真 好
今天 天氣 真 好
今天 天氣 真 好
今 天 天 氣 真 好
美味的早餐
美味的 早餐
美味 的 早餐
營養美味的早餐
?
美味的 早餐
營養 美味 的 早餐
美味 的 早餐
營養 美味 的 早餐
美味 的 早餐
營養 美味 的 早餐
美味 的 早餐
nutrition? nutritious?
中文斷詞歧異
美國學校
美國學校美國 學校
美國學校美 國學 校
美國 學校
美國學校
養生魚片
美 國學 校
美國 學校
美國學校
養生魚片
美 國學 校
美國 學校
養 生魚片
養生 魚片
美國學校
養生魚片
美 國學 校
美國 學校
養 生魚片
養生 魚片X
美國學校
4/25 Taipei.py
養生魚片
美 國學 校
美國 學校
養 生魚片
養生 魚片X
DIY
收集詞彙
是年今年中華民國中華民國........
做辭典
今年是中華民國102年
原句
今年 是 中華民國 102 年
理想斷詞結果
今年是中華民國102年
今年是中華 民國102年
長詞優先
Supervised Learning
• Python loso (Plurk)• LingPipe•MMSEG(Tsai)
• Stanford Word Segmenter
• Sample Chinese - trained module
• Translation Chinese - DIY module
• ...
簡體中文繁體中文
簡體中文繁體中文
面包麵包
Unsupervised Learning
• Pattree• Lee-Feng Chien, "PAT-Tree-Based Adaptive Keyphrase
Extraction for Intelligent Chinese Information Retrieval," Information Processing and Management, volume 35, number 4, pages 501-521, 1999, Elsevier Press
Online Service
SupervisedLearning
SupervisedLearning
UnsupervisedLearning
辭典
SupervisedLearning
UnsupervisedLearning
辭典
SupervisedLearning
UnsupervisedLearning
Thanks!!