Background
-
Upload
joseph-watkins -
Category
Documents
-
view
35 -
download
3
description
Transcript of Background
p
Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi
(Graduate School of Informatics, Kyoto University)
Background Features
Parallel Sentence Extraction System Experiments
31
2 4
Baseline +CC +Non–CC +Con80
85
90
95
100
PrecisionRecallF-measure
Baselin
e (WF)
+CC (WF)
+Non-CC (WF)
+Con (WF)
+Con (CCF)
+Con (WF a
nd ...
+Con (WF o
r ...
50
100
150
200
3435363738
• Classification results with WF
• Extraction results (#extracted sentences [unit: k])
• MT results (BLEU-4)
Classifier
Parallel sentencesParallel sentence
candidates Zh-Ja Wikipedia
Filter
Article pairs
Inter-language link
CommonChinesecharacters
Seed parallel corpus
(1) (2) (3)
...
Bilingual dictionary
Common Chinese characters filtering
Novel features
ClassifierFilter
Cartesian product
Non-parallel sentence pairs
Filtered non-parallel sentence pairs
Positive instances
Negativeinstances
Bilingual dictionary
Seed parallel corpus
CommonChinesecharacters
• Parallel sentence classifier
• Overview
• Chinese character features (+CC)
• Non-CC word features (+Non-CC)
• Content word features (+Con)
Zh: Ja:...日本的一级行政区划单位为都道府县,全国划分为 1都、 1道、 2府、 43县。部份市因人口较多,在当地影响较大,而被指定为政令指定都市、中核市、特例市。都道府县下的行政区划为市町村,此外还有郡、支厅、区、特别区等行政单位。...
...都道府県( 1都 1道 2府 43県)という広域行政区画から構成される。但し、地域区分(地方区分)には、揺れが見られる。また、一部の市は、行政上、別途政令指定都市、中核市、特例市に定められている。他にも、市町村や、町村をまとめた郡がある(全国市町村一覧参照)。...
• Chinese-Japanese Wikipedia
• Lack of Chinese-Japanese parallel corpora for SMTCorpora Language DomainEuroparl European PoliticNIST Zh-En, Arab-En NewsBTEC Asian-En TravelNTCIR Zh-En, Ja-En PatentASPEC Ja-En, Zh-Ja Science
…
• Parallel sentence candidate filtering– WF: dictionary-based word overlap (Baseline)– CCF: common Chinese character (cognate) overlap – WF and CCF: logical conjunction of WF and CCF– WF or CCF: logical disjunction of WF and CCF
而被指定为政令指定都市、中核市、特例市。
別途政令指定都市、中核市、特例市に定められている。
Zh:
Ja: c
YY /的 /尸体 /, /和 /活着 /的 /黑 /猩猩 /相比 /, /皮肤 / 的 /颜色 /看起来 /稍微 /明朗 /一些 /。つぎに /, /配線 /に /使用 /する /パターン /幅 /や /クリアランス /の /設定 /の /方法 /を /説明 /した/。
Zh:
Ja:
• Baseline features– General features: sentence length, word overlap– Word alignment features
日本的一级行政区划单位为都道府县,全国划分为1都、 1道、 2府、 43县。
都道府県( 1都 1道 2府 43県)という広域行政区画から構成される。
Zh:
Ja:
# The resource is freely available at: http://orchid.kuee.kyoto-u.ac.jp/~chu/resource/wiki_zh_ja.tgz
# http://orchid.kuee.kyoto-u.ac.jp/ASPEC/