近年詞彙研究

47
詞詞詞詞詞詞詞 Attributes and Variation of Lexicon 詞詞詞 詞詞詞詞詞詞詞詞 詞詞詞詞詞詞 詞詞詞詞詞詞 詞詞詞詞詞 University of Illinois, Urbana-Champaign 2012 詞 11 詞 11 詞 詞詞

description

詞彙 屬性與變異 Attributes and Variation of Lexicon 鄭錦全 國立 台灣師範大學 國立中央大學 國立中山大學 中央 研究院 University of Illinois, Urbana-Champaign 2012 年 11 月 11 日 北京. 近年詞彙研究. 朱永锴 汕 头大学学报人文科学 版 1987 年 第三期 20-23 頁 21 頁: 爹 湖北天门话是 “祖父 ” 的意思。 爷爷湖北京山话是 “父 亲” 的意思。 公公重庆话是 “祖父 的姐或妹夫” 的意思。 粥河北沫源话是 “干 饭” 的意思。 - PowerPoint PPT Presentation

Transcript of 近年詞彙研究

Page 1: 近年詞彙研究

詞彙屬性與變異Attributes and Variation of Lexicon

鄭錦全

國立台灣師範大學國立中央大學國立中山大學

中央研究院University of Illinois, Urbana-Champaign

2012 年 11 月 11 日北京

Page 2: 近年詞彙研究

近年詞彙研究朱永锴汕头大学学报人文科学版 1987 年第三期 20-23頁21 頁:

• 爹湖北天门话是“祖父” 的意思。• 爷爷湖北京山话是“父亲” 的意思。• 公公重庆话是“祖父的姐或妹夫” 的意思。• 粥河北沫源话是“干饭” 的意思。• 客河南新乡话是“女儿” 的意思。

Page 3: 近年詞彙研究

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

考慮考量Total

Page 4: 近年詞彙研究

‘ 申奧’

freq

0

100

200

300

400

500

600

700

800

2000

06

2000

10

2000

11

2001

01

2001

02

2001

03

2001

04

2001

05

2001

06

2001

07

2001

08

2001

09

2001

10

2001

11

2001

12

2002

01

2002

02

2002

04

2002

05

2002

07

2002

08

2002

10

freq

Page 5: 近年詞彙研究

本文重點變異宏觀研究

詞彙屬性

Page 6: 近年詞彙研究

漢語方言詞彙

Page 7: 近年詞彙研究

崙背鄉部分地區語言分布

Page 8: 近年詞彙研究

台灣客家方言詞語詞目 四縣 海陸 饒平 大埔 詔安 閩南 國語小雨 細雨 水毛仔 細雨 細雨 小雨 小雨 小雨下雨 落雨 落水 落雨 落雨 落雨 落雨 下雨丈人 丈人老 丈人老 丈人老 丈人老 丈米老 丈人 丈人上午 上晝 上晝 上晝 上晝 上晝 頂晝 上午上午 b 朝晨 朝晨 朝晨 朝晨 清早 早起 上午上午 c 朝晨 朝晨 清早 朝晨 清早 清早 上午母豬 豬嬤 豬嬤 豬嬤 豬嬤 豬嬤 豬母 母豬

2,400 items

Page 9: 近年詞彙研究

落雨 落雨 4/4 1下雨 落水 0/4 0豬嬤 豬母 2/4 0.5 母豬 豬嬤 2/4 0.5 豬母 母豬 4/4 0.75

Page 10: 近年詞彙研究

四縣 海陸 饒平 大埔 詔安 閩南

海陸 0.918

饒平 0.937 0.920

大埔 0.904 0.890 0.908

詔安 0.742 0.760 0.762 0.773

閩南 0.729 0.739 0.743 0.748 0.835

國語 0.693 0.681 0.688 0.701 0.664 0.679

Page 11: 近年詞彙研究

Cluster Analysis

Page 12: 近年詞彙研究
Page 13: 近年詞彙研究

詞彙屬性語素或詞素數目

Page 14: 近年詞彙研究

公元 5 世紀以前年代 字種 書目1300BC 3,000 甲骨文93BC 5,122 史記5 5,340 訓纂篇83 5,833 漢書100 9,353 說文解字289 4,388 三國志4C 12,824 字林445 6,161 後漢書488 5,842 宋書

Page 15: 近年詞彙研究

6-7 世紀514 4,962 南齊書543 22,726 玉篇 554 5,417 魏書636 4,973 梁書636 4,033 陳書636 4,032 北齊書636 4,161 周書648 5,997 晉書656 5,592 隋書659 5,376 南史659 5,572 北史

Page 16: 近年詞彙研究

10-13 世紀945 6,346 舊唐書974 5,109 舊五代史997 26,430 龍龕手鑑1008 26,194 廣韻1039 31,319 類篇1060 6,771 新唐書1067 30,000 集韻1072 3,909 新五代史1212 35,189 改併五音聚韻四聲篇海

Page 17: 近年詞彙研究

14-18 世紀1344 4,071 遼史1344 5,264 金史1345 7,389 宋史1370 5,854 元史1615 33,179 字匯1671 33,549 正字通1716 47,035 康熙字典1739 7,124 明史

Page 18: 近年詞彙研究

現代1915 48,000 中華大字典1927 8,080 清史稿1959 49,965 大漢和辭典1968 49,905 中文大辭典 1986 54,678 漢語大字典

Page 19: 近年詞彙研究

“ 词涯八千”

0

10,000

20,000

30,000

40,000

50,000

60,000

1300

BC 甲骨文

93BC

史記

5 訓篡篇

83 漢書

100 說文解字

289 三國志

4C 字林

445 後漢書

488 宋書

514 南齊書

543 玉篇

554 魏書

636 梁書

636 陳書

636 北齊書

636 周書

648 晉書

656 隋書

659 南史

659 北史

945 舊唐書

974 舊五代史

1008

廣韻

1039

類篇

1060

新唐書

1067

集韻

1072

新五代史

1344

遼史

1344

金史

1345

宋史

1370

元史

1615

字匯

1670

正字通

1716

康熙字典

1739

明史

1915

中華大字典

1927

清史稿

1959

大漢和辭典

1968

中文大辭典

1986

漢語大字典

Page 20: 近年詞彙研究

人的詞素量

史書總字數從二十幾萬到四百多萬字不等。各人所用字種只有幾千,上限是八千。學海無涯,但是人所能操縱的詞素量有涯邊盡頭。

對人類語言認知能力提出“詞涯八千” 來解釋每人用字的上限。

Page 21: 近年詞彙研究

詞彙從語料庫建立詞彙是詞語的集合體。從語料建立詞彙。

Page 22: 近年詞彙研究

唐詩三百首謝公 最小 偏憐 女 , 自嫁 黔婁 百事 乖 。顧我 無衣 搜 藎篋 , 泥他 沽酒 拔 金釵 。野蔬 充膳 甘 長藿 , 落葉 添薪 仰 古槐 。今日 俸錢 過 十萬 , 與君 營奠 復 營齋 。昔日 戲言 身後 事 , 今朝 都到 眼前 來 。衣裳 已施 行看 盡 , 針線 猶存 未忍 開 。尚想 舊情 憐 婢僕 , 也曾 因夢 送 錢財 。誠知 此恨 人人 有 , 貧賤 夫妻 百事 哀 。閒坐 悲君 亦 自悲 , 百年 都是 幾多 時 ?鄧攸 無子 尋 知命 , 潘岳 悼亡 猶 費詞 。同穴 窅冥 何 所望 , 他生 緣會 更 難期 。唯將 終夜 長開 眼 , 報答 平生 未展 眉 。

Page 23: 近年詞彙研究

宋詞三百首裁剪 冰綃 , 輕疊 數重 , 淡著 燕脂 勻注 。 新樣 靚妝 , 豔溢 香融 , 羞殺 蕊珠 宮女 。 易得 凋零 , 更 多少 、 無情 風雨 。 愁苦 。 問 院落 淒涼 , 幾番 春暮 ? ○ 憑寄 離恨 重重 , 這 雙燕 , 何曾 會人 言語 ? 天遙 地遠 , 萬水 千山 , 知他 故宮 何處 。 怎不 思量 , 除 夢裡 、 有時 曾去 。 無據 。 和夢 也 、 新來 不做 。

Page 24: 近年詞彙研究

北大 人民日报 1998 年一月• 19980101-01-001-001/m 迈

向 /v 充满 /v 希望 /n 的 /ud 新 /a 世纪 /n ——/wp 一九九八年 /t 新年 /t 讲话 /n ( /wkz 附 /v 图片 /n 1 /m 张 /qe ) /wky• 19980101-01-001-002/m 中共中

央 /nt 总书记 /n 、 /wu 国家/n 主席 /n 江 /nrf 泽民 /nrg

Page 25: 近年詞彙研究

中央研究院語料庫<?xml version="1.0" encoding="UTF-8"?>-<corpus> -<article no="101703"> <genre>散文 </genre> <style>描寫 </style> <mode>written</mode> <topic>兒童文學 </topic> <class> 文學 </class> <medium>教科書 </medium> -<author> <name/> <sex>男女</sex> <nationality> 中華民國 </nationality> <nativelang/> </author> <publisher> 國立編譯館 </publisher> <publishlocation>臺灣 </publishlocation> <publishdate/> <edition/> <title>2懷念梅姊 </title> -<text> <sentence>2 (Neu) 、 (PAUSECATEGORY) 懷念 (VJ) 梅姊 (Nb) . (PERIODCATEGORY) 夜深 (VH) 了 (T) ,(COMMACATEGORY)</sentence> <sentence>月光 (Na) 下 (Ncd) 的 (DE) 花園 (Nc) 更(D) 顯得 (VK) 冷清 (VH) 。 (PERIODCATEGORY

Page 26: 近年詞彙研究

語料庫上古漢語 111,172 word tokens唐詩三百首 11,310 word tokens宋詞三百首 13,314 word tokens現代漢語平衡語料庫前 5,000,000 詞現代漢語平衡語料庫後 5,000,000 詞現代漢語平衡語料庫 10,000,000 詞中央通訊社新聞稿 10,000,000 詞

北大人民日報 1998 一月 1,000,000 詞(俞士汶教授提供)

Page 27: 近年詞彙研究

上古漢語 Old ChineseNo Word Frequency Percent Cumulation1 不(DC)3970 3.571 3.5712 也(T) 3608 3.245 6.8163 之(T) 3497 3.146 9.9624 而(C) 3090 2.779 12.7415 曰(VE)2737 2.462 15.2036 之(NH)2426 2.182 17.3857 其(NH)2246 2.020 19.4068 以(P) 1786 1.606 21.0129 於(P) 1571 1.413 22.42510 有(VG)1500 1.349 23.77411 者(NH)1315 1.183 24.95712 人(NA1) 1154 1.038 25.99513 則(C) 1059 0.953 26.94814 無(VG)1040 0.935 27.88315 所(NH) 971 0.873 28.757

Page 28: 近年詞彙研究

唐詩三百首 Tang Poems1 無 44 0.389% 0.389%2 來 31 0.274% 0.663%3 生 30 0.265% 0.928%4 人 28 0.248% 1.176%5 歸 27 0.239% 1.415%6 去 25 0.221% 1.636%7 空 24 0.212% 1.848%8 有 24 0.212% 2.060%9 如 23 0.203% 2.263%10 之 23 0.203% 2.467%11 下 23 0.203% 2.670%12 上 23 0.203% 2.874%13 長 21 0.186% 3.059%14 多 21 0.186% 3.245%15 在 21 0.186% 3.431%

Page 29: 近年詞彙研究

宋詞三百首 Song Lyrics1 處 43 0.323 0.3232 東風 36 0.270 0.5933 正 35 0.263 0.8564 又 34 0.255 1.1125 人 33 0.248 1.3596 但 30 0.225 1.5857 去 29 0.218 1.8038 更 28 0.210 2.0139 路 27 0.203 2.21610 斜陽 27 0.203 2.41911 相思 25 0.188 2.60612 念 25 0.188 2.79413 黃昏 24 0.180 2.97414 空 24 0.180 3.15515 歸來 23 0.173 3.327

Page 30: 近年詞彙研究

近代漢語 Pre-modern Chinese1 了 (Di) 46706 1.630 1.6302 道 (VE) 44644 1.558 3.1883 不 (Dc) 44637 1.558 4.7464 的 (DE) 42525 1.484 6.2305 是 (SHI) 41236 1.439 7.6696 他 (Nh) 37259 1.300 8.9697 一 (Neu) 37157 1.297 10.2668 我 (Nh) 34296 1.197 11.4639 了 (T) 34191 1.193 12.65610 你 (Nh) 32920 1.149 13.80511 個 (Nf) 29343 1.024 14.82912 那 (Nh) 23650 0.825 15.65413 說 (VE) 23516 0.821 16.47514 人 (Na) 23277 0.812 17.28715 這 (Nh) 22639 0.790 18.078

Page 31: 近年詞彙研究

平衡現漢前 Modern Chinese first 5M1 的 (DE) 266275 5.818 5.8182 是 (SHI) 79999 1.748 7.5663 一 (Neu) 55402 1.211 8.7774 在 (P) 52853 1.155 9.9325 有 (V_2) 43133 0.943 10.8756 我 (Nh) 39947 0.873 11.7477 個 (Nf) 39395 0.861 12.6088 不 (D) 37481 0.819 13.4279 了 (Di) 35062 0.766 14.19310 這 (Nep) 32383 0.708 14.90111 他 (Nh) 29239 0.639 15.54012 就 (D) 28291 0.618 16.15813 也 (D) 28130 0.615 16.77314 人 (Na) 23419 0.512 17.28415 都 (D) 19573 0.428 17.712

Page 32: 近年詞彙研究

平衡現漢後 Modern Chinese 2nd 5M1 的 (DE) 294860 6.046 6.0462 是 (SHI) 69081 1.416 7.4623 在 (P) 61187 1.255 8.7174 一 (Neu) 49503 1.015 9.7325 有 (V_2) 37277 0.764 10.4966 不 (D) 32374 0.664 11.1607 也 (D) 31236 0.640 11.8018 我 (Nh) 29182 0.598 12.3999 了 (Di) 27697 0.568 12.96710 這 (Nep) 26943 0.552 13.51911 個 (Nf) 26835 0.550 14.07012 他 (Nh) 24944 0.511 14.58113 人 (Na) 21520 0.441 15.02214 與 (Caa) 18528 0.380 15.40215 就 (D) 18527 0.380 15.782

Page 33: 近年詞彙研究

平衡現漢 Modern Chinese 10M1 的 (DE) 561135 5.9365.9362 是 (SHI) 149080 1.5777.5133 在 (P) 114040 1.2068.7194 一 (Neu) 104905 1.1109.8295 有 (V_2) 80410 0.85110.6796 不 (D) 69855 0.73911.4187 我 (Nh) 69129 0.73112.1508 個 (Nf) 66230 0.70112.8509 了 (Di) 62759 0.66413.51410 也 (D) 59366 0.62814.14211 這 (Nep) 59326 0.62814.77012 他 (Nh) 54183 0.57315.34313 就 (D) 46818 0.49515.83814 人 (Na) 44939 0.47516.31315 都 (D) 37037 0.39216.705

Page 34: 近年詞彙研究

人民日報 Peoples Daily 1998 1 的/ud 54139 5.741 5.7412 在/p 11417 1.211 6.9523 和/c 10579 1.122 8.0744 了/ul 10191 1.081 9.1555 是/vl!B1 8907 0.945 10.0996 一/m 7039 0.746 10.8467 不/df 4496 0.477 11.3238 对/p 3611 0.383 11.7069 中/f 3215 0.341 12.04710 这/rz 3181 0.337 12.38411 他/rr 2820 0.299 12.68312 也/d 2758 0.292 12.97513 等/u 2706 0.287 13.26214 人/n 2679 0.284 13.54615 上{s5}/f!B 2641 0.280 13.827 

Page 35: 近年詞彙研究

中央社新聞稿 CNA News1 的 (DE) 428653 4.534 4.5342 在 (P) 128943 1.364 5.8983 是 (SHI) 83062 0.879 6.7774 有 (V_2) 57576 0.609 7.3865 也 (D) 52305 0.553 7.9396 將 (D) 48324 0.511 8.4517 他 (Nh) 47761 0.505 8.9568 及 (Caa) 46760 0.495 9.4519 與 (Caa) 45030 0.476 9.92710 今天 (Nd) 44822 0.474 10.40111 表示 (VE) 39655 0.419 10.82012 說 (VE) 39584 0.419 11.23913 對 (P) 37371 0.395 11.63514 和 (Caa) 36199 0.383 12.01715 不 (D) 35427 0.375 12.392

Page 36: 近年詞彙研究

標記詞類 TagsA 非謂形容詞

D 副詞Da 數量副詞Dfa 動詞前程度副詞Dfb 動詞後程度副詞Dk 句副詞Di 時態標記Caa 對等連接詞,如:和、跟Cbb 關聯連接詞Nep 指代定詞

Page 37: 近年詞彙研究

高頻詞集中度1 上古漢語 15 28.757

2 唐詩三百首 15 3.431

3 宋詞三百首 15 3.327

4近代漢語 15 18.078

5 現代漢語前 5 百萬詞 15 17.712

6 現代漢語後 5 百萬詞 15 15.782

7 現代漢語一千萬詞 15 16.705

8 北大 1998一月人民日報 15 13.827

9 中央社新聞稿 15 12.392

Page 38: 近年詞彙研究

以高頻詞集中度定詞彙關係3 宋詞三百首 15 3.327

2 唐詩三百首 15 3.431

-----9 中央社新聞稿 15 12.392

8 北大 1998一月人民日報 15 13.827

----6 現代漢語後 5 百萬詞 15 15.782

7 現代漢語一千萬詞 15 16.705

5 現代漢語前 5 百萬詞 15 17.712

----4近代漢語 15 18.078

----1 上古漢語 15 28.757

Page 39: 近年詞彙研究

詮釋 Explanations

文學體裁的文章要求。

Page 40: 近年詞彙研究

詞彙相關係數 Lexicon correlationCorpora ASBC C N Ade (DE) tokens 613675 447177de (DE) types 21 5shi (SHI) tokens 150149 83377shi (SHI) types 14 5對等連接 (Caa) tokens 122100 157100

對等連接 (Caa) types 54 21

副詞 (D) tokens 892982 715610

副詞 (D) types 2745 1611

數詞定詞 (Neu) tokens 265694 31445

數詞定詞 (Neu) types 11017 61

時態標記 (Di) tokens 99768 26903

時態標記 (Di) types 29 10

指代定詞 (Nep) tokens 118371 30673

指代定詞 (Nep) types 40 11

代名詞 (Nh) tokens 288992 107006

代名詞 (Nh) types 236 116 0.960

Page 41: 近年詞彙研究

Next

To complete lexicon correlation studies

When?Sooner or later, usually later.

Thank you.

Page 42: 近年詞彙研究
Page 43: 近年詞彙研究
Page 44: 近年詞彙研究
Page 45: 近年詞彙研究
Page 46: 近年詞彙研究
Page 47: 近年詞彙研究