近年詞彙研究
-
Upload
gellert-rendor -
Category
Documents
-
view
20 -
download
1
description
Transcript of 近年詞彙研究
詞彙屬性與變異Attributes and Variation of Lexicon
鄭錦全
國立台灣師範大學國立中央大學國立中山大學
中央研究院University of Illinois, Urbana-Champaign
2012 年 11 月 11 日北京
近年詞彙研究朱永锴汕头大学学报人文科学版 1987 年第三期 20-23頁21 頁:
• 爹湖北天门话是“祖父” 的意思。• 爷爷湖北京山话是“父亲” 的意思。• 公公重庆话是“祖父的姐或妹夫” 的意思。• 粥河北沫源话是“干饭” 的意思。• 客河南新乡话是“女儿” 的意思。
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
0.05
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
考慮考量Total
‘ 申奧’
freq
0
100
200
300
400
500
600
700
800
2000
06
2000
10
2000
11
2001
01
2001
02
2001
03
2001
04
2001
05
2001
06
2001
07
2001
08
2001
09
2001
10
2001
11
2001
12
2002
01
2002
02
2002
04
2002
05
2002
07
2002
08
2002
10
freq
本文重點變異宏觀研究
詞彙屬性
漢語方言詞彙
崙背鄉部分地區語言分布
台灣客家方言詞語詞目 四縣 海陸 饒平 大埔 詔安 閩南 國語小雨 細雨 水毛仔 細雨 細雨 小雨 小雨 小雨下雨 落雨 落水 落雨 落雨 落雨 落雨 下雨丈人 丈人老 丈人老 丈人老 丈人老 丈米老 丈人 丈人上午 上晝 上晝 上晝 上晝 上晝 頂晝 上午上午 b 朝晨 朝晨 朝晨 朝晨 清早 早起 上午上午 c 朝晨 朝晨 清早 朝晨 清早 清早 上午母豬 豬嬤 豬嬤 豬嬤 豬嬤 豬嬤 豬母 母豬
2,400 items
落雨 落雨 4/4 1下雨 落水 0/4 0豬嬤 豬母 2/4 0.5 母豬 豬嬤 2/4 0.5 豬母 母豬 4/4 0.75
四縣 海陸 饒平 大埔 詔安 閩南
海陸 0.918
饒平 0.937 0.920
大埔 0.904 0.890 0.908
詔安 0.742 0.760 0.762 0.773
閩南 0.729 0.739 0.743 0.748 0.835
國語 0.693 0.681 0.688 0.701 0.664 0.679
Cluster Analysis
詞彙屬性語素或詞素數目
公元 5 世紀以前年代 字種 書目1300BC 3,000 甲骨文93BC 5,122 史記5 5,340 訓纂篇83 5,833 漢書100 9,353 說文解字289 4,388 三國志4C 12,824 字林445 6,161 後漢書488 5,842 宋書
6-7 世紀514 4,962 南齊書543 22,726 玉篇 554 5,417 魏書636 4,973 梁書636 4,033 陳書636 4,032 北齊書636 4,161 周書648 5,997 晉書656 5,592 隋書659 5,376 南史659 5,572 北史
10-13 世紀945 6,346 舊唐書974 5,109 舊五代史997 26,430 龍龕手鑑1008 26,194 廣韻1039 31,319 類篇1060 6,771 新唐書1067 30,000 集韻1072 3,909 新五代史1212 35,189 改併五音聚韻四聲篇海
14-18 世紀1344 4,071 遼史1344 5,264 金史1345 7,389 宋史1370 5,854 元史1615 33,179 字匯1671 33,549 正字通1716 47,035 康熙字典1739 7,124 明史
現代1915 48,000 中華大字典1927 8,080 清史稿1959 49,965 大漢和辭典1968 49,905 中文大辭典 1986 54,678 漢語大字典
“ 词涯八千”
0
10,000
20,000
30,000
40,000
50,000
60,000
1300
BC 甲骨文
93BC
史記
5 訓篡篇
83 漢書
100 說文解字
289 三國志
4C 字林
445 後漢書
488 宋書
514 南齊書
543 玉篇
554 魏書
636 梁書
636 陳書
636 北齊書
636 周書
648 晉書
656 隋書
659 南史
659 北史
945 舊唐書
974 舊五代史
1008
廣韻
1039
類篇
1060
新唐書
1067
集韻
1072
新五代史
1344
遼史
1344
金史
1345
宋史
1370
元史
1615
字匯
1670
正字通
1716
康熙字典
1739
明史
1915
中華大字典
1927
清史稿
1959
大漢和辭典
1968
中文大辭典
1986
漢語大字典
人的詞素量
史書總字數從二十幾萬到四百多萬字不等。各人所用字種只有幾千,上限是八千。學海無涯,但是人所能操縱的詞素量有涯邊盡頭。
對人類語言認知能力提出“詞涯八千” 來解釋每人用字的上限。
詞彙從語料庫建立詞彙是詞語的集合體。從語料建立詞彙。
唐詩三百首謝公 最小 偏憐 女 , 自嫁 黔婁 百事 乖 。顧我 無衣 搜 藎篋 , 泥他 沽酒 拔 金釵 。野蔬 充膳 甘 長藿 , 落葉 添薪 仰 古槐 。今日 俸錢 過 十萬 , 與君 營奠 復 營齋 。昔日 戲言 身後 事 , 今朝 都到 眼前 來 。衣裳 已施 行看 盡 , 針線 猶存 未忍 開 。尚想 舊情 憐 婢僕 , 也曾 因夢 送 錢財 。誠知 此恨 人人 有 , 貧賤 夫妻 百事 哀 。閒坐 悲君 亦 自悲 , 百年 都是 幾多 時 ?鄧攸 無子 尋 知命 , 潘岳 悼亡 猶 費詞 。同穴 窅冥 何 所望 , 他生 緣會 更 難期 。唯將 終夜 長開 眼 , 報答 平生 未展 眉 。
宋詞三百首裁剪 冰綃 , 輕疊 數重 , 淡著 燕脂 勻注 。 新樣 靚妝 , 豔溢 香融 , 羞殺 蕊珠 宮女 。 易得 凋零 , 更 多少 、 無情 風雨 。 愁苦 。 問 院落 淒涼 , 幾番 春暮 ? ○ 憑寄 離恨 重重 , 這 雙燕 , 何曾 會人 言語 ? 天遙 地遠 , 萬水 千山 , 知他 故宮 何處 。 怎不 思量 , 除 夢裡 、 有時 曾去 。 無據 。 和夢 也 、 新來 不做 。
北大 人民日报 1998 年一月• 19980101-01-001-001/m 迈
向 /v 充满 /v 希望 /n 的 /ud 新 /a 世纪 /n ——/wp 一九九八年 /t 新年 /t 讲话 /n ( /wkz 附 /v 图片 /n 1 /m 张 /qe ) /wky• 19980101-01-001-002/m 中共中
央 /nt 总书记 /n 、 /wu 国家/n 主席 /n 江 /nrf 泽民 /nrg
中央研究院語料庫<?xml version="1.0" encoding="UTF-8"?>-<corpus> -<article no="101703"> <genre>散文 </genre> <style>描寫 </style> <mode>written</mode> <topic>兒童文學 </topic> <class> 文學 </class> <medium>教科書 </medium> -<author> <name/> <sex>男女</sex> <nationality> 中華民國 </nationality> <nativelang/> </author> <publisher> 國立編譯館 </publisher> <publishlocation>臺灣 </publishlocation> <publishdate/> <edition/> <title>2懷念梅姊 </title> -<text> <sentence>2 (Neu) 、 (PAUSECATEGORY) 懷念 (VJ) 梅姊 (Nb) . (PERIODCATEGORY) 夜深 (VH) 了 (T) ,(COMMACATEGORY)</sentence> <sentence>月光 (Na) 下 (Ncd) 的 (DE) 花園 (Nc) 更(D) 顯得 (VK) 冷清 (VH) 。 (PERIODCATEGORY
語料庫上古漢語 111,172 word tokens唐詩三百首 11,310 word tokens宋詞三百首 13,314 word tokens現代漢語平衡語料庫前 5,000,000 詞現代漢語平衡語料庫後 5,000,000 詞現代漢語平衡語料庫 10,000,000 詞中央通訊社新聞稿 10,000,000 詞
北大人民日報 1998 一月 1,000,000 詞(俞士汶教授提供)
上古漢語 Old ChineseNo Word Frequency Percent Cumulation1 不(DC)3970 3.571 3.5712 也(T) 3608 3.245 6.8163 之(T) 3497 3.146 9.9624 而(C) 3090 2.779 12.7415 曰(VE)2737 2.462 15.2036 之(NH)2426 2.182 17.3857 其(NH)2246 2.020 19.4068 以(P) 1786 1.606 21.0129 於(P) 1571 1.413 22.42510 有(VG)1500 1.349 23.77411 者(NH)1315 1.183 24.95712 人(NA1) 1154 1.038 25.99513 則(C) 1059 0.953 26.94814 無(VG)1040 0.935 27.88315 所(NH) 971 0.873 28.757
唐詩三百首 Tang Poems1 無 44 0.389% 0.389%2 來 31 0.274% 0.663%3 生 30 0.265% 0.928%4 人 28 0.248% 1.176%5 歸 27 0.239% 1.415%6 去 25 0.221% 1.636%7 空 24 0.212% 1.848%8 有 24 0.212% 2.060%9 如 23 0.203% 2.263%10 之 23 0.203% 2.467%11 下 23 0.203% 2.670%12 上 23 0.203% 2.874%13 長 21 0.186% 3.059%14 多 21 0.186% 3.245%15 在 21 0.186% 3.431%
宋詞三百首 Song Lyrics1 處 43 0.323 0.3232 東風 36 0.270 0.5933 正 35 0.263 0.8564 又 34 0.255 1.1125 人 33 0.248 1.3596 但 30 0.225 1.5857 去 29 0.218 1.8038 更 28 0.210 2.0139 路 27 0.203 2.21610 斜陽 27 0.203 2.41911 相思 25 0.188 2.60612 念 25 0.188 2.79413 黃昏 24 0.180 2.97414 空 24 0.180 3.15515 歸來 23 0.173 3.327
近代漢語 Pre-modern Chinese1 了 (Di) 46706 1.630 1.6302 道 (VE) 44644 1.558 3.1883 不 (Dc) 44637 1.558 4.7464 的 (DE) 42525 1.484 6.2305 是 (SHI) 41236 1.439 7.6696 他 (Nh) 37259 1.300 8.9697 一 (Neu) 37157 1.297 10.2668 我 (Nh) 34296 1.197 11.4639 了 (T) 34191 1.193 12.65610 你 (Nh) 32920 1.149 13.80511 個 (Nf) 29343 1.024 14.82912 那 (Nh) 23650 0.825 15.65413 說 (VE) 23516 0.821 16.47514 人 (Na) 23277 0.812 17.28715 這 (Nh) 22639 0.790 18.078
平衡現漢前 Modern Chinese first 5M1 的 (DE) 266275 5.818 5.8182 是 (SHI) 79999 1.748 7.5663 一 (Neu) 55402 1.211 8.7774 在 (P) 52853 1.155 9.9325 有 (V_2) 43133 0.943 10.8756 我 (Nh) 39947 0.873 11.7477 個 (Nf) 39395 0.861 12.6088 不 (D) 37481 0.819 13.4279 了 (Di) 35062 0.766 14.19310 這 (Nep) 32383 0.708 14.90111 他 (Nh) 29239 0.639 15.54012 就 (D) 28291 0.618 16.15813 也 (D) 28130 0.615 16.77314 人 (Na) 23419 0.512 17.28415 都 (D) 19573 0.428 17.712
平衡現漢後 Modern Chinese 2nd 5M1 的 (DE) 294860 6.046 6.0462 是 (SHI) 69081 1.416 7.4623 在 (P) 61187 1.255 8.7174 一 (Neu) 49503 1.015 9.7325 有 (V_2) 37277 0.764 10.4966 不 (D) 32374 0.664 11.1607 也 (D) 31236 0.640 11.8018 我 (Nh) 29182 0.598 12.3999 了 (Di) 27697 0.568 12.96710 這 (Nep) 26943 0.552 13.51911 個 (Nf) 26835 0.550 14.07012 他 (Nh) 24944 0.511 14.58113 人 (Na) 21520 0.441 15.02214 與 (Caa) 18528 0.380 15.40215 就 (D) 18527 0.380 15.782
平衡現漢 Modern Chinese 10M1 的 (DE) 561135 5.9365.9362 是 (SHI) 149080 1.5777.5133 在 (P) 114040 1.2068.7194 一 (Neu) 104905 1.1109.8295 有 (V_2) 80410 0.85110.6796 不 (D) 69855 0.73911.4187 我 (Nh) 69129 0.73112.1508 個 (Nf) 66230 0.70112.8509 了 (Di) 62759 0.66413.51410 也 (D) 59366 0.62814.14211 這 (Nep) 59326 0.62814.77012 他 (Nh) 54183 0.57315.34313 就 (D) 46818 0.49515.83814 人 (Na) 44939 0.47516.31315 都 (D) 37037 0.39216.705
人民日報 Peoples Daily 1998 1 的/ud 54139 5.741 5.7412 在/p 11417 1.211 6.9523 和/c 10579 1.122 8.0744 了/ul 10191 1.081 9.1555 是/vl!B1 8907 0.945 10.0996 一/m 7039 0.746 10.8467 不/df 4496 0.477 11.3238 对/p 3611 0.383 11.7069 中/f 3215 0.341 12.04710 这/rz 3181 0.337 12.38411 他/rr 2820 0.299 12.68312 也/d 2758 0.292 12.97513 等/u 2706 0.287 13.26214 人/n 2679 0.284 13.54615 上{s5}/f!B 2641 0.280 13.827
中央社新聞稿 CNA News1 的 (DE) 428653 4.534 4.5342 在 (P) 128943 1.364 5.8983 是 (SHI) 83062 0.879 6.7774 有 (V_2) 57576 0.609 7.3865 也 (D) 52305 0.553 7.9396 將 (D) 48324 0.511 8.4517 他 (Nh) 47761 0.505 8.9568 及 (Caa) 46760 0.495 9.4519 與 (Caa) 45030 0.476 9.92710 今天 (Nd) 44822 0.474 10.40111 表示 (VE) 39655 0.419 10.82012 說 (VE) 39584 0.419 11.23913 對 (P) 37371 0.395 11.63514 和 (Caa) 36199 0.383 12.01715 不 (D) 35427 0.375 12.392
標記詞類 TagsA 非謂形容詞
D 副詞Da 數量副詞Dfa 動詞前程度副詞Dfb 動詞後程度副詞Dk 句副詞Di 時態標記Caa 對等連接詞,如:和、跟Cbb 關聯連接詞Nep 指代定詞
高頻詞集中度1 上古漢語 15 28.757
2 唐詩三百首 15 3.431
3 宋詞三百首 15 3.327
4近代漢語 15 18.078
5 現代漢語前 5 百萬詞 15 17.712
6 現代漢語後 5 百萬詞 15 15.782
7 現代漢語一千萬詞 15 16.705
8 北大 1998一月人民日報 15 13.827
9 中央社新聞稿 15 12.392
以高頻詞集中度定詞彙關係3 宋詞三百首 15 3.327
2 唐詩三百首 15 3.431
-----9 中央社新聞稿 15 12.392
8 北大 1998一月人民日報 15 13.827
----6 現代漢語後 5 百萬詞 15 15.782
7 現代漢語一千萬詞 15 16.705
5 現代漢語前 5 百萬詞 15 17.712
----4近代漢語 15 18.078
----1 上古漢語 15 28.757
詮釋 Explanations
文學體裁的文章要求。
詞彙相關係數 Lexicon correlationCorpora ASBC C N Ade (DE) tokens 613675 447177de (DE) types 21 5shi (SHI) tokens 150149 83377shi (SHI) types 14 5對等連接 (Caa) tokens 122100 157100
對等連接 (Caa) types 54 21
副詞 (D) tokens 892982 715610
副詞 (D) types 2745 1611
數詞定詞 (Neu) tokens 265694 31445
數詞定詞 (Neu) types 11017 61
時態標記 (Di) tokens 99768 26903
時態標記 (Di) types 29 10
指代定詞 (Nep) tokens 118371 30673
指代定詞 (Nep) types 40 11
代名詞 (Nh) tokens 288992 107006
代名詞 (Nh) types 236 116 0.960
Next
To complete lexicon correlation studies
When?Sooner or later, usually later.
Thank you.