Collocation Extraction
-
Upload
nlpseminar -
Category
Education
-
view
2.477 -
download
2
description
Transcript of Collocation Extraction
1
Автоматическое выделение коллокацийМ.В. Хохлова
Кафедра математической лингвистикиФакультет филологии и искусствСанкт-Петербургский государственный университет
Институт лингвистических исследований РАН
2
парадигматические vs. синтагматические отношения;
совместная встречаемость; устойчивость; «Устойчивость сочетания относительно
данного элемента измеряется вероятностью, с которой данный элемент предсказывает совместное появление остальных элементов сочетания (в определенном порядке относительно предсказывающего элемента» [Мельчук 1960: 73]
3
Информация об устойчивых сочетаниях не всегда последовательно отражается в толковых словарях.
Граница между устойчивыми и свободными сочетаниями слов определяется достаточно субъективно.
Порог устойчивости.
4
Коллокация (1)• Коллокация – 1) отношение между отдельными
лексическими элементами в пределах синтаксической единицы (The concise Oxford dictionary of linguistics ); 2) отношение, при котором слова обычно (традиционно) употребляются вместе
Ex.: My computer hates me; blond hair, as drunk as a lord.
• Коллокация – это встречаемость двух или более слов в тексте на небольшом расстоянии друг относительно друга (Sinclair 1991: 170);
• Коллокации данного слова – это указания того, где оно обычно, или традиционно, встречается (Firth 1968: 181). Коллокация – склонность слова к некоему окружению.
5
Коллокация (2)
Коллокация – это несвободное, нефразеологическое, а привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка.
Одним из ключевых свойств коллокаций является «невозможность предсказания таких сочетаний на основе значений входящих в них компонентов» [Борисова 1995а: 13].
6
Коллокация (3)
частотные списки;диапазон;node – ключевое словоcollocate – слово, встречающееся слева
или справа от ключевого, коллокат
7
Мера MI (mutual information, взаимной информации)
где MI = mutual information;
n – ключевое слово;
c – коллокат;
f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с;
f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте);
N – общее число словоформ в корпусе (тексте).
)()(
),(log2 cfnf
NcnfMI
8
Мера t-score
гдеn – ключевое слово;c – коллокат;f(n,c) – частота встречаемости ключевого слова n в
паре с коллокатом с;f(n), f(c) – абсолютные (независимые) частоты
ключевого слова n и слова c в корпусе (тексте);N – общее число словоформ в корпусе (тексте).
),(
)()(),(
cnfN
cfnfcnf
scoret
9
Log-likelihood
)()(
),(log),(2log 2 cfnf
Ncnfcnflikelihood
гдеn – ключевое слово;c – коллокат;f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с;f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте);N – общее число словоформ в корпусе (тексте).
10
Пример результата для слова spring (упорядочены по значению t-score)
Пример результата для слова spring (упорядочены по значению MI)
Collocate Corpus Freq Joint Freq Significance
1.in 765730 1230 21.579153
2.early 13074 223 14.392161
3.the 2313407 2063 13.945517
4.summer 7201 186 13.311897
5.autumn 3160 156 12.333651
6.winter 4190 151 12.077496
7.late 8377 130 10.947733
8.next 23175 132 10.242625
9.flowers 2952 88 9.186370
10.onions 421 80 8.915185
11.last 45548 125 8.662813
12.until 16813 80 7.782663
13.[p] 753638 643 6.991340
14.and 1129483 907 6.940583
15.flowering 539 45 6.658551
16.spring 3573 46 6.456783
17.mind 11052 52 6.263996
18.during 17418 58 6.202442
19.loaded 606 37 6.021198
20.water 13608 50 5.881829
Collocate Corpus Freq Joint Freq Significance
1.acutronics 3 3 10.661263
2.warsash 7 49.853828
3.calistoga 9 49.491222
4.pulteney 7 39.438749
5.repot 8 39.246085
6.kabuki 18 69.076143
7.autojumble 26 88.960654
8.equinox 45 138.869671
9.harbingers 23 68.722471
10.pulmonaria 13 38.545575
11.appalachian 22 58.523547
12.prune 146 288.278556
13.onions 421 808.265276
14.radish 20 37.924025
15.snowflake 23 3 7.722371
16.cabbage 248 30 7.613654
17.h5 25 3 7.602065
18.rite 88 10 7.523447
19.cabbages 62 7 7.514108
20.frosts 99 11 7.491022
11
Корпусы текстов для поиска коллокаций
http://www.collins.co.uk/Corpus/CorpusSearch.aspx
12
Корпусы текстов для поиска коллокаций
http://corpus1.leeds.ac.uk/ruscorpora.html
13
Корпусы текстов для поиска коллокаций
http://aot.ru/demo/bigrams.html
14
Корпусы текстов для поиска коллокаций (Sketch Engine)
15
Корпусы текстов для поиска коллокаций (Sketch Engine)
16
Спасибо за внимание!