клышинский

24
Метод выделения словаря моделей управления для глаголов русского языка Эдуард Клышинский Наталия Кочеткова МИЭМ НИУ ВШЭ Санкт-Петербург 26.05.2012

description

Выступление Эдуарда Клышинского на AINL

Transcript of клышинский

Page 1: клышинский

Метод выделения словаря моделей управления для глаголов русского языка

Эдуард КлышинскийНаталия Кочеткова

МИЭМ НИУ ВШЭ

Санкт-Петербург26.05.2012

Page 2: клышинский

Глагольное управление

Мама мыла щетку щеткойМальчик нес щенка к щенку.Мальчик нес еду щенку.

Но не Мама мыла щетке щеткахМальчик нес щенки превыше щенков.

Page 3: клышинский

Глагольное управление

Ехать на поезде на верхней полке на юг на конференцию на свой доклад на две недели на казенные деньги.

Семантика тоже играет свою роль.

Page 4: клышинский

Зачем используется глагольное управление и сочетаемость?

• Проверка корректности автоматического анализа/синтеза текста.

• Снятие неоднозначности текста.• Собственно синтаксический анализ.• …

Page 5: клышинский

Что было до этого?

• Кустова Г. И., Толдова С. Ю. Семантические фильтры для разрешения многозначности в Национальном корпусе русского языка: глаголы // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог-2008». М, 2008. С. 522–529.

• Гельбух А. Разрешение синтаксической неоднозначности и извлечение словаря моделей управления из корпуса текстов // Искусственный интеллект № 2, 1999

• …

Page 6: клышинский

Что уже есть?

• Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с. – 2500 статей

• Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php – 10000 статей

• Большаков И.А., Гельбух А.Ф. Большой электронный словарь как политематический справочник и формирователь запросов к Интернету // Материалы международной конференции «Диалог 2011», 2011 г. сс. 124-134. – 6,93 млн. сочетаний

Page 7: клышинский

Что необходимо?

• Модель управления для глаголов вида глагол+предлог+падеж – 25 000 глаголов, около 500 000 сочетаний вида глагол+предлог+разрешенные падежи

• Словарь сочетаемости слов русского языка – несколько десятков миллионов сочетаний вида глагол+предлог+существительное

Page 8: клышинский

Что мешает?

• Большой объем работ → нужна автоматизация

• Большой уровень омонимии → нужно применять синтаксис или снятие неоднозначности

• Синтаксис пока не так хорош → или мы теряем качество, или объем

Page 9: клышинский

Гипотеза

Если:• взять достаточно много текстов;• рассматривать только однозначные слова;• брать строго определенные группы,то можно автоматически получить достаточно большой словарь синтаксической сочетаемости.

Page 10: клышинский

Использованные тексты

Библиотека Мошкова 664 008 527

lib.rus.ec 8 924 931 649

РИА Новости 220 778 140

Коммерсант 99 670 843

Независимая газета 99 238 975

Взгляд 95 736 749

Итого 10.5 млрд

Page 11: клышинский

Омонимия в русском языкеCompulenta.ru за 2009 год

Reuters.com за 2009 год

Однозначные 52,55% 38,87%Неизвестные 4,27% 7,65%Неоднозначные 43,17% 53,46%по части речи 5,51% 0%по нормальной форме

3,61% 0,32%

оба варианта 9,37% 50,35%по параметрам 24,68% 2,79%

Page 12: клышинский

Черная кошка забежала в дом.

В дом быстро забежали две черные кошки .

Разбираемые конструкции

Прилагательное существительное глаголГлагол предлог существительноеДеепричастие предлог существительное(и другие)

Page 13: клышинский

Словарь сочетаемости

1. Из текстов извлечены указанные конструкции, составленные из слов, однозначных по части речи (не параметрам и не нормальным формам!).

состоятся вечераприглашает на концертисполнят произведениясостоится встречапримут участиеоткроется выставка

Page 14: клышинский

Словарь сочетаемости

2. Слова приводятся к начальной форме, после чего считается статистика употреблений

ПРИГЛАШАТЬ;НА;КОНФЕРЕНЦИЯ;218ПРИГЛАШАТЬ;НА;КОНЦЕРТ;281ПРИГЛАШАТЬ;НА;КОНЬЯК;3ПРИГЛАШАТЬ;НА;КОРАБЛЬ;17ПРИГЛАШАТЬ;НА;КОРДОН;3ПРИГЛАШАТЬ;НА;КОРОНАЦИЯ;6

Page 15: клышинский

Словарь сочетаемостиПараметры Число сочетаний, млнглагол + сущ 23.27глагол + наречие 0.83деепр + сущ 2.74деепр + наречие 0.12причастие + сущ 6.48прич + наречие 0.24сущ + прил 5.71сущ + сущ 8.49

Page 16: клышинский

Словарь глагольного управления

3. Существительные, присоединенные к глаголу, могут быть неоднозначны по падежу. Оставляем конструкции с однозначными существительными и переходим к записям вида глагол+предлог+падеж. Считаем частотность таких конструкций.

ПРИГЛАШАТЬ;К;0*0*8950*21*17*5ПРИГЛАШАТЬ;КО;0*0*489*0*0*0ПРИГЛАШАТЬ;КРОМЕ;0*9*0*0*0*0ПРИГЛАШАТЬ;НА;0*0*0*30707*0*89ПРИГЛАШАТЬ;НАД;0*0*0*0*21*0ПРИГЛАШАТЬ;НАСЧЕТ;0*17*0*0*0*0

Page 17: клышинский

Словарь глагольного управления

После некоторой обработки с целью повышения качества мы получили около 425 000 подобных сочетаний (сюда включены и составные предлоги).

Page 18: клышинский

Словарь глагольного управления(плюсы)

Теперь мы знаем не только какие глаголы встречаются с какими предлогами, но и какие падежи возможны с данным предлогом (если их может быть несколько)

В;0*0*0*17881478*0*32320774

АННИГИЛИРОВАТЬ;В;0*0*0*13*0*129ноАНИМИРОВАТЬСЯ;В;0*0*0*0*0*5АНЕКСИРОВАТЬ;В;0*0*0*0*0*25АУКНУТЬ;В;0*0*0*17*0*0

Page 19: клышинский

Словарь глагольного управления(минусы)

Узус значительно отличается от грамматики

АДАПТИРОВАТЬСЯ;В;0*0*0*93*0*1925адаптироваться в жизнь

Но при этомАННИГИЛИРОВАТЬ;В;0*0*0*13*0*129Аннигилировать в пыль в космосе

Page 20: клышинский

Словарь глагольного управления(минусы)

В словаре не появились, например, «нести»+взаменвкосьвкругвнутри …

Потому что нести что-то взамен/вкруг/внутри чего-то

Page 21: клышинский

Что мы еще умеем

• Адъективное управлениеДовольный ответом• Прил+сущ/прил+сущМосковский военный оркестр противМосковская сторожевая оркестраноИзвестный ученый кот против Известного ученого Иванова Но фильтры помогают восстановить истину

Page 22: клышинский

Чего мы не умеем

• Сущ+сущ (дат.п.) Посвятить памятник Пушкину• Работа с местоимениями (оно может делать

что угодно)• Работа с семантикой (ехать на юг на

конференцию)

Page 23: клышинский

Другие языки

Мы взяли новости Reuters за 2007 год. Анализ проводился при помощи nltk со снятием неоднозначности.

Из примерно 120 млн словоупотреблений было выделено 1,2 млн различных сочетаний.Результат сопоставим с полученным для русского языка без снятия омонимии.

Page 24: клышинский

Спасибо за внимание!