Максим Литвинов

27
ПРИМЕНЕНИЕ МОДЕЛЕЙ ГЛАГОЛЬНОГО УПРАВЛЕНИЯ И ВЕРОЯТНОСТНЫХ ПРАВИЛ ПРИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ Литвинов М.И. Московский институт электроники и математики, каф. ИТАС

description

Модели глагольного управления

Transcript of Максим Литвинов

Page 1: Максим Литвинов

ПРИМЕНЕНИЕ МОДЕЛЕЙ ГЛАГОЛЬНОГО УПРАВЛЕНИЯ И ВЕРОЯТНОСТНЫХ ПРАВИЛ ПРИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВЛитвинов М.И.Московский институт электроники и математики, каф. ИТАС

Page 2: Максим Литвинов

Этапы автоматической обработки текста

Графематический анализ Морфологический анализ Предсинтаксический анализ Синтаксический анализ Семантический анализ

Page 3: Максим Литвинов

Виды морфологической разметки

Part of Speech (POS) tagging – частеречная разметка входного текста

Lemma tagging – разметка слов входного текста с учётом всех лексических параметров

Tag (тэг) – лемма словоформы с набором морфологических категорий (например: род, число, падеж).

Page 4: Максим Литвинов

Уровни представления текста

По В.А. Звегинцеву можно выделить следующие уровни анализа текста: Дифференциальный признак Фонема Слог Морфема Слово Словосочетание Предложение Дискурс (связанный текст)

Page 5: Максим Литвинов

Виды систем предсинтаксической обработки текста

Детерминированные Вероятностные Гибридные

Page 6: Максим Литвинов

Детерминированные системы (основанные на правилах)

Достоинства Относительно небольшое время на создание правил Малая вычислительная сложность

Недостатки Необходимость проверять набор правил на

непротиворечивость Необходимость модифицировать набор правил для

каждой предметной области Требуется участие лингвистов и экспертов

соответствующей предметной области

Page 7: Максим Литвинов

Вероятностные системы

Достоинства Описывают редкие явления в естественном языке,

которые не могут быть представлены с помощью правил

Недостатки Требуется существенное время на создание

эталонных корпусов Требуется участие большого количества

квалифицированных лингвистов и инженеров Отсутствуют корпуса для узкоспециализированных

предметных областей Требуется гораздо больше вычислительных ресурсов,

чем для систем основанных на правилах

Page 8: Максим Литвинов

Вероятностные классификаторы при морфологической разметке текста

Наивный классификатор Байеса

, где F – набор параметров, представляющих контекст, S – значение омонимичного слова.

Скрытая Марковская модель

, где N – порядок Марковской модели

)|()(),,...,,(1

21 SFPSPSFFFP i

n

in

)|(*...*)|(*)|(maxarg)( 21 Niiiiiii wwPwwPwwPwP

Page 9: Максим Литвинов

Способы сокращения вычислений при разметке текста

Упрощающие эвристики при вычислении наиболее вероятной последовательности тэгов Алгоритм EM Алгоритм Баума-Уолша (частный случай EM

алгоритма) Алгоритм А* Алгоритм N лучших поисков и т.д.

Разбиение входного предложения на фрагменты и анализ каждого по отдельности

Page 10: Максим Литвинов

Выбор вероятностной модели на основе принципа максимальной энтропии

Согласно принципу максимальной энтропии, вид модели q(x) подбирается таким образом, чтобы максимизировать предмет энтропии H(q), не делая никаких дополнительных предположений для последовательности из N слов, не представленных в обучающей выборке. Принцип максимальной энтропии записывается в следующем виде:

Еще одна стандартная мера для сравнения моделей языка - это показатель связанности (perplexity) , который показывает среднее геометрическое количество слов, оказывающие влияние на неизвестное слово.

PP = 2H(q)

x

xqxqqH )(log)()(

Page 11: Максим Литвинов

Пример сглаживания вероятностей

Предположим, что есть биграмма «pig dog», которая не встречается в обучающем корпусе, но интуитивно мы хотим, чтобы такая биграмма имела шанс появиться, т.е. (pig dog)>0.

Предположим, что есть слово «Mateo», которое встречается в обучающем корпусе только после слова San, т.е. P(w? Mateo) = 0, но интуитивно мы хотим, чтобы P(w? Mateo) > 0.

Page 12: Максим Литвинов

Сглаженные вероятностные N-граммные модели

Общий вид выражения для сглаженной Марковской модели N-го порядка:

, где PML – оценка максимального правдоподобия для модели предыдущего порядка (порядка N-1), λ – положительные весовые коэффициенты. Сглаженная модель N-го порядка определяется рекурсивно как линейная интерполяция между моделью максимального правдоподобия и сглаженной моделью порядка N-1.

Сглаженная модель первого порядка:

, – частота появления слова, а V – размер словаря.

)|()1()|()|( 12int

11

11int 1

111

i

niierpw

iniiMLw

iniierp wwPwwPwwP i

niini

VwCP iML /)()( iwC

Page 13: Максим Литвинов

Другие виды вероятностных моделей

Модели, основанные на классах

где ci класс, ассоциированный со словом wi.

Машины Опорных Векторов (Support Vector Machines)

Нейронные сети

NCCC

i

N

iiiiN cwPccPwP

,...,, 11,1,1

21

)|()|()(

Page 14: Максим Литвинов

Обзор прикладных систем морфологической разметки

Зеленков Ю.Г., Сегалович И.В., Титов В.А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2005., 2005.

Jan Hajic, Barbora Hladka Tagging inflective languages: prediction of morphological categories for a rich, structured tagset // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1, 1998

Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог’2002. В двух томах. Т.2. “Прикладные проблемы”. – Москва, Наука, 2002.

Page 15: Максим Литвинов

Этапы снятия омонимии в программе «Кросслятор»

Проверка на сочетаемость со словами в предложении, которые априори известны

Применение вероятностных лексических правил

Итерационное применение вероятностных лексических правил

Page 16: Максим Литвинов

Гипотезы, положенные в основу метода наполнения лексической базы сочетаемости слов

Следующая за единственным глаголом группа существительного относится к данному глаголу.

Единственная группа существительного, расположенная перед единственным глаголом, относится к данному глаголу.

В тексте на русском языке должно быть представлено достаточно большое количество неомонимичных групп.

Прилагательные, стоящие между глаголом и существительным могут считаться принадлежащими существительному.

Само расположение групп с большой (но не стопроцентной) вероятностью позволяет говорить о корректности определения зависимостей.

Корпус текстов большого объема может гарантировать статистическую значимость результатов.

Page 17: Максим Литвинов

Состав лексической базы сочетаемости слов

Параметры Число сочетаний млн.

Гл. + сущ. 20.00

Гл. + нар. 1.05

Деепр. + сущ. 2.37

Деепр. + нар. 0.16

Прич. + сущ. 5.43

Прич. + нар. 0.28

Сущ. + прил. 4.88

Сущ.+сущ. 2.26

Page 18: Максим Литвинов

Пример предложения, для которого требуется провести морфологическую разметку

Необходимо поддерживать высокую степень интеграции с деловыми процессами и в то же время разделять систему на отдельные части так чтобы они могли использоваться на локальном уровне

(знаки препинания опущены)

Page 19: Максим Литвинов

Биграммная модель при проверке на сочетаемость слов в базе

При проверке на сочетаемость слов между собой в нашей системе используется следующая биграммная модель:

l где означает расстояние на котором может быть неизвестное слово от известного. Обычно величина варьируется в пределах 5-7 слов и позволяет учитывать дальнодействующие связи в предложении. Подчиненное слово должно находиться в этом окне, предлог должен предшествовать подчиненному слову, но между ними не должно быть главного слова. Кроме того, прилагательное должно согласовываться с существительным.

)|(maxarg)( liii wwPwP

Page 20: Максим Литвинов

Проверка на сочетаемость слов

ЧАСТИ [ ЧАСТЬ | noun | Существительное | $ = 1 ]

ЧАСТЬ | noun | Существительное | P = 1ЧАСТИТЬ | verb | глагол | P = 0

ЧАСТЬ | noun | Существительное РАЗДЕЛЯТЬ ЧАСТЬ 11 VERB+NOUNОТДЕЛЬНЫЙ ЧАСТЬ 33 ADJ+NOUNМОЧЬ ЧАСТЬ 49 VERB+NOUNИСПОЛЬЗОВАТЬСЯ ЧАСТЬ 15 VERB+NOUNЛОКАЛЬНЫЙ ЧАСТЬ 2 ADJ+NOUN

ЧАСТИТЬ | verb | глагол 0 вариантов

Page 21: Максим Литвинов

Вероятностные правила

Правило – это упорядоченная тройка <vi, vi+1, vi+2>, где vi = <pw, {pr}> – краткое описание слова, pw – часть речи слова, а {pr} – множество лексических параметров слова. В правиле не учитывается лексема слова, однако учитываются его лексические характеристики.

<vi -2, vi-1, vi> - по левым соседям

<vi -1, vi, vi+1> - по левому и правому соседу

<vi , vi+1, vi+2> - по правым соседям

Page 22: Максим Литвинов

Пример работы вероятностных правил

Необходимо определить часть речи для слова «и» в следующем контексте: « деловыми процессами и »

И [ И | союз | conj | P = 0.81 ]-=R: T2L T1L T=-

И | interj | междометие | interj | P = 0

И | particle | частица | particle | P = 0.19И | conj | союз | conj | P = 0.81

Rule 1 (adj noun conj ) 3134 Rule 2 (adj noun participle ) 732

Page 23: Максим Литвинов

Разбиение предложений на фрагменты и итерационное применение правил

Предположения , заложенные в основу метода разбиения предложения на фрагменты:- в русском языке около 30% словоупотреблений неомонимично.- вероятность встретить группу из двух неомонимичных слов достаточно высока, более того, она растет с длиной предложения. - при отсутствии таких групп при поиске глобального максимума первое слово в предложении косвенно влияет и на последнее слово. - при наличии таких групп подобная связь разрывается, и поиск глобального критерия можно вести по отдельным фрагментам предложения, что позволяет существенно повысить скорость работы алгоритма. -Оптимизация предложения как единого целого выглядит следующим образом:

где ns - число слов в предложении. Критерий оптимизации для предложения при оптимизации каждого фрагмента отдельно:

Где – вероятность встретить i-й фрагмент предложения с данным набором тэгов, nf – количество фрагментов в предложении, nfi – количество слов в i-м фрагменте. При этом используется информация не только о правых соседях, но, и о левых тоже.

))|(max(arg1

2,1

Ns

iiii vvvPPsent

))|(max(arg1

2,1

Nfi

iiii vvvPPfragmi

)(1

Nf

i

fragmiPPsent

Page 24: Максим Литвинов

Пример разбиения предложения на фрагменты

Фрагмент №1

деловыми процессами и в то же время разделять

Фрагмент №2

систему на отдельные части так чтобы они могли

Page 25: Максим Литвинов

Методы оценки тэггеров

Precision/точность - процент правильных ответов из всех выданных системой:

Precision = At / (At + Afa ), гдеAt – число правильно выданных ответов.Afa – число неправильно выданных ответов.

Accurancy/покрытие - процент правильных ответов из всей предложенной дорожки.

Accurancy = At / (At + Afa + Afn ),где Afn – число не выданных ответов.

F-measure – средняя гармоническая величина между полнотой и точностьюF = ( 1 + В ) Precision*Accurancy / ( B*Precision + Accurancy) , где В – весовой коэффициент.

Page 26: Максим Литвинов

Качество работы модуля морфологической разметки

Параметры Покрытие Качество

Триграммы 71.50 98.21

База 71.98 96.74

Правила 77.73 95.94

Триграммы + База 72.02 96.74

Триграммы + Правила 77.73 95.94

Триграммы + База + Правила

78.03 95.60

Триграммы + Правила+ Оптимизация

81.15 94.65

База + Правила 78.03 95.60

Правила + Оптимизация 81.15 94.65

База + Правила + Оптимизация

81.27 94.66

Триграммы + База + Правила + Оптимизация

81.27 94.66

Page 27: Максим Литвинов

Заключение

Получены следующие результаты: Разработан метод автоматического сбора

статистики совместного словоупотребления. Число полученных в базе сочетаний слов меньше

теоретической оценки количества триграмм. Разработан метод, позволяющий размечать тексты

любой предметной области Дальнейшее направление исследований – это

возможность получать правила по неразмеченному корпусу текстов