Максим Литвинов
-
Upload
lidia-pivovarova -
Category
Documents
-
view
1.010 -
download
0
description
Transcript of Максим Литвинов
ПРИМЕНЕНИЕ МОДЕЛЕЙ ГЛАГОЛЬНОГО УПРАВЛЕНИЯ И ВЕРОЯТНОСТНЫХ ПРАВИЛ ПРИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВЛитвинов М.И.Московский институт электроники и математики, каф. ИТАС
Этапы автоматической обработки текста
Графематический анализ Морфологический анализ Предсинтаксический анализ Синтаксический анализ Семантический анализ
Виды морфологической разметки
Part of Speech (POS) tagging – частеречная разметка входного текста
Lemma tagging – разметка слов входного текста с учётом всех лексических параметров
Tag (тэг) – лемма словоформы с набором морфологических категорий (например: род, число, падеж).
Уровни представления текста
По В.А. Звегинцеву можно выделить следующие уровни анализа текста: Дифференциальный признак Фонема Слог Морфема Слово Словосочетание Предложение Дискурс (связанный текст)
Виды систем предсинтаксической обработки текста
Детерминированные Вероятностные Гибридные
Детерминированные системы (основанные на правилах)
Достоинства Относительно небольшое время на создание правил Малая вычислительная сложность
Недостатки Необходимость проверять набор правил на
непротиворечивость Необходимость модифицировать набор правил для
каждой предметной области Требуется участие лингвистов и экспертов
соответствующей предметной области
Вероятностные системы
Достоинства Описывают редкие явления в естественном языке,
которые не могут быть представлены с помощью правил
Недостатки Требуется существенное время на создание
эталонных корпусов Требуется участие большого количества
квалифицированных лингвистов и инженеров Отсутствуют корпуса для узкоспециализированных
предметных областей Требуется гораздо больше вычислительных ресурсов,
чем для систем основанных на правилах
Вероятностные классификаторы при морфологической разметке текста
Наивный классификатор Байеса
, где F – набор параметров, представляющих контекст, S – значение омонимичного слова.
Скрытая Марковская модель
, где N – порядок Марковской модели
)|()(),,...,,(1
21 SFPSPSFFFP i
n
in
)|(*...*)|(*)|(maxarg)( 21 Niiiiiii wwPwwPwwPwP
Способы сокращения вычислений при разметке текста
Упрощающие эвристики при вычислении наиболее вероятной последовательности тэгов Алгоритм EM Алгоритм Баума-Уолша (частный случай EM
алгоритма) Алгоритм А* Алгоритм N лучших поисков и т.д.
Разбиение входного предложения на фрагменты и анализ каждого по отдельности
Выбор вероятностной модели на основе принципа максимальной энтропии
Согласно принципу максимальной энтропии, вид модели q(x) подбирается таким образом, чтобы максимизировать предмет энтропии H(q), не делая никаких дополнительных предположений для последовательности из N слов, не представленных в обучающей выборке. Принцип максимальной энтропии записывается в следующем виде:
Еще одна стандартная мера для сравнения моделей языка - это показатель связанности (perplexity) , который показывает среднее геометрическое количество слов, оказывающие влияние на неизвестное слово.
PP = 2H(q)
x
xqxqqH )(log)()(
Пример сглаживания вероятностей
Предположим, что есть биграмма «pig dog», которая не встречается в обучающем корпусе, но интуитивно мы хотим, чтобы такая биграмма имела шанс появиться, т.е. (pig dog)>0.
Предположим, что есть слово «Mateo», которое встречается в обучающем корпусе только после слова San, т.е. P(w? Mateo) = 0, но интуитивно мы хотим, чтобы P(w? Mateo) > 0.
Сглаженные вероятностные N-граммные модели
Общий вид выражения для сглаженной Марковской модели N-го порядка:
, где PML – оценка максимального правдоподобия для модели предыдущего порядка (порядка N-1), λ – положительные весовые коэффициенты. Сглаженная модель N-го порядка определяется рекурсивно как линейная интерполяция между моделью максимального правдоподобия и сглаженной моделью порядка N-1.
Сглаженная модель первого порядка:
, – частота появления слова, а V – размер словаря.
)|()1()|()|( 12int
11
11int 1
111
i
niierpw
iniiMLw
iniierp wwPwwPwwP i
niini
VwCP iML /)()( iwC
Другие виды вероятностных моделей
Модели, основанные на классах
где ci класс, ассоциированный со словом wi.
Машины Опорных Векторов (Support Vector Machines)
Нейронные сети
NCCC
i
N
iiiiN cwPccPwP
,...,, 11,1,1
21
)|()|()(
Обзор прикладных систем морфологической разметки
Зеленков Ю.Г., Сегалович И.В., Титов В.А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2005., 2005.
Jan Hajic, Barbora Hladka Tagging inflective languages: prediction of morphological categories for a rich, structured tagset // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1, 1998
Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог’2002. В двух томах. Т.2. “Прикладные проблемы”. – Москва, Наука, 2002.
Этапы снятия омонимии в программе «Кросслятор»
Проверка на сочетаемость со словами в предложении, которые априори известны
Применение вероятностных лексических правил
Итерационное применение вероятностных лексических правил
Гипотезы, положенные в основу метода наполнения лексической базы сочетаемости слов
Следующая за единственным глаголом группа существительного относится к данному глаголу.
Единственная группа существительного, расположенная перед единственным глаголом, относится к данному глаголу.
В тексте на русском языке должно быть представлено достаточно большое количество неомонимичных групп.
Прилагательные, стоящие между глаголом и существительным могут считаться принадлежащими существительному.
Само расположение групп с большой (но не стопроцентной) вероятностью позволяет говорить о корректности определения зависимостей.
Корпус текстов большого объема может гарантировать статистическую значимость результатов.
Состав лексической базы сочетаемости слов
Параметры Число сочетаний млн.
Гл. + сущ. 20.00
Гл. + нар. 1.05
Деепр. + сущ. 2.37
Деепр. + нар. 0.16
Прич. + сущ. 5.43
Прич. + нар. 0.28
Сущ. + прил. 4.88
Сущ.+сущ. 2.26
Пример предложения, для которого требуется провести морфологическую разметку
Необходимо поддерживать высокую степень интеграции с деловыми процессами и в то же время разделять систему на отдельные части так чтобы они могли использоваться на локальном уровне
(знаки препинания опущены)
Биграммная модель при проверке на сочетаемость слов в базе
При проверке на сочетаемость слов между собой в нашей системе используется следующая биграммная модель:
l где означает расстояние на котором может быть неизвестное слово от известного. Обычно величина варьируется в пределах 5-7 слов и позволяет учитывать дальнодействующие связи в предложении. Подчиненное слово должно находиться в этом окне, предлог должен предшествовать подчиненному слову, но между ними не должно быть главного слова. Кроме того, прилагательное должно согласовываться с существительным.
)|(maxarg)( liii wwPwP
Проверка на сочетаемость слов
ЧАСТИ [ ЧАСТЬ | noun | Существительное | $ = 1 ]
ЧАСТЬ | noun | Существительное | P = 1ЧАСТИТЬ | verb | глагол | P = 0
ЧАСТЬ | noun | Существительное РАЗДЕЛЯТЬ ЧАСТЬ 11 VERB+NOUNОТДЕЛЬНЫЙ ЧАСТЬ 33 ADJ+NOUNМОЧЬ ЧАСТЬ 49 VERB+NOUNИСПОЛЬЗОВАТЬСЯ ЧАСТЬ 15 VERB+NOUNЛОКАЛЬНЫЙ ЧАСТЬ 2 ADJ+NOUN
ЧАСТИТЬ | verb | глагол 0 вариантов
Вероятностные правила
Правило – это упорядоченная тройка <vi, vi+1, vi+2>, где vi = <pw, {pr}> – краткое описание слова, pw – часть речи слова, а {pr} – множество лексических параметров слова. В правиле не учитывается лексема слова, однако учитываются его лексические характеристики.
<vi -2, vi-1, vi> - по левым соседям
<vi -1, vi, vi+1> - по левому и правому соседу
<vi , vi+1, vi+2> - по правым соседям
Пример работы вероятностных правил
Необходимо определить часть речи для слова «и» в следующем контексте: « деловыми процессами и »
И [ И | союз | conj | P = 0.81 ]-=R: T2L T1L T=-
И | interj | междометие | interj | P = 0
И | particle | частица | particle | P = 0.19И | conj | союз | conj | P = 0.81
Rule 1 (adj noun conj ) 3134 Rule 2 (adj noun participle ) 732
Разбиение предложений на фрагменты и итерационное применение правил
Предположения , заложенные в основу метода разбиения предложения на фрагменты:- в русском языке около 30% словоупотреблений неомонимично.- вероятность встретить группу из двух неомонимичных слов достаточно высока, более того, она растет с длиной предложения. - при отсутствии таких групп при поиске глобального максимума первое слово в предложении косвенно влияет и на последнее слово. - при наличии таких групп подобная связь разрывается, и поиск глобального критерия можно вести по отдельным фрагментам предложения, что позволяет существенно повысить скорость работы алгоритма. -Оптимизация предложения как единого целого выглядит следующим образом:
где ns - число слов в предложении. Критерий оптимизации для предложения при оптимизации каждого фрагмента отдельно:
Где – вероятность встретить i-й фрагмент предложения с данным набором тэгов, nf – количество фрагментов в предложении, nfi – количество слов в i-м фрагменте. При этом используется информация не только о правых соседях, но, и о левых тоже.
))|(max(arg1
2,1
Ns
iiii vvvPPsent
))|(max(arg1
2,1
Nfi
iiii vvvPPfragmi
)(1
Nf
i
fragmiPPsent
Пример разбиения предложения на фрагменты
Фрагмент №1
деловыми процессами и в то же время разделять
Фрагмент №2
систему на отдельные части так чтобы они могли
Методы оценки тэггеров
Precision/точность - процент правильных ответов из всех выданных системой:
Precision = At / (At + Afa ), гдеAt – число правильно выданных ответов.Afa – число неправильно выданных ответов.
Accurancy/покрытие - процент правильных ответов из всей предложенной дорожки.
Accurancy = At / (At + Afa + Afn ),где Afn – число не выданных ответов.
F-measure – средняя гармоническая величина между полнотой и точностьюF = ( 1 + В ) Precision*Accurancy / ( B*Precision + Accurancy) , где В – весовой коэффициент.
Качество работы модуля морфологической разметки
Параметры Покрытие Качество
Триграммы 71.50 98.21
База 71.98 96.74
Правила 77.73 95.94
Триграммы + База 72.02 96.74
Триграммы + Правила 77.73 95.94
Триграммы + База + Правила
78.03 95.60
Триграммы + Правила+ Оптимизация
81.15 94.65
База + Правила 78.03 95.60
Правила + Оптимизация 81.15 94.65
База + Правила + Оптимизация
81.27 94.66
Триграммы + База + Правила + Оптимизация
81.27 94.66
Заключение
Получены следующие результаты: Разработан метод автоматического сбора
статистики совместного словоупотребления. Число полученных в базе сочетаний слов меньше
теоретической оценки количества триграмм. Разработан метод, позволяющий размечать тексты
любой предметной области Дальнейшее направление исследований – это
возможность получать правила по неразмеченному корпусу текстов