акинина осмоловская

17
Роль общей и специфической лексики при извлечении информации из текста Ю.Акинина, НИУ ВШЭ [email protected] А. Бонч-Осмоловская, НИУ ВШЭ [email protected] Конференция AINL: Искусственный Интеллект, Естественный Язык 26 мая 2012 года, Санкт-Петербург

description

Выступление Юлии Акининой и Анастасии Бонч-Осмоловской

Transcript of акинина осмоловская

Page 1: акинина осмоловская

Роль общей и специфической лексики при извлечении информации из текста

Ю.Акинина, НИУ ВШЭ[email protected]

А. Бонч-Осмоловская, НИУ ВШЭ[email protected]

Конференция AINL:Искусственный Интеллект, Естественный Язык

26 мая 2012 года, Санкт-Петербург

Page 2: акинина осмоловская

«Лексическая зависимость»

• Большинство задач, связанных с обработкой естественного языка, используют bag of words – списки релевантных слов

• Независимо от выбранного подхода, результат в очень большой степени зависит от качества списка слов

П Р Е А М Б У Л А

Page 3: акинина осмоловская

Гиперонимические отношения в предметных областях

• Существует множество предметных областей, в основе которых лежит гиперонимическая структура организации знания состоят из тематических подкатегорий событийный ряд, задающий отношения между

объектами (концептами, термами), универсален для всех категорий

П Р Е А М Б У Л А

Page 4: акинина осмоловская

Спорт

Футбол

Шахматы

Биатлон

мячголкиперворотаугловой

белыегроссмейстершахдебют

трассавинтовкалыжиэстафета

Забить гол

Поставить мат

Прийти первым

П

О

Б

Е

Д

И

Т

Ь

Специфическая лексика Универсальное событие

П Р Е А М Б У Л А

Page 5: акинина осмоловская

Проблема извлечения фактов для гиперонимической области знаний

• В идеале: каждой подкатегории соответствует свой релевантный список слов, описывающий события

• Добавление новой категории: лишняя работа?

Page 6: акинина осмоловская

Задача исследования

• Оценить вклад общей и специальной лексики в описания универсальных событий в узких тематических областях

Page 7: акинина осмоловская

План исследования

• Общая лексика в разных тематических подкатегориях эксперимент 1

• Специфическая лексика в одной тематической подкатегории эксперимент 2

сравнить с (1)

• Общая и специфическая лексика в одной тематической подкатегории

эксперимент 3 сравнить с (1) и (2)

Page 8: акинина осмоловская

4 корпуса

200 тематических текстов

200 случайных текстов

Размечены в GATE

Материал исследования• Область знаний: экономика предприятий

• Тематические подкатегории:

Ритейл БанкиСтроительствоЭлектроэнергетика

• Событие: ввод новых технологий

• Задача: извлечение NE с ролью инноватора

Компании «Пилот» и «Транзакционные Системы» выпускают комплексное решение для автоматической обработки международных платежных карт на на POS-системах .

ЭТАЛОН

Page 9: акинина осмоловская

Инструменты исследования

Лингвистический процессор OntosMinerПравила извлечения организаций-

инноваторов на основе ключевых слов Автоматически размеченные текстыАвтоматическое сравнение с эталоном с

помощью инструмента GATE AnnotationDiff

Page 10: акинина осмоловская

Методы получения списков слов• Выделение маркеров инноваторства

– Общие слова в нормализованных по частотности списках по 4 отраслям

– Сильные маркеры однозначно указывают на событиеинновационный, разрабатывать, оптимизировать

– Слабые маркеры указывают на событие лишь в комбинации с другими маркерами

презентовать, запустить, впервые, решение

– Сильные имеют вес 0,9– Слабые имеют вес 0,3– Порог определения события- > 0,8

Page 11: акинина осмоловская

Обработка текста

• Выделенные ключевые слова используются для правил, маркирующих предложения об инновациях

• Организация , извлекающаяся из того же предложения, определяется как инноватор

• Автоматическая разметка сравнивается с эталоном

Page 12: акинина осмоловская

correct missing spurious R P F

Ритейл 333 92 77 0,78 0,81 0,79

Банки 304 80 174 0,79 0,64 0,71

Строительство 169 94 62 0,64 0,73 0,68

Электроэнергетика

327 93 261 0,56 0,78 0,65

Эксперимент 1: результаты

Page 13: акинина осмоловская

Эксперимент 2

Вместо

универсальных

слов используется

экспертный список

технологий

ритейла.

Вес -> 0,9.

Page 14: акинина осмоловская

Эксперимент 2: результаты

сorrect missing spurious R P F

Эксп1 333 92 77 0,78 0,81 0,79

Эксп2 179 250 21 0,41 0,89 0,56

Page 15: акинина осмоловская

Эксперимент 3: результатыОбработка текстов с помощью двух списков

correct missing spurious R P F

Эксп.1Общая лексика

333 92 77 0,78 0,81 0,79

Эксп.2Специальная

лексика179 250 21 0,41 0,89 0,56

Эксп.3Два списка

360 71 82 0, 83 0,81 0,82

Page 16: акинина осмоловская

Общая и специальная лексика:

• Ключевые события так или иначе описаны общей лексикой. Специфическая лексика редко маркирует события сама по себе

В сети магазинов товаров для дома «Уютерра»

стартовал проект внедрения аналитической

системы SAP BusinessObjects.

Page 17: акинина осмоловская

Выводы

• Универсальная лексика дает неплохие

результаты F=0,65-0,79

• Добавление специфической лексики не дает

существенных улучшений: F=0,79 vs F=0,82

• Использование двух типов лексики в рамках

одного предложения