Алена Осмоловская Охота за клиентом на молодом инвестиционном рынке в кризисных условиях
акинина осмоловская
-
Upload
nlpseminar -
Category
Documents
-
view
763 -
download
0
description
Transcript of акинина осмоловская
Роль общей и специфической лексики при извлечении информации из текста
Ю.Акинина, НИУ ВШЭ[email protected]
А. Бонч-Осмоловская, НИУ ВШЭ[email protected]
Конференция AINL:Искусственный Интеллект, Естественный Язык
26 мая 2012 года, Санкт-Петербург
«Лексическая зависимость»
• Большинство задач, связанных с обработкой естественного языка, используют bag of words – списки релевантных слов
• Независимо от выбранного подхода, результат в очень большой степени зависит от качества списка слов
П Р Е А М Б У Л А
Гиперонимические отношения в предметных областях
• Существует множество предметных областей, в основе которых лежит гиперонимическая структура организации знания состоят из тематических подкатегорий событийный ряд, задающий отношения между
объектами (концептами, термами), универсален для всех категорий
П Р Е А М Б У Л А
Спорт
Футбол
Шахматы
Биатлон
мячголкиперворотаугловой
белыегроссмейстершахдебют
трассавинтовкалыжиэстафета
Забить гол
Поставить мат
Прийти первым
П
О
Б
Е
Д
И
Т
Ь
Специфическая лексика Универсальное событие
П Р Е А М Б У Л А
Проблема извлечения фактов для гиперонимической области знаний
• В идеале: каждой подкатегории соответствует свой релевантный список слов, описывающий события
• Добавление новой категории: лишняя работа?
Задача исследования
• Оценить вклад общей и специальной лексики в описания универсальных событий в узких тематических областях
План исследования
• Общая лексика в разных тематических подкатегориях эксперимент 1
• Специфическая лексика в одной тематической подкатегории эксперимент 2
сравнить с (1)
• Общая и специфическая лексика в одной тематической подкатегории
эксперимент 3 сравнить с (1) и (2)
4 корпуса
200 тематических текстов
200 случайных текстов
Размечены в GATE
Материал исследования• Область знаний: экономика предприятий
• Тематические подкатегории:
Ритейл БанкиСтроительствоЭлектроэнергетика
• Событие: ввод новых технологий
• Задача: извлечение NE с ролью инноватора
Компании «Пилот» и «Транзакционные Системы» выпускают комплексное решение для автоматической обработки международных платежных карт на на POS-системах .
ЭТАЛОН
Инструменты исследования
Лингвистический процессор OntosMinerПравила извлечения организаций-
инноваторов на основе ключевых слов Автоматически размеченные текстыАвтоматическое сравнение с эталоном с
помощью инструмента GATE AnnotationDiff
Методы получения списков слов• Выделение маркеров инноваторства
– Общие слова в нормализованных по частотности списках по 4 отраслям
– Сильные маркеры однозначно указывают на событиеинновационный, разрабатывать, оптимизировать
– Слабые маркеры указывают на событие лишь в комбинации с другими маркерами
презентовать, запустить, впервые, решение
– Сильные имеют вес 0,9– Слабые имеют вес 0,3– Порог определения события- > 0,8
Обработка текста
• Выделенные ключевые слова используются для правил, маркирующих предложения об инновациях
• Организация , извлекающаяся из того же предложения, определяется как инноватор
• Автоматическая разметка сравнивается с эталоном
correct missing spurious R P F
Ритейл 333 92 77 0,78 0,81 0,79
Банки 304 80 174 0,79 0,64 0,71
Строительство 169 94 62 0,64 0,73 0,68
Электроэнергетика
327 93 261 0,56 0,78 0,65
Эксперимент 1: результаты
Эксперимент 2
Вместо
универсальных
слов используется
экспертный список
технологий
ритейла.
Вес -> 0,9.
Эксперимент 2: результаты
сorrect missing spurious R P F
Эксп1 333 92 77 0,78 0,81 0,79
Эксп2 179 250 21 0,41 0,89 0,56
Эксперимент 3: результатыОбработка текстов с помощью двух списков
correct missing spurious R P F
Эксп.1Общая лексика
333 92 77 0,78 0,81 0,79
Эксп.2Специальная
лексика179 250 21 0,41 0,89 0,56
Эксп.3Два списка
360 71 82 0, 83 0,81 0,82
Общая и специальная лексика:
• Ключевые события так или иначе описаны общей лексикой. Специфическая лексика редко маркирует события сама по себе
В сети магазинов товаров для дома «Уютерра»
стартовал проект внедрения аналитической
системы SAP BusinessObjects.
Выводы
• Универсальная лексика дает неплохие
результаты F=0,65-0,79
• Добавление специфической лексики не дает
существенных улучшений: F=0,79 vs F=0,82
• Использование двух типов лексики в рамках
одного предложения