Ontologies for Information Extraction

Post on 11-Jun-2015

1.669 views 5 download

Transcript of Ontologies for Information Extraction

Роль онтологий в извлечении

фактографической информации

Санкт-Петербургский государственный университет

Филологический факультетЛаборатория информационных систем в

искусстве и гуманитарных науках

Лидия Пивоварова

Прикладные онтологии

Information Extraction

Прикладные онтологии

Варианты определенийОнтология – прикладная, инженерная,

вычислительная... даже когда мы опускаем эпитет, мы не имеем в виду философию.

Онтология – спецификация концептуализации (Т. Gruber, 1992).

Онтология – это формальное описание концептов и отношений предметной области, для которой разрабатывается интеллектуальная система.

Онтология – это «понятийный словарь», т. е. такой словарь, где единицей описания являются не слова, а понятия.

Классификации1. Словарные vs. Энциклопедические (Т-

часть и А-часть)

2. Открытые vs. Закрытые

3. По охвату универсума знаний– Мета-онтологии и top-level онтологии– Универсальные– Отраслевые (ориентированные на

предметную область)– Узкоспециализированные

(ориентированные на конкретную задачу)

Общепринятые подходы• Top-level

НЕЧТО

ПроцессОбъект Отношение

• SUMO (IEEE)

• DOLCE (Nicola Guarino)

• Mikrokosmos (Nirenburg & Raskin)

• Онтология John Sowa

Общепринятые подходы• Мета-онтологияОнтология может Онтология может принимать различные формы, принимать различные формы, но она с необходимостью но она с необходимостью включает включает словарь терминовсловарь терминов и некоторую и некоторую спецификацию спецификацию ихих значений значений. Спецификация . Спецификация включает включает определенияопределения и и указания на указания на отношенияотношения между концептами, что между концептами, что позволяет структурировать позволяет структурировать предметную область и предметную область и ограничить возможную ограничить возможную интерпретацию терминов интерпретацию терминов ((Jasper RJasper R., ., Uschold MUschold M., ., A Framework A Framework for Understanding and Classifying for Understanding and Classifying Ontology Applications Ontology Applications 1999)1999) Noy N., McGuiness D. Ontology Development 101

Наш подход

Рубашкин В. Ш. Признак и значение // Научно-техническая информация Сер. 2 Информационные процессы и системы – 1976 - №3 – с. 3 – 10

Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах – М.: Наука Гл. ред. Физ.-мат. Лит., 1989 – 192 с. – (Проблемы искусственного интеллекта) – ISBN – 5-02-01-4213-1

Дерево применимости признаковУзлы двух типов:• T-термин – наименование

признака• F-термин – значение признака

Связи• F→T – принадлежность

голубой → цвет глаз• T→F – условие применимости

форма → твердое тело →

→ агрегатное состояние

Объемные отношения понятий

Дерево признаков содержит информацию об:

Условиях применимостиэлектрон… лампочка… зеленый

Объемных отношенияхохотник…бизнесмен…слон

- частный случай - IS-A:охотник…бизнесмен…человек

Семантические примитивы

Методология

Information Extraction

– извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД)

Историческая справка1960е – 80е• Linguistic String Project (Нью-Йоркский

университет)• Система FRUMP (Йельский

университет)1980-е• Первые коммерческие системы:

ATRANS, JASPER, SCISOR.

Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval

1987-1997

• MUC (Message Understanding Conference) – выработка общих подходов к методологии и способам оценки систем извлечения информации из текста.

Год Источники Предметная область

MUC-1 1987 военные сводки военно-морские операции

MUC-2 1989 военные сводки военно-морские операции

MUC-3 1991 новости Террористическая активность

MUC-4 1992 новости Террористическая активность

MUC-5 1993 новости совместные предприятия, производство

MUC-6 1995 новости смена лидеров на рынке

MUC-7 1997 новости крушения самолетов, запуски ракет

Виды Information Extraction • Named Entity recognition - выделение

именованных сущностей• Coreference resolution - разрешение

кореференции• Template Element construction - добавление

атрибутов к сущностям, найденным на этапе NE, с использованием CO

• Template Relation construction – выявление связей между отдельными сущностями

• Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. (Cunningham H.)

Named Entity recognition:

ракета, вторник, доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед

Сoreference resolution:

доктор Биг Хед Хедэто → ракета

Template Element construction:

Ключ Объект Цвет Светоотражательные свойства

0267 Ракета Красная Блестящая

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.

Template Element construction:

Scenario Template production:

Ключ Объект Цвет Светоотражательные свойства

Изобретен

0267 Ракета Красная Блестящая 7824

Ключ ФИО Степень Работает Должность

7824 Биг Хед Красная 2345 452

Ключ Тип события

Объект Дата

18 Запуск 0267 Вторник

Оценка корректности поиска информации

Recall = Ncorrect /Nall-correct

Precision = Ncorrect /(Ncorrect + Nincorrect )

F-mera = (β2+1 )*r*p/(β2 * r+p)

• Named Entity recognition F<94%

• Coreference resolution F<62%

• Template Element construction F<87%

• Template Relation construction F<76%

• Scenario Template production F<51%

Роль онтологий в извлечении

фактографической информации

Методология Information ExtractionОсновной метод: поиск на основе текстовых

образцов (patterns).

Построение образцов – два подхода:

- основанный на знаниях (написание правил)

- основанный на машинном обучении (автоматическое порождение правил)

Наше решение: концептуальные образцы

Chai J. Y. et al. Two dimensional generalization in information extraction, 1999

Система Factors

Постановка задачиЗадача: извлечение из текстов СМИ

информации общественно-политической тематики.

Факторы - различные характеристики общественно-политической ситуации(около 100).

Значения факторов: • Количественные - число пенсионеров;

средний уровень заработной платы • Оценочные - социальная

напряженность; военные угрозы

Система Factors: - интеллектуальная среда для поддержки

работы эксперта-аналитика с текстами.

Режимы работы:• Автоматический• Диалоговый

ТЕКСТЫ FACTORS

Фактор Значение

Функциональность:1.Последовательное наращивание

распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой.

2.Легкость и простота редактирования и пополнения; визуальное представление информации.

3.Функциональная расширяемость и переносимость на другие проблемные и предметные области.

Образцы1. Текстовые – выделение в тексте

релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей)

2. Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное»)

3. Смешанные

Образцы• Фактор + значение

В основном для оценочных факторов социальная напряженность →

стихийный митинг

• Только фактор

Для количественных образцов:

уровень инфляции →

инфляция составила 4%

Поиск образцов в тексте

население ... право на труд ... ограничение

1) Поиск опорного элементанаселение ... право на труд ... ограничение

2) Поиск в окрестности других элементовнаселение ... право на труд ... ограничение

Для концептов образца – учет синонимовограничение = ограниченный, ограничить, ущемление

Параметры поиска предполагают отладку и настройку

Только фактор: поиск значенияСобственный признак фактора – концепт,

отвечающий на вопрос «количество (величина) чего?»

Уровень зарплаты → заработная платаТранспортные издержки → тратыЧисло пенсионеров → пенсионеры

Онтология: собственный признак ↔ единица измерениязаработная плата ↔ денежная единицапенсионеры ↔ без единиц

Общий алгоритм поиска

1) Поиск образца2) Определение собственного признака и

единиц измерения3) Поиск числа с единицей измерения4) Проверка соответствия единиц

измерения5) Если число не найдено – поиск слов

большой, маленький, растет, падает и их синонимов

6) Определение достоверности

Отладка алгоритма

- размеры релевантного фрагмента

- наличие в тексте собственного признака

- уровни достоверности

- подключение синтаксиса

DEMO

ОСНОВНЫЕ ССЫЛКИ• Gruber T. What is Ontology? - http://www-ksl.stanford.edu/kst/what-is-an-ontology.html

• SUMO - http://www.ontologyportal.org/

• DOLCE - http://www.loa-cnr.it/DOLCE.html

• Nirenburg S., Raskin V. Ontological Semantics -http://crl.nmsu.edu/Staff.pages/Technical/sergei/book/

• Sowa J. F. Knowledge Representation - http://www.jfsowa.com/krbook/index.htm

• Jasper R., Uschold M. A Framework for Understanding and Classifying Ontology Applications http://www.cs.man.ac.uk/~horrocks/Teaching/cs646/Papers/uschold99.pdf

• Noy N., McGuiness D. Ontology Development 101: A Guide to Creating Your First Ontology - http://protege.stanford.edu/publications/ontology_development/ontology101.html

• Рубашкин В. Ш. Некоторые работы на сайте ВИНИТИ - http://www.viniti.ru/cgi-bin/nti/nti.pl?action=search&query=%D0%F3%E1%E0%F8%EA%E8%ED&logic=1

• Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval - http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf

• MUC-7 Proceding - http://www-nlpir.nist.gov/related_projects/muc/proceedings/muc_7_toc.html

• Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf