I M S Rubashkin

28
О МЕТОДОЛОГИИ НАПОЛНЕНИЯ ОНТОЛОГИЙ Рубашкин В. Ш. кафедра информационных систем в искусстве и гуманитарных науках Факультет филологии и искусств СПбГУ

Transcript of I M S Rubashkin

О МЕТОДОЛОГИИ НАПОЛНЕНИЯ ОНТОЛОГИЙ

Рубашкин В. Ш.кафедра информационных систем в искусстве и гуманитарных науках

Факультет филологии и искусств СПбГУ

Общая ситуация: «Технология впереди методологии»

Концептуальное моделирование – область, не имеющая прочных дисциплинарных традиций. «Междисциплинарная» или «бездисциплинарная»?«Где готовят…?»«Инженерия знаний»?

Языковый комплекс RDF/OWL превращается в стандарт де-факто для сетевого представления знаний.

Как применять?...

Границы приличий…

Как наполнять зависит от ответа на вопрос что должно наполняться.

Единого ответа пока нет.

Поэтому приходится начинать с вопроса о востребованной функциональности онтологии.

Целевые технологииЦелевые технологии

• Первоначальная целевая технология – документальные ИПС. Ближайший прототип онтологий – информационно-поисковые тезаурусы.

Целевые технологииЦелевые технологии

Два направления использования:

• Разработка новых информационных технологий

• Совершенствование традиционных информационных технологий

Целевые технологииЦелевые технологии

Новые:

• Системы концептуального доступа к информационным ресурсам.

- семантический поиск (Semantic Web);

- Концептуальный уровень доступа к данным (концептуальные схемы данных - организация прозрачного для смысла доступа к разнородным информационным ресурсам).

• Вопросно-ответные системы

• Автоматический анализ текста (извлечение знаний) (включая Information Extraction ).

Целевые технологииЦелевые технологии

Новые:

Семантический поиск (Semantic Web) – унификация и формализация описаний:

– Лексическая унификация

– Синтаксическая унификация (RDF)

– Логическая формализация

– Содержательная унификация (ср. Wiki)

Целевые технологииЦелевые технологии

Традиционные:

Автоматический перевод: 1. Выбор правильного переводного эквивалента 2. Поддержка синтаксического анализа.3. Поддержка перевода "по прецедентам" (генерализация образцов).

OCR и Speech Recognition:1. Семантические фильтры (на лексическом и грамматическом уровнях)2. Поиск подходящего прецедента (генерализация образцов).

Грамматический корректор:1. Проверка семантических согласований в синтаксических связях.2. Проверка наличия семантически обязательных элементов в предложении. 3. Поиск подходящего прецедента (генерализация образцов).

Содержательная функциональностьСодержательная функциональность• Унификация терминологии.

• Представление и логическая обработка таксономических отношений.

• Представление и логическая обработка отношений объемной совместимости/несовместимости (!)

• Представление и логическая обработка предметно-ассоциативных отношений.

• Поддержка представления и логической обработки количественных данных.

• Регламентация процедур описания объектов.

• Аксиоматизация описаний процессов, причинных связей, процедур

Функциональность двух последних типов в большинстве онтологий отсутствует вообще или реализована не полностью.

Содержательная функциональностьСодержательная функциональность

• Смысловое расширение запроса – функция НИЖЕ (К): хищник лев, тигр, волк, шакал,…),функция АССОЦИИРОВАНЫ_С (К): (автомобиль

колесо, кузов, мотор, пассажир, груз, шофер, дорога, …). • Установление соответствий признак – значение признака;

признак – единица измерения; пересчет к стандартной единице измерения.

• Установление отношения объемной совместимости между концептами: для пары концептов К1, К2 вычислить объемное отношение между ними (совместимость, несовместимость, включение).

Функциональность двух последних типов в большинстве онтологий отсутствует вообще или реализована не полностью.

• классы - таксономия

• собственно свойства (DatatypeProperty) - область применимости (domain) и область значений (range)

• бинарные отношения (ObjectProperty) - область определения (пара domain, range);

• индивиды (экземпляры) - отнесение к классу и значение некоторых релевантных классу свойств.

Язык OWLЯзык OWL

Как поступать с реальной терминологией, чтобы описать ее средствами OWL?

Немногие примеры, предлагаемые в качестве образца и методического руководства и имеющие один источник

OWL Web Ontology Language Guide http://www.w3.org/TR/2004/REC-owl-guide-20040210/

бродят по всему Интернету и воспроизводятся в тысячах документов.

– «Виноделие» – «Пицца»

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Natalya Noy - так приходит слава!

установление отношения объемной совместимости между концептами. В OWL для этого имеется конструкция disjointWith.

Конкретный пример – определение несовместимости понятий через использование конструкции DisjointWith

<owl:Class rdf:ID="Паста"> <rdfs:subClassOf rdf:resource="#Съестное"/> <owl:disjointWith rdf:resource="#Мясо"/> <owl:disjointWith rdf:resource="#Дичь"/> <owl:disjointWith rdf:resource="#Морепродукты"/> <owl:disjointWith rdf:resource="#Десерт"/> <owl:disjointWith rdf:resource="#Фрукты"/></owl:Class>

«каждый с каждым»?- Ср. «Русский семантический словарь»!

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологииВ случаях, когда требуется описать взаимную несовместимость большого набора

классов, рекомендуется использовать специальный прием. Определять подклассы, у экземпляров которых может быть только одно

название. В соответствии с этим ограничением классы с разными названиями оказываются

взаимно несовместимыми:

<owl:Class rdf:ID="Reptile"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty> <owl:DatatypeProperty rdf:ID="family-name"/> </owl:onProperty> <owl:cardinality rdf:datatype =

"http://www.w3.org/2001/XMLSchema#int">1</owl:cardinality> </owl:Restriction> </rdfs:subClassOf> </owl:Class>

OWL Web Ontology Language Test Cases http://www.w3.org/TR/2004/REC-owl-test-20040210/

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Далее можно определять несовмесимые подклассы рептилий:<owl:Class rdf:about="#Amphisbaenidae"> <rdfs:subClassOf rdf:resource="#Reptile" /> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#family-name"/> <owl:hasValue>Amphisbaenidae</owl:hasValue> </owl:Restriction> </rdfs:subClassOf> </owl:Class>

<owl:Class rdf:about="#Agamidae"> <rdfs:subClassOf rdf:resource="#Reptile" /> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#family-name"/> <owl:hasValue>Agamidae</owl:hasValue> </owl:Restriction> </rdfs:subClassOf> </owl:Class>

и т.д.

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

При таком описании все подклассы исходного класса обязаны быть несовместимыми. Что исключает возможность многоаспектной классификации. (DisjointUnionOf в OWL отсутствует.)

Макротело - красный

- синий- зеленый- …- тяжелый- легкий- …- твердый- жидкий- газ

Так таксономия OWL может только констатировать, что все перечисляемое есть подклассы класса Макротело.

Нужно:Совместимость признаков и несовместимость их значений

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Возникают трудности и с формализацией вопросно-ответных соответствий.

(Потеряна связь с соответствующими признаками: цвет, вес, агрегатное состояние, форма)

Чтобы восстановить эту связь, свойство цвет придется определить так:

<owl:ObjectProperty rdf:ID = ”Цвет”><rdf:type rdf:resource="&owl:FunctionalProperty" /><rdfs:domain rdf:resource = ”# Макротело” /><rdfs:range rdf:resource = ”# Макротело”/>

</owl:ObjectProperty>

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Для вопроса Какого цвета (этот) шар? необходимо формально отграничить

корректные ответы (Шар красный) от некорректных (Шар тяжелый, Шар твердый и т. д.).

Ср. *Какого цвета (этот) синий шар?

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

При традиционном использовании OWL остается одна возможность - сформировать искусственные подклассы и переопределить в терминах этих подклассов области значений всех релевантных для исходного класса Макротело признаков:

Макротело - Тела имеющие цвет

-- красный -- синий

-- зеленый-- …

- Тела имеющие вес-- тяжелый-- легкий-- …

- Тела, характеризующиеся агрегатным состоянием--твердый-- жидкий-- газ

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Признак Цвет теперь можно теперь уточнить так:

<owl:ObjectProperty rdf:ID = ”Цвет”><rdf:type rdf:resource="&owl;FunctionalProperty" /><rdfs:domain rdf:resource = ”# Макротело” /><rdfs:range rdf:resource = ”# Тела имеющие цвет”/>

</owl:ObjectProperty>

В примере «Виноделие» значения свойства WineColor (красный, белый, розовый, …) неестественным образом предлагается определять как индивиды) !

Неудобства:• Для каждого списка классов-значений нужен свой объединяющий класс.• Отношение применимости свойства к объектам не имеет наглядного представления • Некоторые объединяющие классы могут оказаться равнообъемными. Ср. Тела имеющие цвет и Макротело.

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Следующий естественный шаг:Макротело

- по цвету:-- красный

-- синий-- зеленый-- …

- по весу:-- тяжелый-- легкий-- …

- по агрегатному состоянию:--твердый-- жидкий-- газ-- …

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

И далее превращаем в дерево признаков:Макротело

- по цвету:-- красный

-- синий-- зеленый-- …

- по весу:-- тяжелый-- легкий-- …

- по агрегатному состоянию:--твердый

-- жидкий-- газ-- …

- по форме:-- шар-- пирамида

.-- …

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Состав собственно таксономии:терминология предметной области или специально конструируемое "дерево признаков"?

Чаще всего набор предметных имен не может быть упорядочен в одном аспекте, но может быть описан в некотором пространстве «призначных координат».

Техническое устройство: описание в двух аспектах – - функциональность - принцип действия (способ реализации функции).

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Для конкретных классов объектов обычно возникают специализированные аспекты классификации.

Транспортные средства: - среда перемещения (наземный, водный, воздушный транспорт); - источник энергии движения (электротранспорт, топливосжигающий транспорт,

ветровой транспорт, мускульный транспорт, …). Воздушный транспорт: - способ создания подъемной силы

(самолет, вертолет, аэростат).

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Конкретные названия будут определяться в терминах релевантных таксономических классов.

Троллейбус НЕРЕЛЬСОВЫЙ & ЭЛЕКТРИЧЕСКИЙ & ПАССАЖИРСКИЙ &

БЕЗ_АВТОНОМНОГО ИСТОЧНИКА ЭНЕРГИИ

Язык OWLЯзык OWL и наполнениеи наполнение онтологиионтологии

Сами имена таксономических классов зачастую вообще не имеют явного представления в профессиональном языке - конструктор онтологии вынужден заниматься терминотворчеством (не всегда удовлетворительным с чисто языковой точки зрения, но неизбежным).

SUMO – MILO: SelfPoweredRoadVehicle

(subclass SelfPoweredRoadVehicle RoadVehicle)(subclass SelfPoweredRoadVehicle PoweredVehicle)(documentation SelfPoweredRoadVehicle EnglishLanguage " … &%SelfPoweredRoadVehicle covers motorcycles, semi-trailers, RVs, etc., as well as Automobiles. This class includes vehicles powered by electricity, gasoline, diesel, and other fuels.")

Общие рекомендацииОбщие рекомендации

1) 1) Объектом формализации должны быть не отдельные термины, а Объектом формализации должны быть не отдельные термины, а терминосистемы, представляющие определенную предметную терминосистемы, представляющие определенную предметную область. Формализация должна быть одинаковой для всего ряда область. Формализация должна быть одинаковой для всего ряда однотипных языковых явлений. однотипных языковых явлений.

2) 2) Формализация частных терминосистем должна опираться на Формализация частных терминосистем должна опираться на хорошо выстроенную онтологию верхнего уровняхорошо выстроенную онтологию верхнего уровня

Действия по формализации частных терминосистемДействия по формализации частных терминосистем

1) Содержательный анализ словарных определений и вычленение из них базовых признаков и других информационно значимых элементов.

2) Построение иерархической системы базовых признаков для рассматриваемой предметной области ("дерева признаков").

3) Логическая реконструкция словарных определений в терминах построенной на этапе 2 системы базовых признаков.

4) Перевод полученных толкований на язык описания лексики, принятый в онторедакторе.

Логический контроль должен быть "зашит" в технологию ввода; должен не обнаруживать ошибки, а предотвращать их появление.