СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

15
СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ Метахаус

description

СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ. Метахаус. ВЕРТИКАЛЬНЫЙ ПОИСК. Ориентирован на определенную область Данные хранятся с учетом структуры предметной области Позволяет более точно задать запрос Возможность фильтрации, сортировки . ПРИМЕР. ПРИМЕРЫ ЗАПРОСОВ. - PowerPoint PPT Presentation

Transcript of СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Page 1: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

СБОР И ПОИСК СТРУКТУРИРОВАННОЙ

ИНФОРМАЦИИ

Метахаус

Page 2: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

2

ВЕРТИКАЛЬНЫЙ ПОИСК

• Ориентирован на определенную область

• Данные хранятся с учетом структуры предметной области

• Позволяет более точно задать запрос

• Возможность фильтрации, сортировки

Page 3: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

3

ПРИМЕР

Page 4: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

4

ПРИМЕРЫ ЗАПРОСОВ

• черная икра в ресторане с караоке около кремля

• гостиница с бассейном около киевской• комплексная мойка в выхино• преображенская площадь бассейн 50

метров• банкомат с долларами рядом с

пушкинской

Page 5: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

5

ПОДХОДЫ К СБОРУ ДАННЫХПолуавтоматический

• (+) Универсальность• (+) Гибкость• (-) Временные затраты• (-) Участие человека

Автоматический

• (-) Не для каждого сайта• (+) Быстро• (+) Дешево

Page 6: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

6

ПОЛУАВТОМАТИЧЕСКИЙ СБОР

• Свести к минимуму человеческое участие

• Легкость реализации

• Простота поддержки

• Никаких RegExp, XPath

Page 7: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

7

ИДЕЯ

Класс(предметная область)

Шаблон(специфика сайта)

+

Page 8: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

8

КЛАСС

• Описывает структуру предметной области

• Похож на ООП класс

• Набор правил, как эту структуру обрабатывать и валидировать, нормализовывать

Page 9: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

9

ПРИМЕР КЛАССА

Товар интернет магазина

Наименование string

Цена price

Категории categories

Наш артикул reference

Page 10: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

10

ПРИМЕРЫ ТИПОВprice

1 000,10р. -> 1000.001,000,000 рублей -> 1000000.00

address Пушкинская -> Москва, Пушкинская

площадь; lat: 44.333, lon: 33.112,

Page 11: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

11

ПРИМЕР ШАБЛОНА

Средние временные затраты на 1 шаблон: 10-15 минут

Page 12: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

12

РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА

• Данные структурированы , провалидированы, нормализованы

• Удалены дубли• Есть diff по сравнению с предыдущими

данными• Мониторинг «отвалившихся»

шаблонов

Page 13: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

13

ВОЗМОЖНОСТИ ПОИСКА

• Разбор запроса• Поддержка морфологии и транслита• Неверная раскладка клавиатуры• «Возможно, вы имели в виду»• Фасеты• Фильтрация, сортировка, группировка• Гео-поиск

Page 14: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

14

РЕАЛИЗАЦИЯ

• Работает на базе Apache Solr • Разная структура документа в

зависимости от предметной области • Можно гибко настраивать правила

индексации через метаданные класса• Отдельный индекс для анализа

запроса

Page 15: СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

СПАСИБО!

Минченков Павел[email protected]

Метахаус