Автоматический геокодинг

11
Geocoding – методы получения гео- координат из новостных потоков Выполнил: Баклыков Денис Григорьевич [email protected] Научный руководитель: Намиот Дмитрий Евгеньевич [email protected]

description

Автоматический гео-кодинг для новостей. Yahoo Placemaker для русского языка

Transcript of Автоматический геокодинг

Page 1: Автоматический геокодинг

Geocoding – методы получения гео-координат из

новостных потоков

Выполнил: Баклыков Денис Григорьевич[email protected]

Научный руководитель: Намиот Дмитрий Евгеньевич[email protected]

Page 2: Автоматический геокодинг

2

Известные аналоги

• Яндекс.Новости• Lenta.ru

• GeoNames.org– База данных гео-объектов– 8 миллионов записей

• Yahoo GeoPlanet– Поиск гео-объектов по критериям– Альтернативные названия

Page 3: Автоматический геокодинг

3

Требования к системе

• Выявление описания гео-объектов в новостных потоках (RSS, Atom)

• Прозрачная конвертация RSS лент в GeoRSS

• Обеспечение высокой производительности системы

Page 4: Автоматический геокодинг

4

Трудности реализации

• Сложность обработки данных

– большой размер БД, нагрузка на сервер

• Нет открытых алгоритмов поиска гео-объектов

• Поддержка множества подписчиков

• Нет единой базы гео-объектов

• Различные варианты названия гео-объектов

Page 5: Автоматический геокодинг

5

Исходные данныеКЛАДР

Метро

Неофиц. Названия

Яндекс Карты

БД гео-объектов

Нижний угол

Верхний угол

Центр

Page 6: Автоматический геокодинг

6

Архитектура

• Распределённая система• База данных– Гео-объекты, альтернативные названия– Исторические данные новостных потоков

• Кластеризация системы– Горизонтальная – дополнительные «ноды»– Вертикальная – наращивание мощности сервера

Page 7: Автоматический геокодинг

7

Реализация

Page 8: Автоматический геокодинг

8

Определение гео-объектов по маске• Пример:

• Ключевые слова для поиска:

• Маска:

• Результат поиска:

В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева

улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро

(.*?) (улиц*|ул\.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.»

Метро Университет, улица Лебедева

Page 9: Автоматический геокодинг

9

Определение гео-объектов по словарю• Пример с предлогом:

• Без предлога:

• Маска:

• Результат:

Неглинная за последние 10 лет очень сильно изменилась

([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы

На Тверской стояли десятки военных машин, ожидая команды начала парада

Тверской, Неглинная

Page 10: Автоматический геокодинг

10

Заключение

• Реализована система, позволяющая:– Определять около 90% гео-объектов– Скорость обработки текста ~ 10KB/s (на 1 узле)

• Адрес проекта: geo-rss-demo.appspot.com

• Дальнейшее развитие– Поиск по области– История новостей в заданной области

Page 11: Автоматический геокодинг

11

Спасибо за внимание!

Ваши вопросы

Денис Баклыков