Автоматический геокодинг
-
Upload
coldbeans-software -
Category
Technology
-
view
1.158 -
download
1
description
Transcript of Автоматический геокодинг
Geocoding – методы получения гео-координат из
новостных потоков
Выполнил: Баклыков Денис Григорьевич[email protected]
Научный руководитель: Намиот Дмитрий Евгеньевич[email protected]
2
Известные аналоги
• Яндекс.Новости• Lenta.ru
• GeoNames.org– База данных гео-объектов– 8 миллионов записей
• Yahoo GeoPlanet– Поиск гео-объектов по критериям– Альтернативные названия
3
Требования к системе
• Выявление описания гео-объектов в новостных потоках (RSS, Atom)
• Прозрачная конвертация RSS лент в GeoRSS
• Обеспечение высокой производительности системы
4
Трудности реализации
• Сложность обработки данных
– большой размер БД, нагрузка на сервер
• Нет открытых алгоритмов поиска гео-объектов
• Поддержка множества подписчиков
• Нет единой базы гео-объектов
• Различные варианты названия гео-объектов
5
Исходные данныеКЛАДР
Метро
Неофиц. Названия
Яндекс Карты
БД гео-объектов
Нижний угол
Верхний угол
Центр
6
Архитектура
• Распределённая система• База данных– Гео-объекты, альтернативные названия– Исторические данные новостных потоков
• Кластеризация системы– Горизонтальная – дополнительные «ноды»– Вертикальная – наращивание мощности сервера
7
Реализация
8
Определение гео-объектов по маске• Пример:
• Ключевые слова для поиска:
• Маска:
• Результат поиска:
В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева
улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро
(.*?) (улиц*|ул\.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.»
Метро Университет, улица Лебедева
9
Определение гео-объектов по словарю• Пример с предлогом:
• Без предлога:
• Маска:
• Результат:
Неглинная за последние 10 лет очень сильно изменилась
([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы
На Тверской стояли десятки военных машин, ожидая команды начала парада
Тверской, Неглинная
10
Заключение
• Реализована система, позволяющая:– Определять около 90% гео-объектов– Скорость обработки текста ~ 10KB/s (на 1 узле)
• Адрес проекта: geo-rss-demo.appspot.com
• Дальнейшее развитие– Поиск по области– История новостей в заданной области
11
Спасибо за внимание!
Ваши вопросы
Денис Баклыков