Очистка и интеграция открытых данных из разнородных...

Post on 16-Apr-2017

162 views 1 download

Transcript of Очистка и интеграция открытых данных из разнородных...

Методы и средства очистки открытых данных из

разнородных источников

Карпов Илья

karpovilia@gmail.com

11.12.2015

Москва

ФГУП "НИИ "Квант"

Введение Очистка и интеграция данных

2/69

• Получение

• Валидация

• Трансформация

• Очистка

• Консолидация (удаление дубликатов)

• Визуализация

ФГУП "НИИ "Квант"

Традиционные ETL-

процессы Хранилища данных

3/69

• Интеграция данных из разнородных источников началась в 90–х,

когда крупными торговыми площадками разрабатывались

хранилища данных

• В среднем x2 превышение бюджета и x2 превышение сроков

• Окупаемость в течении 6 месяцев за счет более оптимальных

решений

ФГУП "НИИ "Квант"

Традиционные ETL-

процессы Традиционный подход к ETL

4/69

• Разработка единой схемы данных

• Интеграция источника данных

– Исследование

– Маппинг структур в единую схему данных

– Методы очистки и преобразования

• Масштабирование до 25 источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Хранилища данных

5/69

https://en.wikipedia.org/wiki/Data_integration

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Проблемы интеграции данных

6/69

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Проблемы интеграции данных

7/69

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

8/69

http://www.xmlschema.info/images/shots/map_xml_thumb.gif

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

9/69

https://www.informatica.com/products/data-integration/powercenter.html

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

10/69

https://www.informatica.com/products/data-integration/powercenter.html

ФГУП "НИИ "Квант"

Научно-технический

задел

11/69

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

12/69

https://www.informatica.com/products/data-integration/powercenter.html

ФГУП "НИИ "Квант"

Традиционные ETL-

процессы Примеры

13/69

• РИНЦ

– 4-е место в списке самых цитируемых специалистов по автоматике и

вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН)

– 33 публикации, которые цитируются 5289 раз.

– При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу

Тимошенко эмигрировавшему в США в 1922 году.

http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/

• Фокусированный анализ

– Linkedln 10 000 персон и 2892 организаций. В финальную сеть было

включено 510 персон и 445 организаций.

– GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было

включено 319.

– Страницы организаций (места работы, университеты) около 100.

https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Примеры (2)

14/69

CIT

CalTech

Cal Tech

US Senate

United States Senate

Senate of the United States of America

United States Senate Committee on

Commerce

US Senator John D. Rockefeller

Office of U.S. Senator George S. LeMieux

United States Senate - Office of Senator

Claire McCaskill

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Примеры (3)

15/69

Объекты на карте

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Некоторые проекты

16/69

• Paxata

• Trifacta (commercial Data Wrangler)

• Cambridge Semantics

• Data Tamer

• ClearStory

• Attivio

• Google - Refine (OpenRefine)

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataWrangler

17/69

• Быстрая трансформация и ручная фильтрация данных

• От пользователя не требуется знаний программирования

http://vis.stanford.edu/wrangler/

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer

56/69

• Обработка “длинного хвоста”

• Использование машинного обучение и статистики

• Краудсорсинг для случаев, в которых вероятность корректной

обработки невысока

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

57/69

• Загрузка данных в хранилище:

– csv – набор записей вида атрибут-значение

– Хранение в Postgres

• Schema Integration

• Crowd Sourcing

• Deduplication

• Visualization

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

58/69

• Загрузка данных в хранилище

• Schema Integration:

– предопределенная глобальная схема может отсутствовать

– использование шаблонов и внешних источников

– текстовый анализ названий

– статистика и машинное обучение

• Crowd Sourcing

• Deduplication

• Visualization

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

59/69

• Загрузка данных в хранилище

• Schema Integration

• Crowd Sourcing:

– Использует иерархию экспертов

– Можно добавить специализацию

– Предложено ранжирование компетентности

• Deduplication

• Visualization

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

60/69

• Загрузка данных в хранилище

• Schema Integration

• Crowd Sourcing

• Deduplication

– Исследуются связи сущности с атрибутами во всем хранилище

– Решается на основе кластеризации сущностей

• Visualization

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

61/69

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

62/69

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

63/69

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

64/69

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Кластеризация сущностей

65/69

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Кластеризация сущностей

66/69

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Кластеризация сущностей

67/69

ФГУП "НИИ "Квант"

Заключение Итоги

68/69

• Практически в любой отрасли существует потребность в

интеграция большего количества источников – лучшие

аналитические выводы. Компании, освоившие технологии

интеграции имеют большее конкурентное преимущество

• Очистка данных играет значительную роль во всех отраслях

связанных с анализом данных. Качество данных и их

непротиворечивость неоднократно озвучивались как критерии

успешности раскрытия ОД.

• Активно развиваются как personal-, так и enterprise- решения по

автоматизации очистки и интеграции

Спасибо за внимание

Карпов Илья

karpovilia@gmail.com