Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... ·...
-
Upload
phamnguyet -
Category
Documents
-
view
237 -
download
5
Transcript of Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... ·...
![Page 1: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/1.jpg)
1 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика Больших Данных
Использование унифицированной аналитической платформы Greenplum для аналитики Больших Данных Доктор наук, Риккардо Санти
![Page 2: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/2.jpg)
2 EMC CONFIDENTIAL—INTERNAL USE ONLY
Содержание • Почему Greenplum делает возможной аналитику
Больших Данных: введение в унифицированную аналитическую платформу
• Меняем правила игры: решения и лаборатории • Наука о данных (Data Science): люди и процессы
в лабораториях Greenplum
![Page 3: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/3.jpg)
3 EMC CONFIDENTIAL—INTERNAL USE ONLY
Сначала было хранилище данных
Данные из многих источников для поддержки процесса
принятия решений
Унаследованное корпоративное
хранилище данных (EDW)
![Page 4: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/4.jpg)
4 EMC CONFIDENTIAL—INTERNAL USE ONLY
Появление MPP базы данных
Для новой аналитической среды потребовался новый
подход
Tools
![Page 5: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/5.jpg)
5 EMC CONFIDENTIAL—INTERNAL USE ONLY
Теперь есть и Hadoop
Традиционные системы не предназначены для
хранения/обработки задач Web 2.0
![Page 6: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/6.jpg)
6 EMC CONFIDENTIAL—INTERNAL USE ONLY
Новые модели бизнеса, основанные на использовании данных
290,000,000 Обновлений в день
250,000,000 Новых фотографий в
день
1,000,000,000 Запросов в день
4,000,000 Требований в день
2,800,000,000 Сделок в день
31,000,000,000 Событий в день
![Page 7: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/7.jpg)
7 EMC CONFIDENTIAL—INTERNAL USE ONLY
Унифицированная аналитическая платформа Greenplum
![Page 8: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/8.jpg)
8 EMC CONFIDENTIAL—INTERNAL USE ONLY
Унифицированная аналитическая платформа Greenplum
![Page 9: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/9.jpg)
9 EMC CONFIDENTIAL—INTERNAL USE ONLY
Объединяет реляционную СУБД и Hadoop
Greenplum gNet
Data Access & Query Layer
GREENPLUM HD GREENPLUM DATABASE
Java/Perl/Python Command Line PigLatin HQL ODBC JDBC
ПАРАЛЛЕЛЬНЫЕ ЗАПРОСЫ
ПАРАЛЛЕЛЬНЫЙ ЭКСПОРТ/ИМПОРТ
SQL HDFS
![Page 10: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/10.jpg)
10 EMC CONFIDENTIAL—INTERNAL USE ONLY
Greenplum Chorus: платформа продуктивной аналитики
• Взаимодействие посредством социальных сетей
• Возможности интеграции и расширения функциональности
• Свобода open source
Быстрая и гибкая разработка нового поколения приложений для всего спектра Больших Данных
![Page 11: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/11.jpg)
11 EMC CONFIDENTIAL—INTERNAL USE ONLY
Традиционный аналитический процесс
1. Данные найдены
2. Доступ получен
3. Разобрались в данных
4. Перенос в «песочницу»
5. Анализ Наконец-то!
6. Модель внедрена
![Page 12: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/12.jpg)
12 EMC CONFIDENTIAL—INTERNAL USE ONLY
Рабочие пространства
проектов
Анализ данных Публикация
Исследование данных
Взаимодействие
Быстрая аналитика
Быстрее и легче с Chorus
![Page 13: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/13.jpg)
13 EMC CONFIDENTIAL—INTERNAL USE ONLY
Совместная аналитика
• Быстрые результаты, интеграция и сотрудничество в реальном времени
• Повышение прозрачности проектов
• Взаимодействие, обмен информацией между командами
![Page 14: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/14.jpg)
15 EMC CONFIDENTIAL—INTERNAL USE ONLY
Как вы используете результаты аналитики?
Долго, дорого
Вариант 2: Самостоятельная
разработка
Для Больших Данных коробочного ПО нет
Вариант 1: «Коробочные»
приложения
![Page 15: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/15.jpg)
16 EMC CONFIDENTIAL—INTERNAL USE ONLY
Меняем правила игры: решения и лаборатории
![Page 16: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/16.jpg)
17 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика Больших Данных для коммунального хозяйства.
![Page 17: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/17.jpg)
18 EMC CONFIDENTIAL—INTERNAL USE ONLY
Умная электросеть
Аналитика «умной электросети» для коммунального хозяйства
![Page 18: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/18.jpg)
19 EMC CONFIDENTIAL—INTERNAL USE ONLY
Как нам предотвратить отключения электроэнергии?
Нужно знать, каким будет потребление электроэнергии завтра… и на следующей неделе… и в следующем месяце.
![Page 19: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/19.jpg)
20 EMC CONFIDENTIAL—INTERNAL USE ONLY
Умная электросеть и EMC Greenplum
Сетевое межсоединение
... ...
... ... Мастер - серверы
Планирование запросов и координация
Сегментные серверы
Обработка запросов и хранение данных
Массово-параллельная архитектура без разделения ресурсов
Оборудование и ПО Silver Spring для «умных сетей».
![Page 20: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/20.jpg)
21 EMC CONFIDENTIAL—INTERNAL USE ONLY
Анализ данных по энергопотреблению с помощью преобразования Фурье
Данные за 10 недель с 100.000 счётчиков, дискретность 5 секунд.
![Page 21: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/21.jpg)
22 EMC CONFIDENTIAL—INTERNAL USE ONLY
Теперь мы можем предотвращать отключения … и многое другое!
Точные профили нагрузки позволяют предсказывать скачки в потреблении и планировать заранее – и предотвращать отключения
Мы можем кластеризовать потребителей по профилю нагрузки и использовать результаты для обнаружения отклонений
Обнаружение отклонений от нормы может использоваться для предупреждения воровства электроэнергии
Мы можем создавать
профили нагрузки распознавая
периодичность Обнаружение отклонений также может быть использовано для контроля растительности
![Page 22: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/22.jpg)
23 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитическая лаборатория 600. Транспорт.
![Page 23: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/23.jpg)
24 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитическая лаборатория 600. • Цель:
– Совместными усилиями построить решение для анализа Больших Данных
– Модель предсказания дорожной ситуации: • Analytics Lab 600: Сбор данных и загрузка + 6 недель работы аналитика
– Возможные дополнительные цели: анализ путей объезда, управление светофорами
• Требует дополнительного времени
• Аналитическая платформа дорожных служб: – GP 1000: Data Computing Appliance (оборудование и ПО), полезное
пространство 36ТБ (без учёта сжатия данных) – Дополнительное ПО: MADlib, R и Chorus – В будущем: Greenplum HD, VMWARE Gemfire
![Page 24: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/24.jpg)
25 EMC CONFIDENTIAL—INTERNAL USE ONLY
Нужны ответы на эти вопросы: • Текущая дорожная ситуация
– Какие сущности релевантны для анализа? – Какова длина дорожной пробки? – Какова временная корреляция с другими данными?
• Данные – Каковы охват и точность данных из различных источников? – Как визуализирловать дорожные данные для анализа?
• Прогноз – Какова вероятность дорожной пробки на заданном
маршруте?
![Page 25: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/25.jpg)
26 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитические лаборатории: цели • Преодолеть разрыв между объёмом
накопленных данных и возможностью их обработки
• Работоспособные, готовые к внедрению модели, использующие Большие Данные
• Продуктивное сотрудничество между участниками
• Обучение пользователей разработке инструментов и передовому опыту
• Стратегия развития аналитики
![Page 26: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/26.jpg)
27 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика журнальных данных.
![Page 27: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/27.jpg)
28 EMC CONFIDENTIAL—INTERNAL USE ONLY
Аналитика журнальных данных на производственных линиях
SQL Server 2008
ORACLE
Analysis Server
.NET Application
Microsoft SSIS ETL
![Page 28: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/28.jpg)
29 EMC CONFIDENTIAL—INTERNAL USE ONLY
Microsoft ACCESS
LOG
Parsing program
Неструктурированные данные
Environmental Status at 05:57:30 CPU Temperature: Boot UProc: 86C below ProcHot Ap UProc: 84C below ProcHot Ap2 UProc: 85C below ProcHot Ap3 UProc: 83C below ProcHot DIMM Temperatures: DIMM 0: 15C DIMM 1: 15C DIMM Throttling: Channel 0: Off Channel 1: Off Channel 2: Off CPU Temperature: Boot UProc: 7C (88C below ProcHot) Ap UProc: 8C (87C below ProcHot) DIMM Temperatures: DIMM 0: 17C DIMM 1: 16C DIMM Throttling: Channel 0: Off Channel 1: Off Channel 2: Off MCH Temperature : 49 SLIC Temperature : 0 CPU Temperature : 0
General Enclosure Status: PSA0: Inserted PSB0: Inserted Peer: Inserted Storage Processor Status: Motherboard Battery Low: FALSE Manufacturing Mode: TRUE PSA 0 MCU Status Power-Supply Firmware Version: 1B Slot ID: 44 System Over Temperature Status: FALSE System Temperature Celcius: 11 System Over Temp Thresh Celcius: 41 PS Threshold fault_mask0: 0h PSA 0 MCU Power Status: Fault Status: NO FAULT DC present: FALSE AC fail: FALSE Other PS is faulted: FALSE key: f = faulted; ok = not faulted ------------------------------------ Power Status Details | V1 | V2 | ------------------------------------ Inactive | ok | ok | Disabled | ok | ok | SP Voltage not inserted | ok | ok | Over Current | ok | ok | Over Voltage | ok | ok | Under Voltage | ok | ok | | | | Voltage Level |0331|0332| Current Level |001C|001A| ------------------------------------
Аналитика журнальных данных на производственных линиях
![Page 29: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/29.jpg)
30 EMC CONFIDENTIAL—INTERNAL USE ONLY
SQL Server 2008
ORACLE
Hadoop File
System
Greenplum
Analysis Server
Приложение .NET
M A P R U D E E C
M A D L I B Аналитическая программа
Расширения пользовательского
интерфейса
LOG
Аналитика журнальных данных на производственных линиях
![Page 30: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/30.jpg)
31 EMC CONFIDENTIAL—INTERNAL USE ONLY
ОТВЕТ В БОЛЬШИХ ДАННЫХ. ПРАВИЛЬНЫЙ ЛИ ВОПРОС ВЫ ЗАДАЁТЕ?
DATA SCIENCE НАУКА О ДАННЫХ
![Page 31: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/31.jpg)
32 EMC CONFIDENTIAL—INTERNAL USE ONLY
Проект по аналитике Больших Данных
ЭНТУЗИАЗМ
БОЛЬ POC Проверка концепции
Произво- дительность
Ценность
УНИ
ВЕРСИ
ТЕТЫ
Экспертный центр аналитики EMEA
EMC Экспертные центры Санкт-Петербург – Тель-Авив – Корк
LAB 1. Семинар 2. Анализ
осуществимости 3. Прототип
POBV
Затраты
![Page 32: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/32.jpg)
33 EMC CONFIDENTIAL—INTERNAL USE ONLY
Кто это – исследователь данных? Source: EMC Study, “Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field,” December 5, 2011
BI – управление имеющимися данными и построение отчётов для мониторинга и управления процессами предприятия
Наука о данных применяет инструменты и алгоритмы глубокой аналитики для инноваций и новых продуктов, которые являются прямым результатом данных
![Page 33: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/33.jpg)
34 EMC CONFIDENTIAL—INTERNAL USE ONLY
Ключевые качества в новой «экосистеме» Больших Данных
Что делают исследователи данных?
Технический талант
Аналитический ум
Эксперт в предметной
области
![Page 34: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/34.jpg)
35 EMC CONFIDENTIAL—INTERNAL USE ONLY
Исследователь данных
Численный анализ
Техническая экспертиза
Критическое мышление
Коммуника- бельность
Любопытство, креативность
![Page 35: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/35.jpg)
36 EMC CONFIDENTIAL—INTERNAL USE ONLY
Учебный курс и Сертификация
Совместно с Академическим Альянсом
EMC
Поддержка команд исследователей данных EMC и наука о данных (Data Science)
Практика
Штат учёных-экспертов
Сообщество
Инвестиции в развитие науки о
данных
![Page 36: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/36.jpg)
37 EMC CONFIDENTIAL—INTERNAL USE ONLY
Проект по аналитике Больших Данных
ЭНТУЗИАЗМ Ценность
Университеты
Экспертный центр аналитики EMEA
EMC Экспертные центры Санкт-Петербург – Тель-Авив – Корк
LAB 1. Семинар 2. Анализ
осуществимости 3. Прототип
POBV Партнёры
![Page 37: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/37.jpg)
38 EMC CONFIDENTIAL—INTERNAL USE ONLY
ВОПРОСЫ?
Риккардо Санти Data Science Team Greeemplum EMEA [email protected]
![Page 38: Аналитика Больших Данныхdatascienceseries.com/assets/presentations/DSS... · Java/Perl/Python . Command Line ... Обработка запросов и хранение](https://reader031.fdocument.pub/reader031/viewer/2022020715/5a7af3a27f8b9a66798ba606/html5/thumbnails/38.jpg)
39 EMC CONFIDENTIAL—INTERNAL USE ONLY
THANK YOU