Post on 15-Jun-2015
description
Андрей Устюжанин
Маленькие «секреты» больших данных
Руководитель совместных проектов Яндекс-ЦЕРН
Объем
• пользователей Internet: 2 млрд• Сайтов Internet: 0.5 млрд• Страниц: 10 трлн• роликов YouTube: 0.5 трлн часов
• фотки Facebook: ~10 Pb• аккаунтов Twitter: 200 млн
3
• листьев на дереве: ~1 млн• травинок на футбольном поле: ~100 млн
• страниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...
Объем + скорость + разнообразие
4
•Текст•Фото•Аудио•Видео•не только Internet!
• в день:лайков Facebook: 1 млрдтвитов: 100 млн
5
5
«Данные - это новая нефть!»
Метапереход: от статистики к инженерии данных
8
Мирглазами аналитика
Реальный мир
«How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes?»
9
Tom Mitchell, CMU
«Как построить компьютерные системы, которые автоматически улучшаются с накопленным опытом, и каким законам подчинаются все процессы обучения?»
10
Tom Mitchell, CMU
TMVA http://tmva.sf.net word2vec by Google http://code.google.com/p/word2vec h2o by 0xdata http://0xdata.com/h2O “The Berkeley Stack” by AMPLab
http://amplab.cs.berkeley.edu Vorpal Wabbit by John Langford
http://github.com/JohnLangford/vowpal_wabbit KNIME - http://knime.org PMML - Predictive Model Markup Language
http://ibm.com/developerworks/industry/library/ind-PMML2/ scikit-learn for Python http://scikit-learn.org
Реализации машинного обучения
17
iPython notebook
18
• Literation programming• Literate computation
Метапереход: Информационные системы
19
Экзоскелет Нервнаясистема
Показ рекламы20
Ранжирование21
Размер «формулы» (модели)22
Приложения машинного обученияПоиск
Реклама
Маркет
Предсказание дорожных пробок
Перевод
Распознавание музыки, изображений, видео
Фильтрация спама
Кластеризация новостей
Определение аномалий
Deathly ones24
LHCb events25
Event Filtering (Bs→µ+µ-)26
Анатомия приложения27
Анатомия приложения28
1.Получить данные2.Выбрать пространство признаков3.Выбрать меры оценки качества4.Выбрать параметры классификатора5.Обучить модель6.Оценка качества7.Повторить
Кто управляет кораблем?29
Что такое матрица?30
«Как автоматизировать производство обучение машин?»
Метапереход
31
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
Data Acquisition
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
CERN
Publications
LHC
Filtering and Stripping
TMVA
Fitting
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
CERN
Publications
LHC
Filtering and Stripping
TMVA
Fitting
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
Workflow model «A»
Workflow model «YDF»
LHCb PhysicsCoordinator
Workflow scalability
LHCb PhysicsCoordinator
Архетипы «Пути героя»
Принц (Принцесса)
Бродяга (Стерва)
Король (Королева)
Тиран (Мачеха)
Шут (Жрица)
Черный маг (Ведьма)
Воин (Охотница)
Убийца (Амазонка)
36
Архетипы «Пути героя»
Принц (Принцесса)
Бродяга (Стерва)
Король (Королева)
Тиран (Мачеха)
Шут (Жрица)
Черный маг (Ведьма)
Воин (Охотница)
Убийца (Амазонка)
37
Навыки инженера данных38
ПрограммированиеАлгоритмы и структуры данныхБазы данныхСтатистикаАнализ данныхМашинное обучениеКомпьютерная обработка текстаРаспределенные системыИнструменты Big DataВизуализация данных
From: Swami Chandrasekaran,Executive Architect
Учебные программы от индустрии40
Международные курсы
• Университетские программы:– University of Washington: CertiUcate in Data Science– UC Berkeley: Master of information and data science program– New York University: Data Science at NYU– Columbia University: Institute for Data Sciences and Engineering– University of Southern California (UCS) : Master of Science in Data Science
• Онлайн курсы обучения: – Coursera
– edX– Udacity
• Ускоренные образовательные программы (компании):– ZipUan Academy (12 weeks intensive program)– Insight Data Science Fellows program ( 6 weeks post doc training)
41
Восстановление функциональных закономерностей из эмпирических данных.Алгоритмы и структуры данных поискаВероятностно-статистические модели и анализ данныхВыпуклый анализ и оптимизацияМашинное обучениеАнализ символьных последовательностей с точки зрения биоинформатикиДискретный анализ и теория вероятностейАлгоритмы и структуры данных поискаАвтоматическая обработка текстовМашинный переводПараллельные и распределенные вычисленияКомбинаторика и вероятностьАнализ изображений и видеоАлгоритмы для работы с большими объемами данных...
Яндекс.ШАД
42 http://bit.ly/18SyiKJ
Восстановление функциональных закономерностей из эмпирических данных.Алгоритмы и структуры данных поискаВероятностно-статистические модели и анализ данныхВыпуклый анализ и оптимизацияМашинное обучениеАнализ символьных последовательностей с точки зрения биоинформатикиДискретный анализ и теория вероятностейАлгоритмы и структуры данных поискаАвтоматическая обработка текстовМашинный переводПараллельные и распределенные вычисленияКомбинаторика и вероятностьАнализ изображений и видеоАлгоритмы для работы с большими объемами данных...
Яндекс.ШАД
43 http://bit.ly/18SyiKJ
Вакансии «data science»44
Предсказание вероятности преступлений45
Крипта - определение социально-демографических факторов46
Предсказание климата47
Интерактивная инфографика48
ИзмеримостьВоспроизводимостьЧитаемость/прозрачностьСовместная работаМодульностьАвтоматизируемость
Численные эксперименты/исследования
52
Gartner Hype Cycle53
Заключение
• Большие данные:– скорость + размер + разнообразие
• «Секреты»:– метапереход от статистики к модельному описанию
(инженерия данных, машинное обучение)– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка
• Новые подходы в естесственных и гуманитарных науках:– инфографика– воспроизводимые эксперименты– журналистика данных
54
Спасибо!
anaderi@yandex-team.ru
Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН