Революция Больших Данных
-
Upload
leonid-zhukov -
Category
Documents
-
view
625 -
download
0
description
Transcript of Революция Больших Данных
Революция Больших Данных
www.visibletechologies.com
Высшая школа экономики, Москва, 2013
Революция Больших Данных
фото
фото
фото Май 2011
Высшая школа экономики, Москва, 2013
Революция Больших Данных
фото
фото
фото
Gartner Hype cycle 2013
www.gartner.com
Прогноз рынка
www.wikibon.com
Gartner: 2016- $55B
Data is the new oil. —European Consumer Commissioner Meglena Kuneva Week of Aug 14, 2006: XOM 69.10 AAPL 67.91
© 2013 Yahoo! Inc.
0%
1K%
2K%
3K%
4K%
5K%
6K%
7K%
8K%
9K%
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
1D 5D 1M 3M 6M YTD 1Y 2Y 5Y Max FROM: Jan 6 2003 TO: Sep 30 2013 +144.95%
1970 1975 1980 1985 1990 1995 2000 2005 2010
Volume: 24,392,640
20.0M
40.0M
60.0M
Капитализация: – Exxon - $387.2 B – Apple - $472.3 B
Высшая школа экономики, Москва, 2013
Явление характеризуемое быстрым увеличением объема
накапливаемых данных, скорости их поступления и разнообразии источников
• «Три V» характеристика: • Объем (Volume) • Скорость ( Velocity) • Разнообразие (Variety)
Большие Данные
Высшая школа экономики, Москва, 2013
фото
фото
фото
Источники данных
Высшая школа экономики, Москва, 2013
фото
фото
2012: • Twitter: 175 млн tweet сообщений в день • Facebook: 300 млн загруженных фото в день • Google: 24 PB ежедневно • AT&T передает 30 PB в день • Walmart > 1 млн продаж в час • Кредитные карты > 10,000 транзакций в секунду • Boing 787 передает 0.5 TB телеметрических данных за
полет, 100 тыс. рейсов в день
Библиотека Конгресса США содержит 33 млн книг, всего 150 млн печатных изданий: 235 TB
Скорость накопления данных
Высшая школа экономики, Москва, 2013
фото
фото
фото
В 2011г «Цифровая Вселенная»
1.8 ZETTABYTES 1,800,000,000,000,000,000,000
Zetta Exa Peta Tera Giga Mega Kilo Byte
К 2015 объем данных вырастет до 8 ZB, к 2020 в 44 раза до 35 ZB
9 млн Библиотек Конгресса США 60 млрд iPhone 32 GB
Объемы данных
Высшая школа экономики, Москва, 2013
фото
фото
фото
• Основы технологии разработаны в
Google 2003, MapReduce • Открытое ПО, Hadoop (Yahoo) • Система массивно параллельной
обработки данных на кластерах дешевых компьютеров
• Значительное удешевление хранения • Экосистема Биг Дата стартапов:
Cloudera, MapR, HortonWorks • Крупные вендоры EMC, IBM, HP, Oracle • Большой вклад в открытые проекты:
Facebook, Twitter, Amazon, LinkedIn
Технологии Больших Данных
Big Data Landscape 2012
www.bigdatalandscape.com
Big Data Landscape 2013
www.bigdatalandscape.com
Высшая школа экономики, Москва, 2013
фото
фото
фото
Уникальность подхода Больших Данных заключается в агрегировании огромной информации из разных источников в одном месте
• Обобщенные вид на данные позволяет находить скрытые связи и закономерности
• Данные обладают огромной предсказательной силой • Доступны вычислительные мощности достаточные
для очень детальных расчетов
Подход Больших Данных
Перспективы Больших Данных
www.gartner.com
Бизнес данных
• Большие данные: • Хранение данных • Анализ данных
• Data driven companies: • Принятие стратегических решений на основе данных • Создания продуктов основанные на данных • Предсказательная аналитика
Высшая школа экономики, Москва, 2013
• Маркетинг:
• Сегментация рынка
• Моделирование приобретения и оттока клиентов
• Рекомендательные системы
• Анализ социальных медиа
• Финансовые и страховые компании: • Предотвращение fraud
• Детектирование аномального поведения
• Анализ кредитных рисков
• Страховые моделирование
• Оптимизация портфолио
• Здравоохранение и Фармакология:
• Генетический анализ
• Анализ клинических испытаний
• Клинические системы принятия решений
Прикладные задачи
Портрет компании: Amazon
Рекомендательная система
Product A
Product B
Product C
Портрет компании: LinkedIn
238 mln members
Люди, которых вы можете знать
Портрет компании: Target “How companies learn your secrets”
• Уникальный Guest ID • Транзакции по кредитной карте • Примеры факторов (сигналов):
• Покупка крема без запаха
• Пищевые добавки кальций, цинк, магний
• Мыло без запаха
• Предсказательный «индекс» беременности и ожидаемая дата рождения
Предсказательное моделирование
• Применение модели
• Обучение модели
from Eric Siegel, “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”
Операторы мобильной связи • Churn prediction: моделирование оттока клиентов
• Закономерности поведения подписчиков с течением времени
• Положительные и отрицательные примеры
Факторы модели:
• История пользования сервисом (число звонков, смс)
• История платежей за сервис
• История обращений в службу поддержки
• История изменений в контракте
• Граф звонков (поведение друзей)
Моделирование убеждаемости
2012 US Presidential Elections: • Предвыборная кампания Барака Обамы: 50 data scientists
• Собраны исторические данные exit polls
• Данные из открытых источников, соц. Сетей
• Предсказательные модели:
• Кто вероятно будет голосовать за Обаму?
• Кто вероятно будет голосовать за Ромни ?
• Кто придет в день голосование на участки?
• Кого можно убедить голосовать за Обаму в случае личного общения?
Высшая школа экономики, Москва, 2013
Галерея проектов
фото
фото
Примеры небольших компаний и проектов создающих data driven products
Сбор и обработка массивов данных
• Стартапы, небольшие проекты
• Частное и государственное финансирование
• Social course ( социальная направленность)
Высшая школа экономики, Москва, 2013
Большие Данные в городе: удобный город
фото
фото
фото
Сан-Франциско: датчики парковки, датчики скорости транспортных потоков, GPS в общественном транспорте
Использование:
• нахождение свободных парковок
• точное время прибытия общественного транспорта
Высшая школа экономики, Москва, 2013
Большие Данные в городе: безопасный город
фото
фото
фото
Лос-Анджелес: предсказания преступлений
LAPD (predictive policing, 2011-2013):
• Определение мест и времени с повышенной вероятностью совершения преступлений
• Исторические данные о преступности в городе (80 месяцев), демографические и др. данные, социологические модели
• Преступления против собственности снизились за год на 12%
• UCLA, UC Santa Cruz
Высшая школа экономики, Москва, 2013
Большие Данные в экономике
фото
фото
фото
• MIT научный проект, Billion Prices Project • Ежедневно собирают с е-магазинов цены на
товары: • > 900 магазинов, 70 стран, 5 млн товаров
• Автоматически вычисляют: • Индекс потребительских цен • Уровень инфляции
• Бюро Статистики труда: 90 городов, 80,000 товаров, сотни сотрудников, $250 млн в год, задержка 2-4 недели
The key advantage of our series is the ability to anticipate major shifts in underlying inflation trends
7 Source: BPP – PriceStats – BLS (CPI-U, US city-average, all items, NSA)
Example: State Street PriceStats US Aggregate Inflation Series
online
09/15/2008 Lehman’s Bankruptcy
January 2011
May 2011
12/20/2008
Jan 2012
Высшая школа экономики, Москва, 2013
Большие Данные и здоровье
фото
фото
фото
Платформa мониторинга астмы и других респираторных заболеваний
• Помогать пациентам и врачам лучше справляется с заболеванием
• Ингаляторы с встроенными сенсорами, мобильные приложения
• Дневник пациента, доступен врачу онлайн • Неотложная помощь
• Глобальная аналитика по заболеванию
Системы self-‐мониторинга (quanXfy-‐self):
• Fitbit, Jawbone: физические нагрузка
• Wahoo: сердечный ритм
• Zeo: ночной сон (EEG)
• AliveCor: одноканальная кардиограмма (ECG)
Высшая школа экономики, Москва, 2013
Большие Данные в образовании
фото
фото
фото
Платформа онлайн обучения • MOOC (Massive Online Open Course)
• “Ivy League” для масс
• Лучшие курсы лучших университетов
• Повсеместная доступность
• Универсальность программы обучения
• Бесплатное обучение
• Coursera, edX, Udemy
Coursera: • Первые 2 курса из Стэнфорда в 2012
• 80 университетов, 400 курсов
• 200,000 студентов на курсе
• 4.5млн обучаемых
Высшая школа экономики, Москва, 2013
The Sexiest Job of the 21st Century
McKinsey оценивает нехватку в 140,000-190,000 специалистов к 2018г
Контакты • Леонид Жуков, Ph.D • Профессор, Отделение Прикладной Математики и Информатики,
Высшая Школа Экономики (НИУ-‐ВШЭ) • Director Data Science, Ancestry.com • [email protected] • www.leonidzhukov.ru