AI&Big Data Club спікер Дов Німрац "Big Dada Overview"

Post on 20-Jan-2017

9 views 0 download

Transcript of AI&Big Data Club спікер Дов Німрац "Big Dada Overview"

Big DataDov Nimratz

О чем будем говорить• Что включает в себя BigData• Примеры • Claud – основа BigData

CPU

CPU

CPU

Mem

Mem

Mem

Virtualization

CPU Memory Network Hardware

Big DataContent Analytic Reporting Social media

CloudComputing Storage Communication

Claud computing• Большая стоимость оборудования• Проблемы с защищенностью данных• Энергонезависимость• Техобслуживание устройств и программ• Обновления мощностей и версий программ

4 V BigData

Activity data• Аналитика от поисковых систем• Аналитика от платежных систем• Анализ сайтов компании SEO

• Ценность ориентированной рекламы – высокая конверсия

Conversation data• Facebook, Tweeter, Skype• Феномен ICQ • Влияние на политику – новые реалии• Боты на зарплате и цена ”лайка”

Content data• Netflix – и проблема провайдеров• Torrent & p2p• Что может рассказать Content и как из этого получить выгоду?• Как Content может повлиять?

Sensor data• Датчики погоды• Регистраторы движения• Сенсоры безопасности

Internet of things data• Что может ваш телевизор рассказать о вас?• А холодильник?

Example of usage• Find me ”this”• Election/politic• Map & Traffic • Content oriented advertisement • Anti terrorism & fraud • Sport • Medicine• Optimize sites SEO• Data as a Person

SpaceX plans worldwide satellite Internet• 4,425 satellites in 2019• latencies 25 - 35ms• up to 1Gbps per user• FREE access

SpaceX received $1 billion in funding from Google and Fidelity Investments in January 2015 to support satellite manufacturing and space transport.

Специфические вопросы Claud • Модели сетевых сервисов• Обработка очень больших массивов данных - MapReducer• CAP теорема, требование ACID• Синхронизация• Обнаружение дефекта• NoSQL• Collaboration work – защита доступа к данным

MapRediuce

CAP theorem Возможно обеспечить не более двух из трёх следующих свойств:• Согласованность данных (consistency) — во всех вычислительных

узлах в один момент времени данные не противоречат друг другу;• Доступность (availability) — любой запрос к распределённой

системе завершается корректным откликом;• устойчивость к разделению (partition tolerance) — расщепление

распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций.

СА согласованность + доступность• данные согласованы во всех узлах и обеспечена доступность • жертвует устойчивостью к распаду на секции. • Кластерные системы управления БД или распределённая служба

каталогов LDAP

СР согласованность + разделение• обеспечивает целостный результат и способна функционировать

в условиях распада• может не выдавать отклик на запрос. • требует обеспечения дублирования изменений во всех узлах

системы• «Пессимистическая блокировка»

АР доступность + разделение• не гарантируется целостность, • выполнены условия доступности и устойчивости к распаду на

секции. • большинство NoSQL-систем принципиально не гарантируют

целостности данных• «целостных в конечном итоге»

ACID требования к системе• Atomicity — Атомарность• Consistency — Согласованность• Isolation — Изолированность• Durability — Долговечность

Синхронизация событийP1

P2

P3

P1 1

2

1

2

4

3

5

6

6

7 8

9

Обнаружение дефектов – Зачем?• Петафлопс = 10 в 15 степени FLOPS /секунду

• MTTF (Mean Time To Failure — среднее время до отказа) 1 000 000 часов

Tianhe-2

33,86 петафлопс

16 тысяч узлов

720 метров кв.

1 мл / 16 тыс = 62,5 часа

Методы обнаружения дефекта• Послать всем пинг• Дерево• Токен по кругу• Если нет ответа, попробовать через соседей

Casandra

HBase

Защита доступа к данным• Токен на запись/чтение• Dead Lock• Moderator & Election protocol

Куда развивается Big Data• Internet every ware• IOT in many devices• Und user device – only human interface• Cyber security• Private Agent on network• Augmented Reality• From information to suggestion• No server Cloud – AWS Lambda Event driven Compute

Thank you

Dov NimratzSkype: dovnmrE-mail: dovnmr@gmail.com