DevOps Summit: микросервисы€¦ · DevOps Summit: ... Говорят, что...

Post on 08-Jul-2020

6 views 0 download

Transcript of DevOps Summit: микросервисы€¦ · DevOps Summit: ... Говорят, что...

Тема доклада: операционализация машинного обучения в облаке Azure

Евгений ГригоренкоTech. Evangelist | Microsoft CSE

DevOps Summit:микросервисы

Машинное обучение — процесс, в результате которого машина

(компьютер) способна показывать поведение, которое в нее не

было явно заложено (запрограммировано)

(Arthur Samuel, 1959)

Говорят, что компьютерная программа обучается на основе опыта E

по отношению к некоторому классу задач T и меры качества P, если

качество решения задач из T, измеренное на основе P, улучшается

с приобретением опыта E.

(Tom Mitchel, 1998)

Что такое Машинное Обучение?Это компьютерные системы, которые становятся умнее с полученным опытом.

Чем машинное обучение может вам помочь?

Социальные медиа

Предсказание погоды

Медицинская диагностика

Диагностическое обслуживание

Таргетированная реклама

Разведка природных ресурсов

Детектирование спама

Анализ данных телеметрии

Программы лояльности

Анализ оттока клиентов

Научные исследования

Оптимизация веб-приложений

Обнаружение сетевых атак

Умные системы мониторинга

Gartner Hype

ML курильщика

• 1910-е – ключевые работы

Фишера по статистике

• 1943 – работы Мак-Калокка

и Питтса по основам

нейронных сетей

• 1617-1622 – основные

работы Кеплера по

астрономии на базе

наблюдений Тихо Браге

ML нормального

человека

Глобальный процесс ML

Определение

задачи

Подготовка

данных

Обучение

модели

Проверка

результата

Работа

Обучающая выборка (training

sample) — выборка, по которой

производится настройка

(оптимизация

параметров) модели

зависимости.

Тестовая (или контрольная)

выборка (test sample) — выборка,

по которой оценивается качество

построенной модели.

Внутренний процесс ML

Определение

гипотезы

Подготовка

признаков

Обучение

модели

Проверка

результата

Обучающая выборка (training

sample) — выборка, по которой

производится настройка

(оптимизация

параметров) модели

зависимости.

Тестовая (или контрольная)

выборка (test sample) — выборка,

по которой оценивается качество

построенной модели.

Это не каскад, это итерация

100 120 140 160 180 200 220 240-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

33503450355036503750385039504050415042504350445045504650475048504950505051505250535054505550565057505850595060506150625063506450655066506750

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

335034503550365037503850395040504150425043504450455046504750485049505050515052505350545055505650575058505950605061506250635064506550665067500

20

40

60

80

100

120

140

Постановка задачи

По возможности сводите задачу к классической и хорошо изученной.

Так вы сузите область поиска.

Чем точнее поставлена задача/гипотеза, тем измеримее итоговый результат.

Жаль, что это не всегда возможно.

Если уже есть готовое решение, а сроки горят, используйте его!

CNTK – не замена для Bing Speech API

Примеры из практики Microsoft

Партнер X: минимизация издержек завода по производству хлеба

РТС-Тендер: поиск поставщиков к закупкам на площадке

ManzanaGroup: рекомендации в Retail

Партнер Y: BI чеков с касс

The Question: поиск близких вопросов

Action Media: разбор писем

Партнер Z: оптимизация поставок в пиццерию

Партнер W: высокочастотный трейдинг

Подготовка/предобработка данных

Azure Batch

(AI Training)

Azure ML

(Studio)

Azure Data Lake

Analytics

Azure Data Lake

StoreAzure HDInsight Azure Data

Warehouse

Azure SQL

Database

Azure App

Service

Azure Functions Azure Storage Data Science

VM

Azure Service

Fabric

Azure Cloud

Service

Azure

CosmosDB

Azure Search Azure Container

Service

Azure Stream

Analytics

Azure Cognitive

Services

Azure Data

Factory

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards &

Visualizations

Cortana

Bot

Framework

Cognitive

Services

Power BI

Information

Management

Event Hubs

Data Catalog

Data Factory

Machine Learning

and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake

Analytics

Machine

Learning

Big Data Stores

SQL Data

Warehouse

Data Lake Store

Data Sources

Apps

Sensors and devices

Data

Cortana Intelligence SuiteTransform data into intelligent action

Azure Machine LearningМощный сервис машинного обучения

и предиктивной аналитики

Apps + insightsSocial

LOB

Graph

IoT

Image

CRM INGEST STORE PREP & TRAIN MODEL & SERVE

Data orchestration and monitoring

Data lake and storage

Hadoop/Spark/SQL and ML

Increasing data volumes. New data sources and types. Open Source languages.

Azure Machine Learning

IoT

A Z U R E M A C H I N E L E A R N I N G V N E X T

• Workbench

• Experimentation service

• Model management

• Visual Studio Code Tools for AI

• MMLSpark

Azure Data Lake Store

A No limits Data Lake that powers Big Data Analytics

Petabyte size files and Trillions of objects

Scalable throughput for massively parallel

analytics

HDFS for the cloud

Always encrypted, role-based security &

auditing

Enterprise-grade support

Azure Data Lake Analytics

A No limits Analytics Job Service to power intelligent action

Start in seconds, scale instantly, pay per job

Develop massively parallel programs with

simplicity

Debug and optimize your big data programs

with ease

Virtualize your analytics

Enterprise-grade security, auditing and

support

Azure HDInsight

A Cloud Spark and Hadoop service for the Enterprise

Reliable with an industry leading SLA

Enterprise-grade security and monitoring

Productive platform for developers and

scientists

Cost effective cloud scale

Integration with leading ISV applications

Easy for administrators to manage

63% lower TCO than deploy your own

Hadoop on-premises*

*IDC study “The Business Value and TCO Advantage of Apache Hadoop in the Cloud with Microsoft Azure HDInsight”

Applications

Legacy IOT (custom protocols)

Devices

IP-capable devices(Windows/Linux)

Low-power devices (RTOS)

Event Hubs

SQL DB

Storage Blobs and Tables

Power BI

Document DB

Reference

Data

Service Bus Queues, Topics

Azure Data Lake

Saas

Azure

PublicCloud

Office 365Office 365

AzureAzure

Azure Data Factory

Collect data from many different on-premises data sources, ingest and prepare it, organize and analyze it with a range of transformations, then publish ready-to-use

data for consumption

Подготовка/предобработка данных

Azure Batch

(AI Training)

Azure ML

(Studio)

Azure Data Lake

Analytics

Azure Data Lake

StoreAzure HDInsight Azure Data

Warehouse

Azure SQL

Database

Azure App

Service

Azure Functions Azure Storage Data Science

VM

Azure Service

Fabric

Azure Cloud

Service

Azure

CosmosDB

Azure Search Azure Container

Service

Azure Stream

Analytics

Azure Cognitive

Services

Azure Data

Factory

Примеры из практики Microsoft

Партнер X: минимизация издержек завода по производству хлеба

РТС-Тендер: поиск поставщиков к закупкам на площадке

Manzana Group: рекомендации в Retail

Партнер Y: BI чеков с касс

The Question: поиск близких вопросов

Action Media: разбор писем

Партнер Z: оптимизация поставок в пиццерию

Партнер W: высокочастотный трейдинг

Выбор и обучение модели

Azure Batch

(AI Training)

Azure ML

(Studio)

Azure Data Lake

Analytics

Azure Data Lake

StoreAzure HDInsight Azure Data

Warehouse

Azure SQL

Database

Azure App

Service

Azure Functions Azure Storage Data Science

VM

Azure Service

Fabric

Azure Cloud

Service

Azure

CosmosDB

Azure Search Azure Container

Service

Azure Stream

Analytics

Azure Cognitive

Services

Azure Data

Factory

Примеры из практики Microsoft

Патнер X: минимизация издержек завода по производству хлеба

РТС-Тендер: поиск поставщиков к закупкам на площадке

ManzanaGroup: рекомендации в Retail

Партнер Y: BI чеков с касс

The Question: поиск близких вопросов

Action Media: разбор писем

Партнер Z: оптимизация поставок в пиццерию

Партнер W: высокочастотный трейдинг

Внедрение

Azure Batch

(AI Training)

Azure ML

(Studio)

Azure Data Lake

Analytics

Azure Data Lake

StoreAzure HDInsight Azure Data

Warehouse

Azure SQL

Database

Azure App

Service

Azure Functions Azure Storage Data Science

VM

Azure Service

Fabric

Azure Cloud

Service

Azure

CosmosDB

Azure Search Azure Container

Service

Azure Stream

Analytics

Azure Cognitive

Services

Azure Data

Factory

Примеры из практики Microsoft

Партнер X: минимизация издержек завода по производству хлеба

РТС-Тендер: поиск поставщиков к закупкам на площадке

ManzanaGroup: рекомендации в Retail

Партнер Y: BI чеков с касс

The Question: поиск близких вопросов

Action Media: разбор писем

Партнер Z: оптимизация поставок в пиццерию

Партнер W: высокочастотный трейдинг

За один шаг до машинного обученияЕвгений Григоренко

Tech. Evangelist | CSE

evgrigor@microsoft.com

Глобальная задача НИИ НДХиТИсходные данные: анализ КЩС крови пациентов реанимации НИИ НДХиТ.

Глобальная задача: выявление скрытой информации о состоянии пациента, поиск метода поддержки принятия решений

Метод проверки результатов: ретроспективное сравнение с историями болезней/онлайн мониторинг с попытками предсказания

𝐻𝑏 𝐾+ 𝑁𝑎+ 𝐶𝑎+ 𝑝𝐻 𝑝𝐶02 𝑝𝑂2 𝑠𝑂2 𝐵𝐸 𝐺𝑙𝑢 𝐿𝑎𝑐 𝐵𝑖𝑙

Визуализация данных НИИ НДХиТВизуализация 16-мерного пространства исходных данных

Выборка: данные за последний день перед выпиской из реанимации, окрашенные исходом

Гипотеза: данные разделимы

Проверка результатов НИИ НДХиТ

1 2 3 4 5 6 7 8 9 10 11 12 13

-10

-5

0

5

10

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15

-10

-5

0

5

10