Петрова Ксения - Data mining на практике - dmlabs.org
-
Upload
wg-events -
Category
Data & Analytics
-
view
499 -
download
0
description
Transcript of Петрова Ксения - Data mining на практике - dmlabs.org
![Page 1: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/1.jpg)
Data Mining на практике
Подводные камни в анализе данных
![Page 2: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/2.jpg)
Примеры проектов
Data mining в финансах:
1.Данные – финансовые отчеты (SEC-fillings) и биржевые показатели
2.Текст улучшает качество прогноза, но использование «в лоб» работает плохо
3.Требуется умный прогноз волатильности на основе текста и котировок
DM Labs
![Page 3: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/3.jpg)
Примеры проектов
Data mining в робототехнике:
1.Имеется ряд алгоритмов распознавания обьектов
2.Каждый алгоритм построен на своих принципах
3.Требуется умное сшивание результатов работы алгоритмов
DM Labs
![Page 4: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/4.jpg)
Примеры проектовРоботизированные манипуляторы
1.Данные – 8 ЕМГ сенсоров, 3Д положения руки в пространстве (motion capture)
2.Задача – восстановить 3Д положение руки, чтобы управлять роботом как джедай
4
http://www.brml.org/projects/body-machine-interfaces/
DM Labs
![Page 5: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/5.jpg)
У нас есть данные
5
DM Labs
![Page 6: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/6.jpg)
У нас есть данные
6
DM Labs
DB: SAP/ Oracle/ Hadoop
CRM
Qlickview/ Tableau
Excell
Pdf файлы
Видео
Изображения
![Page 7: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/7.jpg)
У нас есть данные
Мы предсталяем какой должен быть результат
Результат
7
DM Labs
![Page 8: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/8.jpg)
Доступна история снятий
Нужно предсказать потребность кэша в банкоматах
Результат
8
DM Labs
![Page 9: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/9.jpg)
Доступна история снятий
Нужно предсказать потребность кэша в банкоматах
Результат
9
DM Labs
Давайте решим в лоб!
![Page 10: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/10.jpg)
Доступна история снятий
Нужно предсказать потребность кэша
Результат
Давайте решим влоб!
10
DM Labs
![Page 11: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/11.jpg)
Куча ошибок!
• Данные – битые• Ошибки в типах• Кривой merge• Половина данных – без id/timestamp/…• …
Результат
11
DM Labs
![Page 12: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/12.jpg)
Куча ошибок!
• Данные – битые• Ошибки в типах• Кривой merge• Половина данных – без id/timestamp/…• …
Результат
12
DM Labs
![Page 13: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/13.jpg)
13
DM Labs
Обработка РезультатМодель
![Page 14: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/14.jpg)
14
DM Labs
Препарируем данные
• Создание признаков для модели
(feature engineering & feature learning)
• Сэмплирование данных
![Page 15: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/15.jpg)
15
DM Labs
Препарируем данные:
• Временные ряды: fft разложения, моменты с лагом
• Пользователи: признаки из графа(betweenness, degree, centrality, page rank), гео-специфика
• Признаки по активности/ действиям • Проекции PCA, ICA, RCA, deep*
![Page 16: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/16.jpg)
16
DM Labs
• Мозговой штурм• «Спросить у экспертов»• State of the art в области• Посмотреть продукты, PR материалы
Как генерировать признаки:
State of the art в области: ICML, KDD
![Page 17: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/17.jpg)
17
DM Labs
ПАРЕТО: 100% data ~ 100% insights 20% data ~ 80% insights
4% data ~ 64% insights
Оно работает – время моделировать
Пример выборки: 5% юзеров, записей, последних записей, уникальных юзеров
![Page 18: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/18.jpg)
18
DM Labs
У нас есть выборка: дальше что?
Главный принцип обучения:
Разделяй и властвуй Три раза отрежь
![Page 19: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/19.jpg)
19
DM Labs
Три раза отрежь
Выборка
Test set Cross-validation set Validation set
![Page 20: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/20.jpg)
20
DM Labs
•Вид модели•Гиперпараметры•Отбор признаков на уровне модели•Веса наблюдений при обучении.•Целевая функция (потерь)
Что нам стоит дом построить?
![Page 21: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/21.jpg)
21
DM Labs
• GBM: #base-learners, lambda, RI, *prune, Loss,
• SVM: kernel, width, cost, nu-SVM, ...• GLMnet: a.ridge, AIC, response family• RF: … ?• Neural Net: … ?
Вид модели и гиперпараметры
![Page 22: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/22.jpg)
22
DM Labs
Обработка РезультатМодель
Мы ничего не упускаем?
![Page 23: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/23.jpg)
23
DM Labs
Обработка РезультатМодель
Мы ничего не упускаем?
![Page 24: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/24.jpg)
Не решали ли эту задачу до нас?
• На какие признаки смотрят?• Что оптимизируют?• Что получается?• Какие модели используют?• Особенности моделей?
24
DM Labs
![Page 25: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/25.jpg)
Не решали ли эту задачу до нас?
• На какие признаки смотрят?• Что оптимизируют?• Что получается?• Какие модели используют?• Особенности моделей?
• Выбросы• Переобучение и недообучение
25
DM Labs
![Page 26: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/26.jpg)
Переобучение и недообучение
26
DM Labs
![Page 27: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/27.jpg)
Переобучение и недообучение
27
DM Labs
??
?
![Page 28: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/28.jpg)
Переобучение и недообучение
28
DM Labs
?
Слишком просто...
?
?
![Page 29: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/29.jpg)
Переобучение и недообучение
29
DM Labs
?
Слишком сложно...
?
?
![Page 30: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/30.jpg)
То, что надо!
30
DM Labs
?
?
?
?
![Page 31: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/31.jpg)
31
DM Labs
Обработка РезультатМодель
Мы ничего не упускаем?
![Page 32: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/32.jpg)
И это все?
Результат
МодельОбработкаГипотезы
32
DM Labs
![Page 33: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/33.jpg)
Гипотезы
• До того как вы не построили гипотезы, не нужно строить модель
• Без гипотез вы как слепые котята • Без гипотез вы ничего не объясните
руководству • Включите гипотезы руководства!
DM Labs
![Page 34: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/34.jpg)
И это все?
Результат
МодельОбработкаГипотезы
• Нет предела совершенству. Есть только ограничения по времени
• Можно начинать новый круг сразу с моделирования, можно с самого начала с данных (всякое бывает)
Можно сделать лучше?
34
DM Labs
![Page 35: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/35.jpg)
Доступна история снятий
Нужно предсказать потребность кэша
Результат
А это вообще кому-нибудь нужно?
МодельОбработкаГипотезы
35
DM Labs
![Page 36: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/36.jpg)
Бизнесу не нужны прогнозы!Бизнесу нужно снижать косты.
Нужна система ,уменьшающаякосты на обслуживание банкоматов
Результат
36
DM Labs
![Page 37: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/37.jpg)
Система минимизации костов:
•fix price за инкассацию
•Стоимость пролеживания денег
•Логистика
•Штрафы за банкомат без денег
37
DM Labs
![Page 38: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/38.jpg)
38
DM Labs
Расходы =Заказ машины +Простаивание денег(инфляция)
Минимум - составляющиеравны
![Page 39: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/39.jpg)
Доступна история снятий:
История операций:2008-2013 год
Количество устройств:● Кэшин - 66● Банкомат - 49● Касса - 10
39
DM Labs
![Page 40: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/40.jpg)
Данные:
• Банкомат (только кредитные операции)• Кэшин (только дебетные операции)• Касса (смесь операций банкомата икэшина)
40
DM Labs
![Page 41: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/41.jpg)
• Влияет расположение банкоматов• Праздники • Четко выделяются зарплатные дни• Погода .....
41
DM Labs
![Page 42: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/42.jpg)
•Объем операций за предыдущие 30 дней•Информация о текущем дне (номернедели, номер месяца)•Усредненные объемы операций за N дней•Погодные условия !+• Признаки с похожих банкоматов•Дополнительные преобразование (log)
42
DM Labs
![Page 43: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/43.jpg)
•Объем операций за предыдущие 30 дней•Информация о текущем дне (номернедели, номер месяца)•Усредненные объемы операций за N дней•Погодные условия !+• Признаки с похожих банкоматов•Дополнительные преобразование (log)
43
DM Labs
Выбросы: у нас в один день могут положить миллион, в другой день могут снять миллион
![Page 44: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/44.jpg)
44
DM Labs
![Page 45: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/45.jpg)
45
DM Labs
![Page 46: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/46.jpg)
Нужно завернуть прогнозы в систему минимизации костов:
46
DM Labs
Точность прогноза вторична к логике загрузки денег и инкассации банкоматов
Анализ дает снижение костов в среднем на 20% на 1 устройство
![Page 47: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/47.jpg)
Итого:
•Data quality management!
•Стоит смотреть, что уже делали другие
• Улучшать модель можно бесконечно
•Задача бизнеса первична
47
DM Labs
![Page 48: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/48.jpg)
Что поcмотреть:
• The Field Guide to Data Science
• R in a nutshell
• The R inferno
•Coursera: Computing in Data Science
48
DM Labs
![Page 50: Петрова Ксения - Data mining на практике - dmlabs.org](https://reader035.fdocument.pub/reader035/viewer/2022081511/558405c9d8b42a11168b456b/html5/thumbnails/50.jpg)