Predicitive Analytics в InterSystems Caché

19
Predictive Analytics Лебедюк Эдуард

Transcript of Predicitive Analytics в InterSystems Caché

Page 1: Predicitive Analytics в InterSystems Caché

Predictive Analytics Лебедюк Эдуард

Page 2: Predicitive Analytics в InterSystems Caché

Модели, описывающие зависимости между данными с историческими и

текущими значениями для прогноза значений данных будущих

периодов

Особенности: – Соединяет инструменты статистики, машинного обучения, data mining

– Основано на вероятностных моделях

– Дополняет BI

Прогнозная аналитика

Page 3: Predicitive Analytics в InterSystems Caché

Прогнозные модели

Page 4: Predicitive Analytics в InterSystems Caché

Построение прогнозных моделей

• Анализ – Специальные навыки

– Специальные инструменты

• Данные – Исследовательская работа

– Большие объёмы данных

– «Очистка» данных

Page 5: Predicitive Analytics в InterSystems Caché

•В ретроспективе: –На основе ранее накопленных данных

•В прогнозировании: –На поступающих данных

Применение прогнозных моделей

Page 6: Predicitive Analytics в InterSystems Caché

• Predictive Modeling Markup Language 4.1

–XML расширение описания прогнозных моделей

–Полная поддержка некорректных и отсутствующих значений

–Разделение производителей моделей и пользователей

–Поддерживается основными производителями программного обеспечения для статистического анализа,

PMML

more info: www.dmg.org

Page 7: Predicitive Analytics в InterSystems Caché

сбор

данных подготовка

для анализа анализ

использование

полученных

данных

Что нужно сделать для построения модели

построение

модели

применение

модели

Page 8: Predicitive Analytics в InterSystems Caché

• Исследовательский стиль моделирования – «Есть ли в наших данных зависимости, достаточные

для построения прогноза?"

– Не забывайте о сохранении структуры данных.

– Экспортируйте построенные модели в PMML.

• Анализ текстов – Используйте iKnow

Построение прогнозных моделей

Page 9: Predicitive Analytics в InterSystems Caché

• Встроенная поддержка PMML – Скопируйте PMML в класс, наследующийся от

%DeepSee.PMML.Definition

– Необходимый код создаётся автоматически при компиляции

– Или создайте из веб-интерфейса

• Возможности использования – Бизнес-правила Ensemble

– Интеграция в DeepSee (Plug-in или Listing)

– CSP страница для тестирования

Применение прогнозной модели

Page 10: Predicitive Analytics в InterSystems Caché

•Наивный байесовский классификатор

•Нейронные сети

•Регрессионные модели

•Общие регрессионные модели

•Деревья решений

•Метод опорных векторов

•Кластерный анализ

•Модели основанные на правилах

Поддерживаемые типы моделей

Page 11: Predicitive Analytics в InterSystems Caché

• Статистический метод исследования влияния

одной или нескольких независимых

переменных X1, X2,…, Xn на зависимую

переменную Y.

• Независимые переменные иначе называют

регрессорами или предикторами, а

зависимые переменные — критериальными.

• Терминология зависимых и независимых

переменных отражает лишь математическую

зависимость переменных, а не причинно-

следственные отношения.

Регрессионные модели

Page 12: Predicitive Analytics в InterSystems Caché

Методология развивающая регрессионные модели для случая

не нормального распределения критериальной переменной.

Общие регрессионные модели

Page 13: Predicitive Analytics в InterSystems Caché

Состоят из элементов типа «листья» и «ветки». На ребрах («ветках»)

дерева решения записаны атрибуты, от которых зависит целевая

функция, в «листьях» записаны значения целевой функции, а в

остальных узлах — атрибуты, по которым различаются случаи. Чтобы

классифицировать новый случай, надо спуститься по дереву до листа и

выдать соответствующее значение.

Деревья

Page 14: Predicitive Analytics в InterSystems Caché

• Простой вероятностный классификатор, основанный на применении

Теоремы Байеса со строгими (наивными) предположениями о

независимости.

• Достоинством наивного байесовского классификатора является малое

количество данных для обучения, необходимых для оценки

параметров, требуемых для классификации.

Наивный байесовский классификатор

Page 15: Predicitive Analytics в InterSystems Caché

• Набор схожих алгоритмов вида «обучение с учителем», использующихся для задач

классификации и регрессионного анализа

• Принадлежит к семейству линейных классификаторов (построение линейной

разделяющей поверхности)

• Основная идея— перевод исходных векторов в пространство более высокой

размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом

пространстве.

Метод опорных векторов

Page 16: Predicitive Analytics в InterSystems Caché

• Многомерная статистическая процедура, выполняющая сбор данных,

содержащих информацию о выборке объектов, и затем

упорядочивающая объекты в сравнительно однородные группы.

• Задача кластеризации относится к статистической обработке, а также к

классу задач обучения без учителя.

Кластерный анализ

Page 17: Predicitive Analytics в InterSystems Caché

Представляют собой систему соединённых и взаимодействующих между собой

простых процессоров (искусственных нейронов).

Каждый нейрон сети имеет дело только с сигналами, которые он периодически

получает, и сигналами, которые он периодически посылает другим

процессорам.

Будучи соединёнными в достаточно большую сеть с управляемым

взаимодействием, такие локально простые процессоры вместе способны

выполнять довольно сложные задачи.

Нейронные сети

Page 18: Predicitive Analytics в InterSystems Caché

Rattle Knime RapidMiner

PMML

Workflow, meta

workflow

Выполнение в RAM

Подключение к БД

Наивный

байесовский

классификатор

Регрессионные

модели

Общие

регрессионные

модели

Деревья

Метод опорных

векторов

Нейронные сети

Программное обеспечение для PMML

Page 19: Predicitive Analytics в InterSystems Caché

Конец