Predicitive Analytics в InterSystems Caché

Predictive Analytics Лебедюк Эдуард

Модели, описывающие зависимости между данными с историческими и

текущими значениями для прогноза значений данных будущих

периодов

Особенности: – Соединяет инструменты статистики, машинного обучения, data mining

– Основано на вероятностных моделях

– Дополняет BI

Прогнозная аналитика

Прогнозные модели

Построение прогнозных моделей

• Анализ – Специальные навыки

– Специальные инструменты

• Данные – Исследовательская работа

– Большие объёмы данных

– «Очистка» данных

•В ретроспективе: –На основе ранее накопленных данных

•В прогнозировании: –На поступающих данных

Применение прогнозных моделей

• Predictive Modeling Markup Language 4.1

–XML расширение описания прогнозных моделей

–Полная поддержка некорректных и отсутствующих значений

–Разделение производителей моделей и пользователей

–Поддерживается основными производителями программного обеспечения для статистического анализа,

PMML

more info: www.dmg.org

сбор

данных подготовка

для анализа анализ

использование

полученных

данных

Что нужно сделать для построения модели

построение

модели

применение

модели

• Исследовательский стиль моделирования – «Есть ли в наших данных зависимости, достаточные

для построения прогноза?"

– Не забывайте о сохранении структуры данных.

– Экспортируйте построенные модели в PMML.

• Анализ текстов – Используйте iKnow

Построение прогнозных моделей

• Встроенная поддержка PMML – Скопируйте PMML в класс, наследующийся от

%DeepSee.PMML.Definition

– Необходимый код создаётся автоматически при компиляции

– Или создайте из веб-интерфейса

• Возможности использования – Бизнес-правила Ensemble

– Интеграция в DeepSee (Plug-in или Listing)

– CSP страница для тестирования

Применение прогнозной модели

•Наивный байесовский классификатор

•Нейронные сети

•Регрессионные модели

•Общие регрессионные модели

•Деревья решений

•Метод опорных векторов

•Кластерный анализ

•Модели основанные на правилах

Поддерживаемые типы моделей

• Статистический метод исследования влияния

одной или нескольких независимых

переменных X1, X2,…, Xn на зависимую

переменную Y.

• Независимые переменные иначе называют

регрессорами или предикторами, а

зависимые переменные — критериальными.

• Терминология зависимых и независимых

переменных отражает лишь математическую

зависимость переменных, а не причинно-

следственные отношения.

Регрессионные модели

Методология развивающая регрессионные модели для случая

не нормального распределения критериальной переменной.

Общие регрессионные модели

Состоят из элементов типа «листья» и «ветки». На ребрах («ветках»)

дерева решения записаны атрибуты, от которых зависит целевая

функция, в «листьях» записаны значения целевой функции, а в

остальных узлах — атрибуты, по которым различаются случаи. Чтобы

классифицировать новый случай, надо спуститься по дереву до листа и

выдать соответствующее значение.

Деревья

• Простой вероятностный классификатор, основанный на применении

Теоремы Байеса со строгими (наивными) предположениями о

независимости.

• Достоинством наивного байесовского классификатора является малое

количество данных для обучения, необходимых для оценки

параметров, требуемых для классификации.

Наивный байесовский классификатор

• Набор схожих алгоритмов вида «обучение с учителем», использующихся для задач

классификации и регрессионного анализа

• Принадлежит к семейству линейных классификаторов (построение линейной

разделяющей поверхности)

• Основная идея— перевод исходных векторов в пространство более высокой

размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом

пространстве.

Метод опорных векторов

• Многомерная статистическая процедура, выполняющая сбор данных,

содержащих информацию о выборке объектов, и затем

упорядочивающая объекты в сравнительно однородные группы.

• Задача кластеризации относится к статистической обработке, а также к

классу задач обучения без учителя.

Кластерный анализ

Представляют собой систему соединённых и взаимодействующих между собой

простых процессоров (искусственных нейронов).

Каждый нейрон сети имеет дело только с сигналами, которые он периодически

получает, и сигналами, которые он периодически посылает другим

процессорам.

Будучи соединёнными в достаточно большую сеть с управляемым

взаимодействием, такие локально простые процессоры вместе способны

выполнять довольно сложные задачи.

Нейронные сети

Rattle Knime RapidMiner

PMML

Workflow, meta

workflow

Выполнение в RAM

Подключение к БД

Наивный

байесовский

классификатор

Регрессионные

модели

Общие

регрессионные

модели

Деревья

Метод опорных

векторов

Нейронные сети

Программное обеспечение для PMML

Конец

Predicitive Analytics в InterSystems Caché

Software

Transcript of Predicitive Analytics в InterSystems Caché