Predicitive Analytics в InterSystems Caché
-
Upload
intersystems-cee -
Category
Software
-
view
131 -
download
0
Transcript of Predicitive Analytics в InterSystems Caché
Predictive Analytics Лебедюк Эдуард
Модели, описывающие зависимости между данными с историческими и
текущими значениями для прогноза значений данных будущих
периодов
Особенности: – Соединяет инструменты статистики, машинного обучения, data mining
– Основано на вероятностных моделях
– Дополняет BI
Прогнозная аналитика
Прогнозные модели
Построение прогнозных моделей
• Анализ – Специальные навыки
– Специальные инструменты
• Данные – Исследовательская работа
– Большие объёмы данных
– «Очистка» данных
•В ретроспективе: –На основе ранее накопленных данных
•В прогнозировании: –На поступающих данных
Применение прогнозных моделей
• Predictive Modeling Markup Language 4.1
–XML расширение описания прогнозных моделей
–Полная поддержка некорректных и отсутствующих значений
–Разделение производителей моделей и пользователей
–Поддерживается основными производителями программного обеспечения для статистического анализа,
PMML
more info: www.dmg.org
сбор
данных подготовка
для анализа анализ
использование
полученных
данных
Что нужно сделать для построения модели
построение
модели
применение
модели
• Исследовательский стиль моделирования – «Есть ли в наших данных зависимости, достаточные
для построения прогноза?"
– Не забывайте о сохранении структуры данных.
– Экспортируйте построенные модели в PMML.
• Анализ текстов – Используйте iKnow
Построение прогнозных моделей
• Встроенная поддержка PMML – Скопируйте PMML в класс, наследующийся от
%DeepSee.PMML.Definition
– Необходимый код создаётся автоматически при компиляции
– Или создайте из веб-интерфейса
• Возможности использования – Бизнес-правила Ensemble
– Интеграция в DeepSee (Plug-in или Listing)
– CSP страница для тестирования
Применение прогнозной модели
•Наивный байесовский классификатор
•Нейронные сети
•Регрессионные модели
•Общие регрессионные модели
•Деревья решений
•Метод опорных векторов
•Кластерный анализ
•Модели основанные на правилах
Поддерживаемые типы моделей
• Статистический метод исследования влияния
одной или нескольких независимых
переменных X1, X2,…, Xn на зависимую
переменную Y.
• Независимые переменные иначе называют
регрессорами или предикторами, а
зависимые переменные — критериальными.
• Терминология зависимых и независимых
переменных отражает лишь математическую
зависимость переменных, а не причинно-
следственные отношения.
Регрессионные модели
Методология развивающая регрессионные модели для случая
не нормального распределения критериальной переменной.
Общие регрессионные модели
Состоят из элементов типа «листья» и «ветки». На ребрах («ветках»)
дерева решения записаны атрибуты, от которых зависит целевая
функция, в «листьях» записаны значения целевой функции, а в
остальных узлах — атрибуты, по которым различаются случаи. Чтобы
классифицировать новый случай, надо спуститься по дереву до листа и
выдать соответствующее значение.
Деревья
• Простой вероятностный классификатор, основанный на применении
Теоремы Байеса со строгими (наивными) предположениями о
независимости.
• Достоинством наивного байесовского классификатора является малое
количество данных для обучения, необходимых для оценки
параметров, требуемых для классификации.
Наивный байесовский классификатор
• Набор схожих алгоритмов вида «обучение с учителем», использующихся для задач
классификации и регрессионного анализа
• Принадлежит к семейству линейных классификаторов (построение линейной
разделяющей поверхности)
• Основная идея— перевод исходных векторов в пространство более высокой
размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом
пространстве.
Метод опорных векторов
• Многомерная статистическая процедура, выполняющая сбор данных,
содержащих информацию о выборке объектов, и затем
упорядочивающая объекты в сравнительно однородные группы.
• Задача кластеризации относится к статистической обработке, а также к
классу задач обучения без учителя.
Кластерный анализ
Представляют собой систему соединённых и взаимодействующих между собой
простых процессоров (искусственных нейронов).
Каждый нейрон сети имеет дело только с сигналами, которые он периодически
получает, и сигналами, которые он периодически посылает другим
процессорам.
Будучи соединёнными в достаточно большую сеть с управляемым
взаимодействием, такие локально простые процессоры вместе способны
выполнять довольно сложные задачи.
Нейронные сети
Rattle Knime RapidMiner
PMML
Workflow, meta
workflow
Выполнение в RAM
Подключение к БД
Наивный
байесовский
классификатор
Регрессионные
модели
Общие
регрессионные
модели
Деревья
Метод опорных
векторов
Нейронные сети
Программное обеспечение для PMML
Конец