Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf ·...

76
Интеллектуальная обработка информации Лекция 3 Хранилища данных (продолжение) Терновой Максим Юрьевич к.т.н., доцент кафедры информационно- телекоммуникационных сетей

Transcript of Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf ·...

Page 1: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

Интеллектуальная обработка информации

Лекция 3Хранилища данных

(продолжение)

Терновой Максим Юрьевичк.т.н., доцент кафедры информационно-

телекоммуникационных сетей

Page 2: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

Хранилища данных

● Описание хранилищ данных● Архитектура хранилища данных● Информационные потоки в хранилище данных● Инструменты и технологии хранилищ данных● Магазины данных

Page 3: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

Повторение основ проектирования БД

3

Page 4: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

4

Технологии Технологии хранения данныххранения данных

Page 5: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

5

1.Денормализованн1.Денормализованные, ые,

пространственные пространственные базы данныхбазы данных

Page 6: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

6

n Одним из направлений развития РБД в интересах систем принятия решений

является разработка таблиц с денормализованной формой

(модификации схемы организацииданных типа звезда).

n Пример схемы звезда (Таблица время, как пример ненормализованной

таблицы)

ДенормализованныеДенормализованные, , пространственныепространственные базыбазы данныхданных

Page 7: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

7

n В такой базе данных уже возможны так называемые аномалии и некоторые теретики баз данных склонны считать, что она не будет реляционной - это

будет пространственная база данных с целью анализа данных, а невыполнения транзакций.

ДенормализованныеДенормализованные, , пространственныепространственные базыбазы данныхданных

Page 8: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

8

n Нормализация данных в реляционных СУБД приводит к созданию множества связанных между собой таблиц. В результате, выполнение сложных запросов неизбежно

приводит к объединению многих таблиц, чтосущественно увеличивает время отклика.

n Создание хранилища данных подразумевает созданиеденормализованной структуры данных (допускаетсяизбыточность данных и возможность возникновения

аномалий при манипулировании данными), ориентированной в первую очередь на высокую

производительность при выполнении аналитическихзапросов.

n Нормализация делает модель хранилища слишкомсложной, затрудняет ее понимание и ухудшает

эффективность выполнения запроса.

Методология DimensionalМетодология Dimensional

Page 9: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

9

Как проектировать Как проектировать ненормализованную БД?ненормализованную БД?

●Большинство Case – средств проектирования БД поддерживает методологию моделирования хранилищ благодаря использованию специальной нотации для физической модели –Dimensional.

Page 10: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

10

Особенности проектированияОсобенности проектирования

●Моделирование Dimensional сходно с моделированием связей и сущностей для реляционной модели, но отличаются целями.

● Реляционная модель акцентируется на целостности и эффективности ввода данных.

●Размерная (Dimensional) модель ориентирована в первую очередь на выполнение сложных запросов к БД.

Page 11: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

11

О схеме звездаО схеме звезда

● В размерном моделировании принят стандарт модели, называемый схемой звезда (star schema), которая обеспечивает высокую скорость выполнения запроса посредством денормализации и разделения данных.

● Невозможно создать универсальную денормализованную структуру данных, обеспечивающую высокую производительность при выполнении любого аналитического запроса. Поэтому схема звезда строится так, чтобы обеспечить наивысшую производительность при выполнении одного самого важного запроса, либо для группы похожих запросов.

Page 12: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

12

Основные составляющие Основные составляющие структуры хранилищ данныхструктуры хранилищ данных

● Схема звезда обычно содержит одну большую таблицу, называемую таблицей фактов (fact table), помещенную в центр, и окружающие ее меньшие таблицы, называемые таблицами размерностей (dimensional table), соединенные с таблицей фактов в виде звезды радиальными связями. В этих связях таблицы размерности являются родительскими, таблица фактов -дочерней.

Page 13: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

13

Основные составляющие Основные составляющие структуры хранилищ данныхструктуры хранилищ данных

● Схема звезда может иметь также консольные таблицы (outrigger table), присоединенные к таблице размерности. Консольные таблицы являются родительскими, таблицы размерности - дочерними. Это приводит к частичной или полной нормализации таблиц «размерностей».

И таким образом можно перейти к схеме «снежинка».

● Стоит отметить, что связи присутствуют только один ко многим, причем много в направлении таблицы фактов, в случае когда от таблицы размерностей, и к таблице размерностей, если от консольной таблицы.

Page 14: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

14

СтруктураСтруктура ХД ХД –– звездазвезда(для анализа инфляции)(для анализа инфляции)

Page 15: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

15

Переход от «звезды» к Переход от «звезды» к «снежинке»«снежинке»

● Ниже приведен немного искусственный пример. В нем выделена одна главная таблица размерностей, а от нее уже идут «консольные» таблицы.

Page 16: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

16

Структура ХД Структура ХД -- снежинкаснежинка

Page 17: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

17

ОбозначенияОбозначения таблицтаблиц в в схемесхеме ““звездазвезда””

Page 18: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

18

Таблица(ы) фактовТаблица(ы) фактов

● Прежде чем создать DW со схемой типа звезда, необходимо проанализировать бизнес-правила предметной области с целью выяснения центрального вопроса, ответ на который наиболее важен. Все прочие вопросы должны быть объединены вокруг этого основного вопроса и моделирование должно начинаться с него. Данные, необходимые для ответа на этот вопрос, должны быть помещены в центральную таблицу модели - таблицу фактов

Page 19: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

19

О связи таблицы фактов с О связи таблицы фактов с таблицами измеренийтаблицами измерений

● Таблица факта является центральной таблицей в схеме звезда. Она может состоять из миллионов строк и содержать суммирующие или фактические данные, которые могут помочь ответить на требуемые вопросы.

● Она соединяет данные, которые хранились бы во многих таблицах традиционных реляционных базах данных.

● Таблица факта и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу факта в качестве внешних ключей. В размерной модели направления связей явно не показываются – они определяются типом таблиц.

Page 20: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

20

О связи таблицы фактов с О связи таблицы фактов с таблицами измеренийтаблицами измерений

● Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Чаще всего это целочисленные значения либо значения типа «дата/время» — ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, и хранить в ней повторяющиеся текстовые описания, как правило, невыгодно — лучше поместить их в меньшие по объему таблицы измерений.

Page 21: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

21

Первичный ключ (таблица факта “REVENUE”) Первичный ключ (таблица факта “REVENUE”) составлен из четырех внешних ключей: movie_key, составлен из четырех внешних ключей: movie_key,

market_key, customer_key и time_keymarket_key, customer_key и time_key

Page 22: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

22

Наиболее часто встречающихся Наиболее часто встречающихся типы фактовтипы фактов

● факты, связанные с транзакциями (Transaction facts). Они основаны на отдельных событиях (типичными примерами которых являются телефонный звонок или снятие денег со счета с помощью банкомата) («факты действий»);

● факты, связанные с «моментальными снимками» (Snapshot facts). Основаны на состоянии объекта (например, банковского счета) в определенные моменты времени, например на конец дня или месяца. Типичными примерами таких фактов являются объем продаж за день или дневная выручка;

● факты, связанные с элементами документа (Line-item facts). Основаны на том или ином документе (например, счете за товар или услуги) и содержат подробную информацию об элементах этого документа (например, количестве, цене, проценте скидки);

● факты, связанные с событиями или состоянием объекта (Event or state facts). Представляют возникновение события без подробностей о нем (например, просто факт продажи или факт отсутствия таковой без иных подробностей).

Page 23: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

23

О детализации фактовО детализации фактов

● Для многомерного анализа пригодны таблицы фактов, содержащие как можно более подробные данные (то есть соответствующие членам нижних уровней иерархии соответствующих измерений).

● В данном случае предпочтительнее взять за основу факты продажи товаров отдельным заказчикам, а не суммы продаж для разных стран — последние все равно будут вычислены OLAP-средством.

Page 24: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

24

Правила агрегации данныхПравила агрегации данных

● В таблице фактов нет никаких сведений о том, как группировать записи при вычислении агрегатных данных.

● Например, в ней есть идентификаторы продуктов или клиентов, но отсутствует информация о том, к какой категории относится данный продукт или в каком городе находится данный клиент.

● Эти сведения, в дальнейшем используемые для построения иерархий в измерениях куба, содержатся в таблицах измерений.

Page 25: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

25

Таблицы измеренийТаблицы измерений● Таблицы измерений содержат неизменяемые либо редко изменяемые данные (типа справочник). В подавляющем большинстве случаев эти данные представляют собой по одной записи для каждого члена нижнего уровня иерархии в измерении.

● Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ) для однозначной идентификации члена измерения.

● Если будущее измерение, основанное на данной таблице измерений, содержит иерархию, то таблица измерений также может содержать поля, указывающие на «родителя» данного члена в этой иерархии.

Page 26: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

26

Отличие от схемы «звезда»Отличие от схемы «звезда»● Если хотя бы одно измерение содержится в нескольких связанных таблицах, такая схема хранилища данных носит название «снежинка» (snowflake schema).

● Дополнительные таблицы измерений в такой схеме, обычно соответствующие верхним уровням иерархии измерения и находящиеся в соотношении «один ко многим» в главной таблице измерений, соответствующей нижнему уровню иерархии, иногда называют консольными таблицами (outrigger table).

Page 27: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

27

Связи консольных таблицСвязи консольных таблиц● Консольные таблицы могут быть связаны только с таблицами размерности, причем консольная таблица в этой связи родительская, а таблица размерности -дочерняя.

● Связь может быть идентифицирующей или неидентифицирующей.

● Консольная таблица не может быть связана таблицей факта.

● Она используется для нормализации данных в таблицах размерности.

● Нормализация данных полезна при моделировании реляционной структуры, но она уменьшает эффективность выполнения запросов к хранилищу данных.

Page 28: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

28

Связи консольных таблицСвязи консольных таблиц● В размерной модели главной целью является обеспечение высокой эффективности просмотра данных и выполнения сложных запросов.

● Схема снежинка обычно препятствует эффективности, потому что требует объединения многих таблиц для построения результирующего набора данных, что увеличивает время выполнения запроса.

● Поэтому при проектировании не следует злоупотреблять созданием множества консольных таблиц.

Page 29: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

29

Закладка Dimensional диалога Table EditorЗакладка Dimensional диалога Table Editor

● В диалоге описания свойств таблицы Table Editor имеется закладка Dimensional, в которой задаются специфические свойства таблицы в размерной модели, роль таблицы в схеме (Dimensional Modeling Role)

Page 30: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

30

Правила хранения данных (Data Warehouse Rules)Правила хранения данных (Data Warehouse Rules)

● Для каждой таблицы можно задать шесть типов правил манипулирования данными: обновление (Refresh), дополнение (Append), резервное копирование (Backup), восстановление (Recovery), архивирование (Archiving) и очистка (Purge).

● Для задания правила следует выбрать имя правила из соответствующего списка выбора. Каждое правило должно быть предварительно описано в диалоге Data Warehouse Rule Editor (меню Edit / Data Warehouse Rule).

● Для каждого правила должно быть задано имя, тип, определение.

● Например, определение правила дополнения данных может включать частоту и время дополнения (ежедневно, в конце рабочего дня), продолжительность операции и т.д. Связать правила с определенной таблицей можно с помощью диалога Table Editor.

Page 31: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

31

2. 2. КубыКубы данныхданных((многомернаямногомерная

модельмодельданныхданных))

Page 32: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

32

Понятие о кубахПонятие о кубах● Куб OLAP - это структура, в которой хранятся совокупности данных, полученные из базы данных OLAP путем всех возможных сочетаний измерений с фактами в таблице фактов.

● Исходя из этого, создание окончательного отчета выполняется гораздо эффективнее, поскольку не требует выполнения никакого сложного запроса.

Page 33: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

33

Вид трехмерного Вид трехмерного кубакуба

Page 34: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

Примеры срезов

● По данному кубу можно получить двумерные срезы (Пример на доске)

● А если куб размерности n>3, то мы можем получать гораздо больше различных срезов с размерностями <n

34

Page 35: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

35

Основными понятиями Основными понятиями многомерной модели данных многомерной модели данных

являются:являются:● Показатель - это величина (обычно числового типа), которая собственно и является предметом анализа. Один OLAP-куб может обладать одним или несколькими показателями. В многомерном хранилище может быть не одна таблица фактов.

● Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя. Измерение принято визуализировать в виде ребра многомерного куба.

● Объекты, совокупность которых и образует измерение, называются членами измерений (members). Члены измерений визуализируют как точки или участи, откладываемые на осях гиперкуба. Например, временное измерение: Дни, Месяцы, Кварталы, Годы - наиболее часто используемые в анализе, могут содержать следующие члены: 8 мая 2002 года, май 2002 года, 2-ой квартал 2002 года и 2002 год.Как уже было сказано, объекты в измерениях могут быть различного типа, например "производители" - "марки автомобиля" или "годы" - "кварталы". Эти объекты должны быть организованы в иерархическую структуру так, чтобы объекты одного типа принадлежали только одному уровню иерархии.

● Ячейка (cell) - атомарная структура куба, соответствующая конкретному значению некоторого показателя. Ячейки при визуализации располагаются внутри куба и здесь же принято

Page 36: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

36

Роль измерений в Роль измерений в кубекубе

● Измерения играют роль индексов, используемых для идентификации значений показателей, находящихся в ячейках гиперкуба.

● Комбинация членов различных измерений играют роль координат, которые определяют значение определенного показателя.

Page 37: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

37

РольРоль измеренийизмерений в в кубекубе

● Поскольку для куба может быть определено несколько показателей, то комбинация членов всех измерения будет определять несколько ячеек со значениями каждого из показателей.

● Поэтому для однозначной идентификации ячейки необходимо указать комбинацию членов всех измерений и показатель.

Page 38: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

РольРоль измеренийизмерений в в кубекубе● То есть может быть несколько таблиц фактов, и есть несколько измерений. (пример на доске)

● Некоторые измерения участвуют в определении всех таблиц фактов (коллективные измерения), а какие-то используются только для одной или более (но не всех) таблиц фактов (частные)

38

Page 39: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

39

Многомерный куб с Многомерный куб с несколькими таблицами несколькими таблицами

фактовфактов

Page 40: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

РольРоль измеренийизмерений в в кубекубе● Если мы указываем значения для всех измерений, то мы получим конкретное значение

● Если мы для какого-то измерения не указываем его значение, то мы увидим значения факта по всему диапазону этого измерения

40

Page 41: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

Роль измерений в кубе

● Так как по сути мы можем изобразить только плоскую таблицу, то получается, что мы можем не задавать значения только для двух измерений, чтобы получить адекватный результат

● Но что делать если нам нужно несколько измерений, больше чем 2?

41

Page 42: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

Роль измерений в кубе

● В этом случае мы получим «вложенную» таблицу, где как заголовки первой строки будут значение измерения 1, для каждого такого заголовка будут во второй строке указываться значения измерения 2 и т.д.

● В итоге мы получим иерархию● Для столбцов будет аналогичная ситуация● Пример (курс-группы студентов)

42

Page 43: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

43

Иерархии в измерениях необходимы Иерархии в измерениях необходимы для возможности агрегации и для возможности агрегации и

детализации значений показателейдетализации значений показателей

Существуют следующие типы иерархий:

●сбалансированные (balanced);

● несбалансированные (unbalanced);

●Неровные (balanced).

Page 44: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

44

Сбалансированные Сбалансированные иерархии иерархии

● Это - иерархии, в которых число уровней определено её структурой и неизменно, и каждая ветвь иерархического дерева содержит объекты каждого из уровней.

● Каждому производителю автомобилей может соответствовать несколько марок автомобилей, а каждой марке - несколько моделей автомобилей, поэтому можно говорить о трёхуровневой иерархии этих объектов.

● В этом случае на первом уровне иерархии располагаются производители, на втором - марки, а на третьем - модели.

● Как видно, для формирования сбалансированной иерархии необходимо наличие связи "один-ко-многим" между объектами менее детального уровня по отношению к объектам более детального уровня.

● В принципе каждый уровень сбалансированной иерархии можно представить как отдельное простое измерение, но тогда эти измерения окажутся зависимыми, в значит неизбежно повышение разреженности куба.

Page 45: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

45

Несбалансированные Несбалансированные иерархиииерархии

● Это - иерархии, в которых число уровней может быть изменено, и каждая ветвь иерархического дерева может содержать объекты, принадлежащие не всем уровням, только нескольким первым.

● Необходимо заметить, что все объекты несбалансированной иерархии принадлежат одному типу.

● Типичный пример несбалансированной иерархии - иерархия типа "начальник-подчиненный", где все объекты имеют один и тот же тип - "Сотрудник".

Page 46: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

46

Неровные иерархииНеровные иерархии● Это- иерархии, в которых число уровней определено её структурой и постоянно, однако в отличие от сбалансированной иерархии некоторые ветви иерархического дерева могут не содержать объекты какого-либо уровня.

● Иерархии такого вида содержат такие члены, логические "родители" которых не находятся на непосредственно вышестоящем уровне.

● Типичным примером является географическая иерархия, в которой есть уровни "Страны", "Штаты " и "Города", но при этом в наборе данных имеются страны, не имеющие штатов или регионов между уровнями "Страны" и "Города".

Page 47: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

47

АгрегатыАгрегаты● Агрегатами называют агрегированные по определенным условиям исходные значения показателей.

● Обычно под агрегацией понимается любая процедура формирования меньшего количества значений (агрегатов) на основании большего количества исходных значений.

Page 48: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

48

АгрегатыАгрегаты● В дальнейшем под терминами агрегирование иагрегация будем понимать исключительнопроцесс суммирования данных.

● Заблаговременное формирование исохранение агрегатов с целью уменьшениявремени отклика на пользовательский запросявляется основным свойством системподдержки оперативного анализа.

Page 49: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

49

DW с DW с витринамивитринамиданныхданных(магазины (магазины

данных)данных)

Page 50: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

50

Варианты реализации хранилищ Варианты реализации хранилищ данных:данных:

●Виртуальное хранилище данных

●Концепция CIF●Концепция Data Warehouse

Bus●Гибридная многоуровневая архитектура хранилища данных

Page 51: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

51

Виртуальное хранилище Виртуальное хранилище данныхданных

● В данном случае в отличие от классического (физического) ХД данные из оперативных источников данных (ОИД) не копируются в единое хранилище.

● Они извлекаются, преобразуются и интегрируются непосредственно при выполнении аналитических запросов в оперативной памяти компьютера. Фактически такие запросы напрямую адресуются к ОИД

Page 52: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

52

Основными достоинствами Основными достоинствами виртуального ХД являются:виртуального ХД являются:

●минимизация объема памяти, занимаемой на носителе информацией;

●работа с текущими, детализированными данными.

Page 53: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

53

Недостатки технологии Недостатки технологии виртуального хранилищавиртуального хранилища

● Время обработки запросов к виртуальному ХД значительно превышает соответствующие показатели для физического хранилища.

● Интегрированный взгляд на виртуальное хранилище возможен только при выполнении условия постоянной доступности всех ОИД.

● Таким образом, временная недоступность хотя бы одного из источников может привести либо к невыполнению аналитических запросов, либо к неверным результатам.

Page 54: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

54

Недостатки технологии Недостатки технологии виртуального хранилищавиртуального хранилища

● Различные ОИД могут поддерживать разные форматы и кодировки данных. Часто на один и тот же вопрос может быть получено несколько вариантов ответа. Это может быть связано с несинхронностью моментов обновления данных в разных ОИД, отличиями в описании одинаковых объектов и событий предметной области, ошибками при вводе, утерей фрагментов архивов и т. д.

● Главным же недостатком виртуального хранилища следует признать практическую невозможность получения данных за долгий период времени. При отсутствии физического хранилища доступны только те данные, которые на момент запроса есть в ОИД. Основное назначение OLTP-систем —оперативная обработка текущих данных, поэтому они не ориентированы на хранение данных за длительный период времени. По мере устаревания данные выгружаются в архив и удаляются из оперативной БД.

Page 55: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

55

Концепция Corporate Information Концепция Corporate Information Factory, (сокр. СIF) Билла Factory, (сокр. СIF) Билла

ИнмонаИнмона● Концепция CIF объединила оперативные приложения, накопители оперативных данных (Operational Data Store, ODS, OLTP-системы), центральное хранилище данных (DW), витрины данных (Data Mart) и системы интеллектуального анализа данных (Data Mining) в единый процесс выработки и потребления информации на предприятии.

● В CIF оперативные приложения служат для управления частными процессами. ODS накапливают в себе временные срезы различных процессов, происходящих на предприятии, и согласуют их между собой. ODS часто используется как оперативный источник информации. Как правило, ODS хранят значительно более детализированную информацию, чем хранилище, но за меньший период времени — от полугода до года, так как для доступа к данным в нем не используются предварительно рассчитываемые агрегаты.

Page 56: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

56

Работа Хранилища СIF состоит из Работа Хранилища СIF состоит из следующих этапов:следующих этапов:

● скоординированное извлечение данных из источников.

● загрузка реляционной базы данных, состоящей из таблиц в третьей нормальной форме, содержащей атомарные данные.

● получившееся нормализованное Хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа.

● Эти репозитории, в частности, включают специализированные Хранилища для изучения и "добычи" данных (Data Mining), a также витрины данных.

Page 57: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

57

КонцепцияКонцепция Data Data Warehouse BusWarehouse Bus (Хранилище

Кимболла)● Использование пространственной модели организации данных с архитектурой "звезда" (star scheme).

● Использование двухуровневой архитектуры, которая включает стадию подготовки данных, недоступную для конечных пользователей, и Хранилище.

● В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного Хранилища данных.

● Хранилище Кимболла - скорее "виртуальный" объект. Это коллекция витрин данных, которые могут быть пространственно разобщенными.

Page 58: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

58

Гибридное хранилище Гибридное хранилище данныхданных

● В последнее время все более популярной становится идея совместить концепции хранилища и витрины данных в одной реализации и использовать хранилище данных в качестве единственного источника интегрированных данных для всех витрин данных.

● Тогда естественной становится трехуровневая архитектура системы.

Page 59: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

59

Гибрид нормализованного и Гибрид нормализованного и пространственного Хранилищ пространственного Хранилищ

данныхданных

Page 60: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

60

Первый уровеньПервый уровеньгибридного хранилищагибридного хранилища● На первом уровне реализуется корпоративное хранилище данных на основе одной из развитых современных реляционных СУБД. Это хранилище интегрированных в основном детализированных данных. Реляционные СУБД обеспечивают эффективное хранение и управление данными очень большого объема, но не слишком хорошо соответствуют потребностям OLAP-систем, в частности, в связи с требованием многомерного представления данных.

Page 61: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

61

Второй уровеньВторой уровеньгибридного хранилищагибридного хранилища

● На втором уровне поддерживаются витрины данных на основе многомерной системы управления базами данных (примером такой системы является Oracle Express Server). Такие СУБД почти идеально подходят для целей разработки OLAP-систем, но пока не позволяют хранить сверхбольшие объемы данных (предельный размер многомерной базы данных составляет 10-40 Гбайт). В данном случае это и не требуется, поскольку речь идет о витринах данных.

● Витрина данных не обязательно должна быть полностью сформирована. Она может содержать ссылки на хранилище данных и добирать оттуда информацию по мере поступления запросов. Конечно, это несколько увеличивает время отклика, но зато снимает проблему ограниченного объема многомерной базы данных.

Page 62: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

62

Третий уровеньТретий уровеньгибридного хранилищагибридного хранилища

●На третьем уровне находятся клиентские рабочие места конечных пользователей, на которых устанавливаются средства оперативного анализа данных.

Page 63: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

63

Форматы Форматы хранения хранения данных в данных в

OLAP кубахOLAP кубах

Page 64: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

64

Данные форматы различаются Данные форматы различаются методами хранения кубов данныхметодами хранения кубов данных

●многомерный OLAP-формат (Multi-dimensional OLAP -MOLAP);

● реляционный OLAP-формат (Relational OLAP - ROLAP);

● гибридный OLAP-формат (Hybrid OLAP - HOLAP).

Page 65: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

65

MOLAPMOLAP● MOLAP является многомерным форматом хранения данных, который отличается высоким быстродействием. Помимо поддержки OLAP самих кубов данных при выборе данного формата данные будут храниться в многомерных структурах на OLAP-сервере (OLAP-структуры).

● MOLAP обеспечивает наилучшее быстродействие выполнения запросов, поскольку этот формат специально оптимизирован для многомерных запросов к данным.

Page 66: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

66

Преимущества и Преимущества и недостатки MOLAPнедостатки MOLAP

● Поскольку MOLAP требует копирования и преобразования всех данных в надлежащий формат для многомерной структуры хранилища данных, MOLAP можно применять для небольших или средних объемов данных.

● Основное преимущество MOLAP заключается в превосходных свойствах индексации; ее недостаток — низкий коэффициент использования дискового пространства, особенно в случае разреженных данных.

Page 67: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

67

Область применения Область применения MOLAPMOLAP

● объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), т.е. уровень агрегации данных достаточно высок;

● набор информационных измерений стабилен (поскольку любое изменение в их структуре почти всегда требует полной перестройки гиперкуба);

● время ответа системы на нерегламентированные запросы является наиболее критичным параметром;

● широкое использование сложных встроенных функций требуется для выполнения кроссмерных вычислений над ячейками гиперкуба, в том числе возможности написания пользовательских функций.

Page 68: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

68

ROLAPROLAP

●Реляционные хранилища OLAP содержат данные, передаваемые в кубы данных, вместе с агрегациями данных куба, причем данные хранятся в реляционных таблицах, размещенных в реляционном ХД.

Page 69: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

69

Преимущества ROLAPПреимущества ROLAP :

● в большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД, и инструменты ROLAP позволяют производить анализ непосредственно над ними. При этом размер хранилища не является таким критичным параметром, как в MOLAP;

● при переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP-системы с динамическим представлением размерности являются оптимальным решением, так как в них такие модификации не требуют физической реорганизации БД;

● реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав

Page 70: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

70

НедостаткиНедостаткиROLAPROLAP● Главный недостаток ROLAP по сравнению с MOLAP — меньшая производительность.

● Для обеспечения производительности, сравнимой с многомерными базами данных, необходимо использовать звездообразные схемы. В этом случае производительность реляционных систем может быть приближена к производительности систем на основе MOLAP.

Page 71: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

71

HOLAPHOLAP● Гибридная архитектура, которая объединяет технологии

ROLAP и MOLAP. В отличие от MOLAP, которая работает лучше, когда данные более плотные, серверы ROLAP лучше в тех случаях, когда данные довольно разрежены.

● Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP — для плотных областей.

● Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.

● При использовании данного формата OLAP-данные, передаваемые в куб данных, хранятся в реляционных базах данных подобно ROLAP. А агрегации данных (данные куба) записываются и представляются в многомерном формате.

Page 72: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

72

Преимущества и Преимущества и недостатки HOLAPнедостатки HOLAP

● Преимуществом данной системы является обеспечение возможности связи с огромными наборами данных в реляционных таблицах и прирост производительности за счет использования многомерных хранилищ.

● Недостаток состоит том, что количество проводимых преобразований между ROLAP и MOLAP системами может существенно влиять на общую эффективность.

Page 73: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

73

Сравнительные Сравнительные характеристикихарактеристики

МассивыЗаписиЗаписиСтруктурные элементы

Исторические,текущие

и прогнозируем

ые

Исторические и

текущие

ТекущиеСроки хранения данных

СуммарныеДетальные и суммарные

ДетальныеУровень данных

БольшойОт малого до большого

НебольшойОбъем данных на транзакцию

Определяемые пользовател

ем

Определяемые

пользователем

Неизменяемые

Экраны

ВысокийСреднийНизкийУровень аналитических требований

АнализОтчетОбновлениеТиповая операция4321

MOLAPROLAPOLTPХарактеристика

Page 74: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

74

Достоинства Достоинства OLAP:OLAP:

● простота использования и восприятия выходных таблиц;

● полнота аналитических данных;● полная и легкая настройка отчета без программиста;

● возможность детализировать отчет в процессе анализа данных (от итогов к деталям);

● формирование отчетов в несколько раз быстрее;● непротиворечивость данных в отчетах;● консолидация информации из разных баз данных;● повышенная защита данных;● эквивалентность одного OLAP-отчета целому набору простых отчетов (пример, по аналогии с перекрестным запросом).

Page 75: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

75

Недостатки OLAP:Недостатки OLAP:● не ориентирован на получение форм отчетности с произвольным дизайном;

● некоторые пользователи визуально плохо воспринимают выходные таблицы;

● ограниченные возможности создания оперативных отчетов;

● основная проблема: необходимость разработки хранилищ данных.

Page 76: Разд 9 11 c 256-333 - its.kpi.uaits.kpi.ua/subjects/45/Documents/Лекція 3.pdf · nПример схемы звезда ... хранилища данных носит название

76

ЛитератураЛитература● Перминов Г.И. УМК - «Системы

интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

● Microsoft SQL Server 2005. Analysis Services. Под ред. Горбач И. –С-Пб,: БХВ-Петербург, 2007

● Э. Спирли. Корпоративные хранилища данных. Планирование, разработка, реализация. Том. 1: Пер. с англ. - М.: "Вильямс", 2001.

● http://www.dw-institute.com/lessons