EDW on Data Vault with Big Data

Аналитические Системы для Бизнеса

Data Vault – новая парадигма хранилищ

данных для Big Data

Сергей Сухарев Руководитель BI-практики

Сергей Сухарев

Архитектор BI/DWH

> 20 лет в IT

> 16 лет в DWH

Руководитель практики BI компании BI Partner

Сергей Сухарев

Архитектура классических хранилищ данных

ENTERPRISE DATA WAREHOUSE

(batch) Продажи

Финансы

Контракты Сложные

бизнес-правила и зависимости

Stagind (EDW)

staging + history

Star Schemas

Conformed Dimension Junk Tables

Helper Tables Factless Fact

Сложные бизнес-правила

Зависимость от качества данных

Не все данные из источника представлены в ХД

В процессе обработки в данные вносятся изменения

Высокий риск некорректного расчета показателей

История изменения первичных данных не может быть восстановлена по данным ХД

Трудности при проектировании больших систем (не все показатели одинаково трактуются бизнес-пользователями)

Подключение нового источника в классическом ХД

Поток трансформации данных

Продажи

Финансы

Покупатель

Приход денег от покупателя

CRM

Управление отношениями с покупателями

Новый источник данных

Source Join

Трансформация данных согласно бизнес-правилам

Необходимо внести изменения, при подключении нового источника данных

Жизненный цикл классического хранилища данных

Изменения и корректировки согласованных витрин данных вызывают экспоненциальный рост кривой затрат в течение всего времени жизни хранилища данных

Результат: каждое бизнес-подразделение строит собственную витрину данных

Низкий

Высокий Трудоем

кост

ь

и з

атр

аты

Витрина данных v I

Витрина данных v II

Витрина данных v III

Цикл жизни ХД

Архитектура хранилищ данных 2.0 (DW 2.0)

Основные преимущества

Гибкость

Производительность

Отказоустойчивость

Масштабируемость

Легкость в поддержке и развитии

Легкость аудита данных

ENTERPRISE DATA WAREHOUSE Продажи

Финансы

Контракты

SOA

STAGING

Неструктурированные данные

EDW (DATA VAULT)

Star Schemas

Error Mart

Report Collection

REAL TIME

BATCH

Сложные бизнес-правила и зависимости

Трансформация данных, согласно бизнес-правилам перемещается ближе к бизнесу, это улучшает время реакции, снижает стоимость и минимизирует последствия изменений в корпоративном хранилище данных (EDW)

Согласно концепции DW 2.0 хранилища данных разделяются на два слоя:

Слой хранения данных (собственно хранилище данных)

Слой представления данных (витрины данных)

Методология Data Vault соответствует принципам построения DW 2.0

Архитектура Data Vault

LINK

HUB

HUB HUB

DATA VAULT Продажи

Финансы

Покупатель

Приход денег от покупателя

CRM

Управление отношениями с покупателем

Новый источник данных

staging (copy)

staging (copy)

staging (copy)

Жизненный цикл хранилища данных по Data Vault

Низкий

Цикл жизни хранилища данных

Добавление новых функциональных областей

Начало построения ХД

Высокий

Трудоем

кост

ь

и з

атр

аты

Фундамент ХД построен

В Data Vault не бывает реинжиниринга

Снижает стоимость решения и затраты на обслуживание системы с течением времени

Упрощает процессы расширения архитектуры системы

Data Vault. Определение

Data Vault – это детальная, логически связанная, структура, хранящая полную историю

изменения данных в источниках. Закрывает одну или несколько бизнес-областей

предприятия. Гибридный подход, в котором применяется 3НФ и схема «звезда».

Преимущество при переходе с ХД традиционной структуры (звезда или снежинка) на ХД,

организованное по схеме Data Vault:

Гибкость. Быстрое внесение массовых изменений в структуру ХД без переделки

предыдущей структуры.

Масштабируемость. Нет ограничений по увеличению размеров и масштабов ХД

Производительность. Позволяет снижать стоимость и сложность процессов

загрузки данных

Объекты Data Vault

HUB HUB

LINK

SATELLITE SATELLITE

SATELLITE

SATELLITE

1. Hub

Hub хранит уникальные бизнес-ключи сущностей

2. Link

Link определяет транзакционные, ассоциативные

и ролевые связи сущностей

3. Satellite

Satellite содержит:

Данные.

Историю изменения данных.

Историю изменения связей между сущностями.

Hadoop не заменяет реляционные базы данных или платформы традиционных

хранилищ данных, но его лучше соотношение цена/производительность может помочь организациям снизить затраты, сохраняя при этом существующую инфраструктуру отчетности.

Hadoop может содержать в себе все виды данных: структурированных, частично структурированных и не структурированных. Одно из важных свойств среды – низкая стоимость хранения и легкость масштабирования.

Одним из эффективных способов использования технологий Big Data является применение этой технологии в организации корпоративных хранилищ данных. В этом случае организуется зона первичных данных, содержащая полную историю изменения данных в источниках (идеально подходит для ХД структуры Data Vault).

Hadoop

Hadoop вносит изменения в традиционную парадигму хранилищ данных

Apache Hive

Command Line Interface (CLI)

Hive Web Interface (HWI)

Hive Thrift Server

(Port 10000)

JDBC

ODBC

HIVE

Managed (Internal) External Objects (Files, HBase etc)

Hive Metastore (RDBMS)

JDBC

Hadoop Distributed File System (HDFS)

SQuirrel SQL

ETL\BI Tools

Apache Hive – хранилище данных для Hadoop

Apache Hive

HiveQL – SQL подобный язык запросов к данным.

Разработан для работы с данными большого объема (PB).

Предназначен для анализа данных в т.ч. с использованием ad-hoc запросов.

Умеет работать с DDL операторами: database \ table \ partition \ bucket.

Поддерживает стандартные и комплексные типы данных.

Легко расширяется.

Не предназначен для небольших баз данных и OLTP систем.

Apache Hive для хранилища данных

Централизация данных

MPP и MAP/REDUCE

Низкая стоимость хранения данных

Можно использовать сегментирование данных (partitioning)

Можно использовать сжатие данных

Можно выбирать формат хранения данных

Гибкость

Файловое управление данными

Данные нельзя обновлять (update) и удалять (delete)

Для разработки приложений необходимы навыки высококлассного программиста

Трудно оптимизировать

Пример создания базы данных в Apache Hive

CREATE DATABASE ds2dw;

dfs -ls /user/hive/warehouse

База данных представляет собой пространство имен для хранения объектов и физически создается в Hadoop Distributed File System (HDFS)

Пример создания объектов (таблиц) в Apache Hive

DROP TABLE IF EXISTS STG_CATEGORIES;

CREATE TABLE STG_CATEGORIES

(

STG_SQN INT,

LOAD_DTS STRING,

RECSRC STRING,

MD5KEY STRING,

MD5DIFF STRING,

CAT_ID INT,

CATEGORYNAME STRING

)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

use ds2dw;

DROP TABLE IF EXISTS HUB_CUSTOMERS;

CREATE TABLE HUB_CUSTOMERS

(

CUSTOMER_KEY STRING,

CUSTOMER_ID STRING,

LOAD_DTS STRING,

RECSRC STRING

)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

STORED AS SEQUENCEFILE;

Витрины данных от HP Vertica

HADOOP CLUSTER

(Data Vault)

DATA MART EDW

HP VERTICA

CLUSTER

BI

business intelligence server

https://www.google.ru/url?sa=i&rct=j&q=&esrc=s&frm=1&source=images&cd=&cad=rja&uact=8&docid=hK6GeX4vOwBG-M&tbnid=GAkZ-oPn1U9WWM:&ved=0CAcQjRw&url=https://www.frameworktraining.co.uk/big-data-hadoop-cray-supercomputer-cluster/&ei=ptI0VJqEGYHgyQOk4oKYDg&bvm=bv.76943099,d.bGQ&psig=AFQjCNEmMMeIMK6i3EJ-A2AIj-v7Gn4bgg&ust=1412834080067050

Apache HBase – база данных на Hadoop

Apache ™ Hbase - не реляционная (NoSQL) база

данных, которая работает поверх Distributed File

System (HDFS) в Hadoop.

Колоночная база данных, которая обеспечивает

отказоустойчивость хранения и быстрый доступ к

большим объемам разреженных данных.

Добавляет транзакционные возможности для Hadoop,

что позволяет пользователям проводить обновление,

вставку и удаление данных.

Поддерживает автоматическую балансировку

нагрузки.

Поддерживает кэширование в памяти.

Поддерживает репликацию через центр обработки

данных.

HDFS tables

INSERT… SELECT… FROM…

HBase

ONLINE QUERIES

HBase как целевая среда процесса ETL

HDFS tables

SELECT… JOIN…

GROUP BY…

HBase

Результат запроса

HBase как источник данных

HDFS tables

HBase

HIVE QUERIES

Таблицы измерений

Таблицы фактов

HBase и Hive как высокопроизводительная витрина данных

CREATE TABLE DIM_CUSTOMER ( CUSTOMER_KEY STRING, FIRSTNAME STRING, LASTNAME STRING, ADDRESS1 STRING, ADDRESS2 STRING, ZIP STRING, REGION INT, EMAIL STRING, PHONE STRING, AGE INT, INCOME INT, GENDER STRING ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping"=":key,cf1:val0,cf2:val1,cf3:val2,cf4:val3,cf5:val4,cf6:val5,cf7:val6,cf8:val7,cf9:val8,cf10:val9,cf11:val9") TBLPROPERTIES ("hbase.table.name"="DIM_CUSTOMER")

Пример создания таблицы и измерений

Для input\output format, getSplits() и т.д. используются базовые классы HBase

Функции выбора столбца и некоторые фильтры могут быть перенесены вниз к HDFS

Таблицы HBase могут быть использованы с другими Hadoop-объектами в SQL конструкциях

DDL операторы Hive преобразуются в DDL операторы HBase

Интеграция HBase и Hive

Преимущества Big Data

Непомерно высокая стоимость масштабирования традиционных ХД приводит к экономически неоправданным затратам, и даже если это масштабирование достигнуто, производительность традиционных систем не позволяет производить обработку большого объема данных.

Применение технологий Big Data многократно снижает стоимость аппаратных средств для организации ХД, по сравнению с традиционными СУБД на аналогичных объемах данных.

[email protected] www.bipartner.ru

Демонстрационный стенд

Платформа: HORTONWORKS (HDP 2.0)

Apache Hadoop User Interface (HUE)

Источник данных MS SQL Server 2008 R2

Данные загружены в систему при помощи Apache SQOOP

sqoop import --connect "jdbc:sqlserver://10.0.1.7:1433;database=MOTORS;username=motors;password=motors" --table MODEL --hive-import --hive-table motors.model

Для соединения с витриной данных на HIVE используется JDBC драйвер

Платформа аналитической отчетности SAP BusinessObjects 4.0 SP5

О компании BI Partner

Год основания: 2002

Первая в России консалтинговая компания, специализирующаяся на бизнес-аналитике

Более 100 проектов в области ХД и BI

Партнер SAP по системам управления эффективностью бизнеса

SAP Reseller

SAP PCoE (Partner Centre of Expertise)

SAP Preferred Training Partner

SAP Subscription-based Hosting Program Provider

Партнер Oracle по базовым технологиям и хранилищам данных

Oracle Platinum Partner

Специализация Datawarehousing

Специализация Oracle Database Performance Tuning

Специализация Oracle Database

Партнер IBM по бизнес-аналитике и бюджетному управлению

IBM Premium Business Partner

Опыт

Реинжиниринг традиционных хранилищ данных в структуру Data Vault с применением «традиционных» баз данных

Создание корпоративного ХД в структуре Data Vault на платформе Hadoop

Создание витрин данных поверх хранилищ данных с применением решений Oracle Exadata и SAP HANA

Создание витрин данных поверх хранилищ данных c применением «колоночных» баз данных HP Vertica

Что мы предлагаем в области Big Data / Data Vault

Предложение

Компания BI Partner приглашает к сотрудничеству в реализации пилотных проектов «Построение хранилищ данных на

технологиях Big Data»

Мы можем помочь вам развернуть кластер среднего уровня – до 10 узлов на платформе Hortonworks

EDW on Data Vault with Big Data

Documents

Transcript of EDW on Data Vault with Big Data