EDW on Data Vault with Big Data

40
Аналитические Системы для Бизнеса Data Vault – новая парадигма хранилищ данных для Big Data Сергей Сухарев Руководитель BI-практики

Transcript of EDW on Data Vault with Big Data

Page 1: EDW on Data Vault with Big Data

Аналитические Системы для Бизнеса

Data Vault – новая парадигма хранилищ

данных для Big Data

Сергей Сухарев Руководитель BI-практики

Page 2: EDW on Data Vault with Big Data

Сергей Сухарев

Архитектор BI/DWH

> 20 лет в IT

> 16 лет в DWH

Руководитель практики BI компании BI Partner

Сергей Сухарев

Page 3: EDW on Data Vault with Big Data
Page 4: EDW on Data Vault with Big Data

Архитектура классических хранилищ данных

ENTERPRISE DATA WAREHOUSE

(batch) Продажи

Финансы

Контракты Сложные

бизнес-правила и зависимости

Stagind (EDW)

staging + history

Star Schemas

Conformed Dimension Junk Tables

Helper Tables Factless Fact

Сложные бизнес-правила

Зависимость от качества данных

Не все данные из источника представлены в ХД

В процессе обработки в данные вносятся изменения

Высокий риск некорректного расчета показателей

История изменения первичных данных не может быть восстановлена по данным ХД

Трудности при проектировании больших систем (не все показатели одинаково трактуются бизнес-пользователями)

Page 5: EDW on Data Vault with Big Data

Подключение нового источника в классическом ХД

Поток трансформации данных

Продажи

Финансы

Покупатель

Приход денег от покупателя

CRM

Управление отношениями с покупателями

Новый источник данных

Source Join

Трансформация данных согласно бизнес-правилам

Необходимо внести изменения, при подключении нового источника данных

Page 6: EDW on Data Vault with Big Data

Жизненный цикл классического хранилища данных

Изменения и корректировки согласованных витрин данных вызывают экспоненциальный рост кривой затрат в течение всего времени жизни хранилища данных

Результат: каждое бизнес-подразделение строит собственную витрину данных

Низкий

Высокий Трудоем

кост

ь

и з

атр

аты

Витрина данных v I

Витрина данных v II

Витрина данных v III

Цикл жизни ХД

Page 7: EDW on Data Vault with Big Data
Page 8: EDW on Data Vault with Big Data

Архитектура хранилищ данных 2.0 (DW 2.0)

Основные преимущества

Гибкость

Производительность

Отказоустойчивость

Масштабируемость

Легкость в поддержке и развитии

Легкость аудита данных

ENTERPRISE DATA WAREHOUSE Продажи

Финансы

Контракты

SOA

STAGING

Неструктурированные данные

EDW (DATA VAULT)

Star Schemas

Error Mart

Report Collection

REAL TIME

BATCH

Сложные бизнес-правила и зависимости

Трансформация данных, согласно бизнес-правилам перемещается ближе к бизнесу, это улучшает время реакции, снижает стоимость и минимизирует последствия изменений в корпоративном хранилище данных (EDW)

Page 9: EDW on Data Vault with Big Data

Согласно концепции DW 2.0 хранилища данных разделяются на два слоя:

Слой хранения данных (собственно хранилище данных)

Слой представления данных (витрины данных)

Методология Data Vault соответствует принципам построения DW 2.0

Page 10: EDW on Data Vault with Big Data

Архитектура Data Vault

LINK

HUB

HUB HUB

DATA VAULT Продажи

Финансы

Покупатель

Приход денег от покупателя

CRM

Управление отношениями с покупателем

Новый источник данных

staging (copy)

staging (copy)

staging (copy)

Page 11: EDW on Data Vault with Big Data

Жизненный цикл хранилища данных по Data Vault

Низкий

Цикл жизни хранилища данных

Добавление новых функциональных областей

Начало построения ХД

Высокий

Трудоем

кост

ь

и з

атр

аты

Фундамент ХД построен

В Data Vault не бывает реинжиниринга

Снижает стоимость решения и затраты на обслуживание системы с течением времени

Упрощает процессы расширения архитектуры системы

Page 12: EDW on Data Vault with Big Data

Data Vault. Определение

Data Vault – это детальная, логически связанная, структура, хранящая полную историю

изменения данных в источниках. Закрывает одну или несколько бизнес-областей

предприятия. Гибридный подход, в котором применяется 3НФ и схема «звезда».

Преимущество при переходе с ХД традиционной структуры (звезда или снежинка) на ХД,

организованное по схеме Data Vault:

Гибкость. Быстрое внесение массовых изменений в структуру ХД без переделки

предыдущей структуры.

Масштабируемость. Нет ограничений по увеличению размеров и масштабов ХД

Производительность. Позволяет снижать стоимость и сложность процессов

загрузки данных

Page 13: EDW on Data Vault with Big Data

Объекты Data Vault

HUB HUB

LINK

SATELLITE SATELLITE

SATELLITE

SATELLITE

Page 14: EDW on Data Vault with Big Data

1. Hub

Hub хранит уникальные бизнес-ключи сущностей

Page 15: EDW on Data Vault with Big Data

2. Link

Link определяет транзакционные, ассоциативные

и ролевые связи сущностей

Page 16: EDW on Data Vault with Big Data

3. Satellite

Satellite содержит:

Данные.

Историю изменения данных.

Историю изменения связей между сущностями.

Page 17: EDW on Data Vault with Big Data
Page 18: EDW on Data Vault with Big Data

Hadoop не заменяет реляционные базы данных или платформы традиционных

хранилищ данных, но его лучше соотношение цена/производительность может помочь организациям снизить затраты, сохраняя при этом существующую инфраструктуру отчетности.

Hadoop может содержать в себе все виды данных: структурированных, частично структурированных и не структурированных. Одно из важных свойств среды – низкая стоимость хранения и легкость масштабирования.

Одним из эффективных способов использования технологий Big Data является применение этой технологии в организации корпоративных хранилищ данных. В этом случае организуется зона первичных данных, содержащая полную историю изменения данных в источниках (идеально подходит для ХД структуры Data Vault).

Hadoop

Hadoop вносит изменения в традиционную парадигму хранилищ данных

Page 19: EDW on Data Vault with Big Data

Apache Hive

Command Line Interface (CLI)

Hive Web Interface (HWI)

Hive Thrift Server

(Port 10000)

JDBC

ODBC

HIVE

Managed (Internal) External Objects (Files, HBase etc)

Hive Metastore (RDBMS)

JDBC

Hadoop Distributed File System (HDFS)

SQuirrel SQL

ETL\BI Tools

Apache Hive – хранилище данных для Hadoop

Page 20: EDW on Data Vault with Big Data

Apache Hive

HiveQL – SQL подобный язык запросов к данным.

Разработан для работы с данными большого объема (PB).

Предназначен для анализа данных в т.ч. с использованием ad-hoc запросов.

Умеет работать с DDL операторами: database \ table \ partition \ bucket.

Поддерживает стандартные и комплексные типы данных.

Легко расширяется.

Не предназначен для небольших баз данных и OLTP систем.

Page 21: EDW on Data Vault with Big Data

Apache Hive для хранилища данных

Централизация данных

MPP и MAP/REDUCE

Низкая стоимость хранения данных

Можно использовать сегментирование данных (partitioning)

Можно использовать сжатие данных

Можно выбирать формат хранения данных

Гибкость

Файловое управление данными

Данные нельзя обновлять (update) и удалять (delete)

Для разработки приложений необходимы навыки высококлассного программиста

Трудно оптимизировать

Page 22: EDW on Data Vault with Big Data

Пример создания базы данных в Apache Hive

CREATE DATABASE ds2dw;

dfs -ls /user/hive/warehouse

База данных представляет собой пространство имен для хранения объектов и физически создается в Hadoop Distributed File System (HDFS)

Page 23: EDW on Data Vault with Big Data

Пример создания объектов (таблиц) в Apache Hive

DROP TABLE IF EXISTS STG_CATEGORIES;

CREATE TABLE STG_CATEGORIES

(

STG_SQN INT,

LOAD_DTS STRING,

RECSRC STRING,

MD5KEY STRING,

MD5DIFF STRING,

CAT_ID INT,

CATEGORYNAME STRING

)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

use ds2dw;

DROP TABLE IF EXISTS HUB_CUSTOMERS;

CREATE TABLE HUB_CUSTOMERS

(

CUSTOMER_KEY STRING,

CUSTOMER_ID STRING,

LOAD_DTS STRING,

RECSRC STRING

)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

STORED AS SEQUENCEFILE;

Page 24: EDW on Data Vault with Big Data
Page 26: EDW on Data Vault with Big Data
Page 27: EDW on Data Vault with Big Data

Apache HBase – база данных на Hadoop

Apache ™ Hbase - не реляционная (NoSQL) база

данных, которая работает поверх Distributed File

System (HDFS) в Hadoop.

Колоночная база данных, которая обеспечивает

отказоустойчивость хранения и быстрый доступ к

большим объемам разреженных данных.

Добавляет транзакционные возможности для Hadoop,

что позволяет пользователям проводить обновление,

вставку и удаление данных.

Поддерживает автоматическую балансировку

нагрузки.

Поддерживает кэширование в памяти.

Поддерживает репликацию через центр обработки

данных.

Page 28: EDW on Data Vault with Big Data

HDFS tables

INSERT… SELECT… FROM…

HBase

ONLINE QUERIES

HBase как целевая среда процесса ETL

Page 29: EDW on Data Vault with Big Data

HDFS tables

SELECT… JOIN…

GROUP BY…

HBase

Результат запроса

HBase как источник данных

Page 30: EDW on Data Vault with Big Data

HDFS tables

HBase

HIVE QUERIES

Таблицы измерений

Таблицы фактов

HBase и Hive как высокопроизводительная витрина данных

Page 31: EDW on Data Vault with Big Data

CREATE TABLE DIM_CUSTOMER ( CUSTOMER_KEY STRING, FIRSTNAME STRING, LASTNAME STRING, ADDRESS1 STRING, ADDRESS2 STRING, ZIP STRING, REGION INT, EMAIL STRING, PHONE STRING, AGE INT, INCOME INT, GENDER STRING ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping"=":key,cf1:val0,cf2:val1,cf3:val2,cf4:val3,cf5:val4,cf6:val5,cf7:val6,cf8:val7,cf9:val8,cf10:val9,cf11:val9") TBLPROPERTIES ("hbase.table.name"="DIM_CUSTOMER")

Пример создания таблицы и измерений

Page 32: EDW on Data Vault with Big Data

Для input\output format, getSplits() и т.д. используются базовые классы HBase

Функции выбора столбца и некоторые фильтры могут быть перенесены вниз к HDFS

Таблицы HBase могут быть использованы с другими Hadoop-объектами в SQL конструкциях

DDL операторы Hive преобразуются в DDL операторы HBase

Интеграция HBase и Hive

Page 33: EDW on Data Vault with Big Data

Преимущества Big Data

Непомерно высокая стоимость масштабирования традиционных ХД приводит к экономически неоправданным затратам, и даже если это масштабирование достигнуто, производительность традиционных систем не позволяет производить обработку большого объема данных.

Применение технологий Big Data многократно снижает стоимость аппаратных средств для организации ХД, по сравнению с традиционными СУБД на аналогичных объемах данных.

[email protected] www.bipartner.ru

Page 34: EDW on Data Vault with Big Data
Page 35: EDW on Data Vault with Big Data

Демонстрационный стенд

Платформа: HORTONWORKS (HDP 2.0)

Apache Hadoop User Interface (HUE)

Источник данных MS SQL Server 2008 R2

Данные загружены в систему при помощи Apache SQOOP

sqoop import --connect "jdbc:sqlserver://10.0.1.7:1433;database=MOTORS;username=motors;password=motors" --table MODEL --hive-import --hive-table motors.model

Для соединения с витриной данных на HIVE используется JDBC драйвер

Платформа аналитической отчетности SAP BusinessObjects 4.0 SP5

Page 36: EDW on Data Vault with Big Data
Page 37: EDW on Data Vault with Big Data

О компании BI Partner

Год основания: 2002

Первая в России консалтинговая компания, специализирующаяся на бизнес-аналитике

Более 100 проектов в области ХД и BI

Партнер SAP по системам управления эффективностью бизнеса

SAP Reseller

SAP PCoE (Partner Centre of Expertise)

SAP Preferred Training Partner

SAP Subscription-based Hosting Program Provider

Партнер Oracle по базовым технологиям и хранилищам данных

Oracle Platinum Partner

Специализация Datawarehousing

Специализация Oracle Database Performance Tuning

Специализация Oracle Database

Партнер IBM по бизнес-аналитике и бюджетному управлению

IBM Premium Business Partner

Page 38: EDW on Data Vault with Big Data

Опыт

Page 39: EDW on Data Vault with Big Data

Реинжиниринг традиционных хранилищ данных в структуру Data Vault с применением «традиционных» баз данных

Создание корпоративного ХД в структуре Data Vault на платформе Hadoop

Создание витрин данных поверх хранилищ данных с применением решений Oracle Exadata и SAP HANA

Создание витрин данных поверх хранилищ данных c применением «колоночных» баз данных HP Vertica

Что мы предлагаем в области Big Data / Data Vault

Page 40: EDW on Data Vault with Big Data

Предложение

Компания BI Partner приглашает к сотрудничеству в реализации пилотных проектов «Построение хранилищ данных на

технологиях Big Data»

Мы можем помочь вам развернуть кластер среднего уровня – до 10 узлов на платформе Hortonworks