EDW on Data Vault with Big Data
-
Upload
sergey-sukharev -
Category
Documents
-
view
102 -
download
1
Transcript of EDW on Data Vault with Big Data
Аналитические Системы для Бизнеса
Data Vault – новая парадигма хранилищ
данных для Big Data
Сергей Сухарев Руководитель BI-практики
Сергей Сухарев
Архитектор BI/DWH
> 20 лет в IT
> 16 лет в DWH
Руководитель практики BI компании BI Partner
Сергей Сухарев
Архитектура классических хранилищ данных
ENTERPRISE DATA WAREHOUSE
(batch) Продажи
Финансы
Контракты Сложные
бизнес-правила и зависимости
Stagind (EDW)
staging + history
Star Schemas
Conformed Dimension Junk Tables
Helper Tables Factless Fact
Сложные бизнес-правила
Зависимость от качества данных
Не все данные из источника представлены в ХД
В процессе обработки в данные вносятся изменения
Высокий риск некорректного расчета показателей
История изменения первичных данных не может быть восстановлена по данным ХД
Трудности при проектировании больших систем (не все показатели одинаково трактуются бизнес-пользователями)
Подключение нового источника в классическом ХД
Поток трансформации данных
Продажи
Финансы
Покупатель
Приход денег от покупателя
CRM
Управление отношениями с покупателями
Новый источник данных
Source Join
Трансформация данных согласно бизнес-правилам
Необходимо внести изменения, при подключении нового источника данных
Жизненный цикл классического хранилища данных
Изменения и корректировки согласованных витрин данных вызывают экспоненциальный рост кривой затрат в течение всего времени жизни хранилища данных
Результат: каждое бизнес-подразделение строит собственную витрину данных
Низкий
Высокий Трудоем
кост
ь
и з
атр
аты
Витрина данных v I
Витрина данных v II
Витрина данных v III
Цикл жизни ХД
Архитектура хранилищ данных 2.0 (DW 2.0)
Основные преимущества
Гибкость
Производительность
Отказоустойчивость
Масштабируемость
Легкость в поддержке и развитии
Легкость аудита данных
ENTERPRISE DATA WAREHOUSE Продажи
Финансы
Контракты
SOA
STAGING
Неструктурированные данные
EDW (DATA VAULT)
Star Schemas
Error Mart
Report Collection
REAL TIME
BATCH
Сложные бизнес-правила и зависимости
Трансформация данных, согласно бизнес-правилам перемещается ближе к бизнесу, это улучшает время реакции, снижает стоимость и минимизирует последствия изменений в корпоративном хранилище данных (EDW)
Согласно концепции DW 2.0 хранилища данных разделяются на два слоя:
Слой хранения данных (собственно хранилище данных)
Слой представления данных (витрины данных)
Методология Data Vault соответствует принципам построения DW 2.0
Архитектура Data Vault
LINK
HUB
HUB HUB
DATA VAULT Продажи
Финансы
Покупатель
Приход денег от покупателя
CRM
Управление отношениями с покупателем
Новый источник данных
staging (copy)
staging (copy)
staging (copy)
Жизненный цикл хранилища данных по Data Vault
Низкий
Цикл жизни хранилища данных
Добавление новых функциональных областей
Начало построения ХД
Высокий
Трудоем
кост
ь
и з
атр
аты
Фундамент ХД построен
В Data Vault не бывает реинжиниринга
Снижает стоимость решения и затраты на обслуживание системы с течением времени
Упрощает процессы расширения архитектуры системы
Data Vault. Определение
Data Vault – это детальная, логически связанная, структура, хранящая полную историю
изменения данных в источниках. Закрывает одну или несколько бизнес-областей
предприятия. Гибридный подход, в котором применяется 3НФ и схема «звезда».
Преимущество при переходе с ХД традиционной структуры (звезда или снежинка) на ХД,
организованное по схеме Data Vault:
Гибкость. Быстрое внесение массовых изменений в структуру ХД без переделки
предыдущей структуры.
Масштабируемость. Нет ограничений по увеличению размеров и масштабов ХД
Производительность. Позволяет снижать стоимость и сложность процессов
загрузки данных
Объекты Data Vault
HUB HUB
LINK
SATELLITE SATELLITE
SATELLITE
SATELLITE
1. Hub
Hub хранит уникальные бизнес-ключи сущностей
2. Link
Link определяет транзакционные, ассоциативные
и ролевые связи сущностей
3. Satellite
Satellite содержит:
Данные.
Историю изменения данных.
Историю изменения связей между сущностями.
Hadoop не заменяет реляционные базы данных или платформы традиционных
хранилищ данных, но его лучше соотношение цена/производительность может помочь организациям снизить затраты, сохраняя при этом существующую инфраструктуру отчетности.
Hadoop может содержать в себе все виды данных: структурированных, частично структурированных и не структурированных. Одно из важных свойств среды – низкая стоимость хранения и легкость масштабирования.
Одним из эффективных способов использования технологий Big Data является применение этой технологии в организации корпоративных хранилищ данных. В этом случае организуется зона первичных данных, содержащая полную историю изменения данных в источниках (идеально подходит для ХД структуры Data Vault).
Hadoop
Hadoop вносит изменения в традиционную парадигму хранилищ данных
Apache Hive
Command Line Interface (CLI)
Hive Web Interface (HWI)
Hive Thrift Server
(Port 10000)
JDBC
ODBC
HIVE
Managed (Internal) External Objects (Files, HBase etc)
Hive Metastore (RDBMS)
JDBC
Hadoop Distributed File System (HDFS)
SQuirrel SQL
ETL\BI Tools
Apache Hive – хранилище данных для Hadoop
Apache Hive
HiveQL – SQL подобный язык запросов к данным.
Разработан для работы с данными большого объема (PB).
Предназначен для анализа данных в т.ч. с использованием ad-hoc запросов.
Умеет работать с DDL операторами: database \ table \ partition \ bucket.
Поддерживает стандартные и комплексные типы данных.
Легко расширяется.
Не предназначен для небольших баз данных и OLTP систем.
Apache Hive для хранилища данных
Централизация данных
MPP и MAP/REDUCE
Низкая стоимость хранения данных
Можно использовать сегментирование данных (partitioning)
Можно использовать сжатие данных
Можно выбирать формат хранения данных
Гибкость
Файловое управление данными
Данные нельзя обновлять (update) и удалять (delete)
Для разработки приложений необходимы навыки высококлассного программиста
Трудно оптимизировать
Пример создания базы данных в Apache Hive
CREATE DATABASE ds2dw;
dfs -ls /user/hive/warehouse
База данных представляет собой пространство имен для хранения объектов и физически создается в Hadoop Distributed File System (HDFS)
Пример создания объектов (таблиц) в Apache Hive
DROP TABLE IF EXISTS STG_CATEGORIES;
CREATE TABLE STG_CATEGORIES
(
STG_SQN INT,
LOAD_DTS STRING,
RECSRC STRING,
MD5KEY STRING,
MD5DIFF STRING,
CAT_ID INT,
CATEGORYNAME STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
use ds2dw;
DROP TABLE IF EXISTS HUB_CUSTOMERS;
CREATE TABLE HUB_CUSTOMERS
(
CUSTOMER_KEY STRING,
CUSTOMER_ID STRING,
LOAD_DTS STRING,
RECSRC STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS SEQUENCEFILE;
Витрины данных от HP Vertica
HADOOP CLUSTER
(Data Vault)
DATA MART EDW
HP VERTICA
CLUSTER
BI
business intelligence server
Apache HBase – база данных на Hadoop
Apache ™ Hbase - не реляционная (NoSQL) база
данных, которая работает поверх Distributed File
System (HDFS) в Hadoop.
Колоночная база данных, которая обеспечивает
отказоустойчивость хранения и быстрый доступ к
большим объемам разреженных данных.
Добавляет транзакционные возможности для Hadoop,
что позволяет пользователям проводить обновление,
вставку и удаление данных.
Поддерживает автоматическую балансировку
нагрузки.
Поддерживает кэширование в памяти.
Поддерживает репликацию через центр обработки
данных.
HDFS tables
INSERT… SELECT… FROM…
HBase
ONLINE QUERIES
HBase как целевая среда процесса ETL
HDFS tables
SELECT… JOIN…
GROUP BY…
HBase
Результат запроса
HBase как источник данных
HDFS tables
HBase
HIVE QUERIES
Таблицы измерений
Таблицы фактов
HBase и Hive как высокопроизводительная витрина данных
CREATE TABLE DIM_CUSTOMER ( CUSTOMER_KEY STRING, FIRSTNAME STRING, LASTNAME STRING, ADDRESS1 STRING, ADDRESS2 STRING, ZIP STRING, REGION INT, EMAIL STRING, PHONE STRING, AGE INT, INCOME INT, GENDER STRING ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping"=":key,cf1:val0,cf2:val1,cf3:val2,cf4:val3,cf5:val4,cf6:val5,cf7:val6,cf8:val7,cf9:val8,cf10:val9,cf11:val9") TBLPROPERTIES ("hbase.table.name"="DIM_CUSTOMER")
Пример создания таблицы и измерений
Для input\output format, getSplits() и т.д. используются базовые классы HBase
Функции выбора столбца и некоторые фильтры могут быть перенесены вниз к HDFS
Таблицы HBase могут быть использованы с другими Hadoop-объектами в SQL конструкциях
DDL операторы Hive преобразуются в DDL операторы HBase
Интеграция HBase и Hive
Преимущества Big Data
Непомерно высокая стоимость масштабирования традиционных ХД приводит к экономически неоправданным затратам, и даже если это масштабирование достигнуто, производительность традиционных систем не позволяет производить обработку большого объема данных.
Применение технологий Big Data многократно снижает стоимость аппаратных средств для организации ХД, по сравнению с традиционными СУБД на аналогичных объемах данных.
[email protected] www.bipartner.ru
Демонстрационный стенд
Платформа: HORTONWORKS (HDP 2.0)
Apache Hadoop User Interface (HUE)
Источник данных MS SQL Server 2008 R2
Данные загружены в систему при помощи Apache SQOOP
sqoop import --connect "jdbc:sqlserver://10.0.1.7:1433;database=MOTORS;username=motors;password=motors" --table MODEL --hive-import --hive-table motors.model
Для соединения с витриной данных на HIVE используется JDBC драйвер
Платформа аналитической отчетности SAP BusinessObjects 4.0 SP5
О компании BI Partner
Год основания: 2002
Первая в России консалтинговая компания, специализирующаяся на бизнес-аналитике
Более 100 проектов в области ХД и BI
Партнер SAP по системам управления эффективностью бизнеса
SAP Reseller
SAP PCoE (Partner Centre of Expertise)
SAP Preferred Training Partner
SAP Subscription-based Hosting Program Provider
Партнер Oracle по базовым технологиям и хранилищам данных
Oracle Platinum Partner
Специализация Datawarehousing
Специализация Oracle Database Performance Tuning
Специализация Oracle Database
Партнер IBM по бизнес-аналитике и бюджетному управлению
IBM Premium Business Partner
Опыт
Реинжиниринг традиционных хранилищ данных в структуру Data Vault с применением «традиционных» баз данных
Создание корпоративного ХД в структуре Data Vault на платформе Hadoop
Создание витрин данных поверх хранилищ данных с применением решений Oracle Exadata и SAP HANA
Создание витрин данных поверх хранилищ данных c применением «колоночных» баз данных HP Vertica
Что мы предлагаем в области Big Data / Data Vault
Предложение
Компания BI Partner приглашает к сотрудничеству в реализации пилотных проектов «Построение хранилищ данных на
технологиях Big Data»
Мы можем помочь вам развернуть кластер среднего уровня – до 10 узлов на платформе Hortonworks