Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
-
Upload
leandro-mendes-ferreira -
Category
Technology
-
view
338 -
download
2
Transcript of Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
![Page 1: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/1.jpg)
Criação de Data Warehouse em Banco de
Dados NoSQL com Cassandra, Spark e
Python
Leandro Mendes Ferreira
![Page 2: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/2.jpg)
Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Apache Spark
• Construindo Data Warehouse em Banco de Dados NoSQL – Um
novo paradigma
• E o Python em toda essa história ?
![Page 3: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/3.jpg)
• Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiasta de Big Data (Artigo)
![Page 4: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/4.jpg)
Um pouco de Business Intelligence Data Warehouse
• Meados dos anos 1980• ETL• Data Warehouse x Data Mart• Modelagem Multidimensional
Desnormalização de dados Esquema Estrela Fatos e Dimensões
• Motores OLAP• Banco de Dados Relacionais
![Page 5: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/5.jpg)
![Page 6: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/6.jpg)
PROBLEMA
Banco de dados relacionais não são para dados analíticos são para dados transacionais
![Page 7: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/7.jpg)
OverView Apache Cassandra
• SGDB NoSQL de família de
colunas
• Chave Valor
• Baseado no Dynamo DB e Big
Table
• Clusterizado em Anel
• Twitter, o Reddit e o Netflix
![Page 8: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/8.jpg)
![Page 9: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/9.jpg)
Apache Cassandra – Alguns probleminhas
Ø Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação
Ø Não garante concorrência
Ø Eventualmente Persistente
![Page 10: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/10.jpg)
OverView Apache Spark
• Processamento em memória
• Clusterizado
![Page 11: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/11.jpg)
Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
![Page 12: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/12.jpg)
Data Warehouse em Banco de Dados NoSQL Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processamento clusterizado ao invés de appliance
• Data descovery in memory
• Tabela Estrela ou Tabela Visão
![Page 13: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/13.jpg)
Data Warehouse em Banco de Dados NoSQL Um novo paradigma
Star Schema Star Table
![Page 14: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/14.jpg)
![Page 15: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/15.jpg)
E o Python em toda essa história?
![Page 16: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python](https://reader035.fdocument.pub/reader035/viewer/2022070516/587179e61a28ab230b8b5cd7/html5/thumbnails/16.jpg)