Carga y procesamiento de datos en HDInsight
-
Upload
eladio-rincon-herrera -
Category
Technology
-
view
124 -
download
7
Transcript of Carga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsight @erincon
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Eladio Rincón
Director Área Relacional
@yolrod
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Yolanda Olmedo
DPS
@Daniel_Seara
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Daniel Seara
Mentor
2
Agenda • Almacenamiento en HDInsight• Carga de datos• Herramientas para la carga de datos
• Estructurados• No estructurados• Especiales• Transformaciones• Hive• Pig• Map Reduce
• Obteniendo resultados
3
• Azure HDInsight cluster• Hortonworks Data Platform
• Arquitectura
HDInsightAlmacenamiento
4
HDInsightEcosistema
Distributed Storage(HDFS)
Query(Hive)
Distributed Processing(Map Reduce)
Scripting(Pig)NoSQL Database
(HBase)
Metadata(HCatalog)
Data
Inte
gra
tion
( OD
BC
/ SQ
OO
P/ R
EST)
Busin
ess In
tellig
ence
(E
xcel, Po
werV
iew
…)
Machine Learning (Mahout)
Graph(Pegasus)
Stats processing (RHadoop)
Pipeline / workflow(Oozie)
Log fi
le
aggre
gatio
n(Flu
me)
PDW
World’s Data (Azure Data Marketplace) AD, System Center
Windows Azure Storage
5
• Bibliotecas .Net que facilitan la tarea• Serialización • JSON• AVRO
– Interacción con HDInsight y Azure
Carga de DatosHerramientas para la carga de Datos
6
DEMOEncontrando lo que necesitamos con NuGet
7
Haga clic en el icono para agregar una imagen
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Haga clic en el icono para agregar una imagen
EscenarioDatos de clima y consumo de cerveza
Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales
8
• Sqoop• Importación/exportación RDMS
Hadoop
• Azure PowerShell • Extensión de PowerShell para
interactuar con Azure• AzureHDInsightSqoopJobDefinition • …
Carga de DatosEstructurados
9
DEMOImportando datos de base de datos a HDInsight
10
• ¡Serialización!• AVRO• JSON• CSV• ORC (Optimized Row Columnar)
• Transformar y almacenar• Herramientas de serialización• Herramientas de almacenamiento en la
nube
Carga de DatosNo Estructurados
11
DEMOLlevando datos no estrcuturados a HDInsight
Icon de tecnología
12
• Definir la estructura de datos necesarios
• “Copiar” entre el origen e instancias de la estructura
• Serializar
Carga de DatosCasos especiales
13
DEMOLlevando datos diferentes a HDInsight
Icon de tecnología
14
• Núcleo de Hadoop• Procesamiento paralelo• Divide trabajo en pequeñas tareas• Tolerancia a fallos
TransformacionesMapReduce
15
TransformacionesMapReduce
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezclay
ordena
16
• Sistema Data Warehouse para Hadoop
• Consultas Ad-hoc• Lenguaje de consulta como SQL:
HiveQL• Por detrás ejecuta MapReduce
TransformacionesHive
17
• Lenguaje de scripting de alto nivel• Fácil programación extensible• Ejecuta trabajos MapReduce
TransformacionesPig
18
Obteniendo resultadosLeyendo del cluster
¿Preguntas?
19
20
Siéntate a comer con nosotros o tómate un café y aclara tus dudas
¡Gracias!
@erinconDirector Área Relacional
Eladio Rincón
@yolrodDPS
Yolanda Olmedo
@Daniel_SearaMentor
Daniel Seara
Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino
América, ésta es tu oportunidad.
http://summit.solidq.com
Síguenos:
21