Post on 05-Jun-2015
Hadoop: [ Aquele título chato, longo… ]
(aka “Hadoop para DBAs”)
Aldrin Leal, <aldrin@ingenieux.com.br>
Globalcode – Open4education
Agenda
Introdução
Motivação para o Hadoop
Hadoop: Passado Presente e Futuro
Conceituando Hadoop
O Ecosistema Hadoop
Mas e ai?
Globalcode – Open4education
Introdução
Aldrin Leal
Protroll
Projetos / Experiência em Hadoop
Outras Áreas:
Cloud
ALM
Globalcode – Open4education
Motivação para o Hadoop
Fontes de Informação Esparsas, não estruturada
Documentos
Recibos
Volume de Coleta de Dados
Globalcode – Open4education
Motivação para o Hadoop
Aspectos-Chave:
Lei de Moore
Preço
Latência
Largura de Banda
Seek Time
Globalcode – Open4education
Motivação para o Hadoop
Outros Aspectos-Chave:
Computação Distribuída
Tolerância a Falha
Globalcode – Open4education
Motivação para o Hadoop
Limitações:
Volume de Dados
Online
Storm / YARN / Impala
Modelo
Sawzall / BigTable
Globalcode – Open4education
Hadoop: Passado
Presente e Futuro
Doug Cutting
Altavista
Yahoo
Lucene / Solr, e…
Nutch
Papers:
MapReduce
GFS
Globalcode – Open4education
Hadoop: Passado
Presente e Futuro
Distros Hadoop:
Hortonworks (Microsoft)
Cloudera
Amazon Web Services
Intel
Hadoop as a Service
MRv1 vs YARN
YARN:
Impala
MPICH
Storm
Globalcode – Open4education
Conceituando Hadoop
Plataforma
Separa funções:
Armazenagem (Namenode, Datanode)
Processamento (Tasktracker)
Coordenação (JobTracker)
Tolerância a Falha:
Fator de Replicação
Task Attempts
Globalcode – Open4education
Conceituando Hadoop
Otimização
Vários Botões
Execução Especulativa
Divisão de Responsabilidades
Globalcode – Open4education
Conceituando Hadoop
MapReduce
Mappers
Reducers
Combiners / Partitioners
Globalcode – Open4education
Conceituando Hadoop
Globalcode – Open4education
Conceituando Hadoop
Modelo Flexível
Vários Cases Implementáveis (leia a veja!)
“Corrida do Big Data”
Globalcode – Open4education
Demo
Um pequeno job mapreduce (parte I)
Mapper
Reducer
OutputCollector
Driver, Tool, Configurable
Job, JobConf
FileSystem
sudo (apt-get|yum) install mercurial
&& hg clone
http://bitbucket.org/ingenieux/hadoop-filesystem-
indexer-demo
Globalcode – Open4education
Ecosistema Hadoop
Distros
Hadoop Streaming (Scripting)
HBase
K/V Distribuído, com SLA
Valores Esparsos, Alta Performance
Hive / Pig / HCatalog
SQL e Perl
Schema Unificado
Globalcode – Open4education
Demo
Um job mapreduce um pouco maior
Globalcode – Open4education
Mas e ai? Como começar
Gestão de Clusters (“Hadoop Operations”)
Whirr
Chef / puppet
OpsWorks
Desenvolvimento (“Hadoop Definitive Guide”)
Scripting
Java / Cascading
Hive / Pig
Ciência de Dados (“Coursera ”)
Globalcode – Open4education
Conclusão:
É faroeste!
Mas tem uns pontos para se nortear
Muitas mudanças, ritmo rápido
Diversas Oportunidades
Globalcode – Open4education
Dúvidas?
Globalcode – Open4education
Obrigado