Treinamento Alfresco ECM - Apresentao Inicial
Big Data Open Source com Hadoop
Palestrante: Marcio Junior Vieira
[email protected]
Realizao:
Marcio Junior Vieira
14 anos de experincia em informtica, vivncia em desenvolvimento e anlise de sistemas de Gesto empresarial.
Trabalhando com Software Livre desde 2000 com servios de consultoria e treinamento.
Graduado em Tecnologia em Informtica(2004) e ps-graduado em Software Livre(2005) ambos pela UFPR.
Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.
Fundador da Ambiente Livre.
Ecosistema Ambiente Livre
Colaboraes
Big Data - Muito se fala...
Big Data
um novo conceito se consolidando.
Grande armazenamento de dados e maior velocidade
Os 4 V's
Velocidade , Volume , Variedade e Valor
Volume
Modelos de Persistncia da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
Geralmente dados no
estruturados.
Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10) ou 1180591620717411303424 (2 elevado a 70) Bytes.
Velocidade
Processamento de Dados
Armazenamento
Analise de Dados
Variedade
Dados semi-estruturados
Dados no estruturados
Diferentes fontes
Diferentes formatos
Valor
Tomada de Deciso
Benefcios
Objetivo
do Negcio.
O momento agora
Onde podemos utilizar Big Data ?
?
Sistema de Recomendao
WWW em geral
Redes Sociais
Analise de Risco
Crdito
Seguros
Mercado Financeiro
Dados Espaciais
Clima
Imagens
Trafego
Monitoramento
Big Data X BI
Big Data e uma evoluo do BI, devem caminhar juntos
Data Warehouses so necessrios para armazenar dados estruturadosPreviso:
BI Casos especficos
Big Data Analise geral
Profissionais
Novo profissional: Cientista de Dados
Competncias do Cientista de dados
Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
De onde ?
Ferramentas de Big Data
Hadoop
O Apache Hadoop um projeto de software open-source escrito em Java. Escalvel, confivel e com processamento distribudo.
Filesystem Distribuido.
Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programao MapReduce)
Utiliza-se de Hardware Comum ( Commodity cluster computing )
Framework para computao distribuda
infraestrutura confivel capaz de lidar com falhas ( hardware, software, rede )
Motivaes Atuais
Grande quantidade ( massiva ) de dados
Dados no cabem em uma mquina
Demoram muito para processar de forma serial
Mquinas individuais falham
Computao nas nuvens
Escalabilidade de aplicaes
Computao sob demanda
A origem do Nome
Segundo Doug Cutting, criador do Hadoop O nome que meu filho deu a um elefante amarelo de pelcia. Curto, relativamente fcil de soletrar e pronunciar, sem sentido, e no usado em outro lugar: esses so os meus critrios de nomeao
Ecosistema
O que HDFS
Hadoop Filesystem
Um sistema de arquivos distribudo
que funciona em grandes aglomerados de
mquinas de commodities.
Caractersticas do HDFS
InspiradoemGFS
Projetado para trabalharcom arquivos muito grandes e grandes volumes
Executado emhardwarecomum
Streaming deacesso a dados
Replicaoe localidade
HDFS
Projetado para escalarapetabytesde armazenamento,e correrem cimados sistemas de arquivosdo sistema operacionalsubjacente.
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
HDFS - Replicao
Dados de entrada copiado paraHDFS dividido emblocos e cadablocos de dados replicado paravrias mquinas
MapReduce
um modelo de programao desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
Programao Distribuda
MapReduce
Voc especifica o map (...) e reduce (...)funesmap = (lista (k, v) -> lista (k, v))
reduce = (k, lista (v) -> k, v)O Framework faz o resto
Dividir os dados
Execute vrios mappers sobre as divises
Embaralhar os dados para os redutores
Execute vrios redutores
Guarde os resultados finais
MapReduce
Map
Reduce
Modos de Operao
Standalone ( Local )
Pseudo-distributed
Fully-distributed
Outros componentes
PIG - linguagem de fluxo de dados
e ambiente de execuo para explorar
grandes conjuntos de dados.Executado no HDFS e grupos
MapReduce.
Hive - Armazm de dados (datawarehouse) distribudos. Gerencia os
dados armazenados no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
Hbase Banco de dados orientada
por colunas distribuda. HBase usa o HDFS
por sua subjacente de armazenamento e suporta
os clculos de estilo lote usando MapReduce e ponto consultas
(leituras aleatrias).
Outros componentes
ZooKeeper Servio de coordenao altamente disponvel e distribudo. Fornece funes de bloqueios distribudos que podem ser usados para a construo de aplicaes distribudas.
Sqoop Ferramenta para a movimentao eficiente de dados entre bancos de dados relacionais e HDFS.
Mahout - Aprendizagem de mquina
escalvel, de fcil uso comercial para
a construo de aplicativos inteligentes
Distribuies Hadoop
Open Source
Apache
Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
- Microsoft HDInsight (beta)
Possibilidades de Uso
DataWareHouse
Business Intelligence
Aplicaes analticas
Mdias Sociais
Sugesto de Compras
Analise preditiva
Compras Coletivas
Recomendaes
Modelo tradicional de Uso
Empresa Usando Hadoop
Amazon
IBM
Yahoo
Joost
Last.fm
New York Times
PowerSet
Veoh
Ebay
Hadoop no Brasil
Contatos
e-mail:
marcio @ ambientelivre.com.br
http://twitter.com/ambientelivre
@ambientelivre
@marciojvieira
Blogblogs.ambientelivre.com.br/marcio
Facebook/ambientelivre
Convite
Pentaho Day
17 de Maio SP
FTSL - 18 e 19 de Setembro
Software Freedom Day
20 de Setembro.
LimeSurvey
Muokkaa jsennyksen tekstimuotoa napsauttamalla
Toinen jsennystaso
Kolmas jsennystasoNeljs jsennystasoViides jsennystasoKuudes jsennystasoSeitsems jsennystasoKahdeksas jsennystasoYhdekss jsennystaso
Clique para editar o estilo do ttulo mestre
Clique para editar o estilo do subttulo mestre
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar os estilos do texto mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar o estilo do ttulo mestre
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar os estilos do texto mestre
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvelQuarto nvelQuinto nvel
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvelQuarto nvelQuinto nvel
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar o estilo do subttulo mestre
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar os estilos do texto mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
03/05/14
Clique para editar o estilo do ttulo mestre
03/05/14
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
Clique para editar os estilos do texto mestre
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
03/05/14
Clique para editar o estilo do ttulo mestre
Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel
03/05/14