Post on 15-Jan-2017
Recomendação de conteúdo com Apache Mahout
Quem somos nós?
Estudo de Caso
Configuração editorial
Exibição genérica
Coleta de feedback
Estamos recomendando algo de interesse do
usuário?
Por que recomendar algo para alguém?
AjudarFacilitar Induzir
Com base em quais critérios?
Quando há informações
Quando não há informações
Feedback
Impactos
UX
Positivos
Fidelização
Negativos
Efeito bolha
How it works
Processamento distribuído Open source
Apache Hadoop
Objetivo de criar aplicações de ML rapidamente
Apache Mahout
Benefícios do Mahout
Aplicação simples e ágil
Compatível com o hadoop para processamento distribuído
Algorítimos de ML
Parece complexo…
➔ Reg. Acesso
➔ Recomendação
GCE
GAE
Integração GCE / GAE
BD Storage
Run
Sync
Mahout
Hadoop
21
1
Processar a Recomendação
2
695156844314820 733886336030387 1 1461380400
1857712592933254 1659840805718841 1 1457751600
459836780240009 738977595379058 1 1460084400
715051021259018 1597532753452474 1 1457665200
2129884632821879 1726026021769732 5 1458961200
2211950224976468 2049611670763120 1 1458529200
2262258856060242 127962519162750 1 1457406000
2547022900948044 1719916616890884 1 1459738800
1351232552007122 439772798224598 1 1462071600
2320345584423341 2910045585351627 1 1460689200
1336788031028127 2102694821459710 1 1458442800
USER ID CONTENT ID RATE TIMESTAMP
Filtragem Colaborativa
hadoop jar /opt/mahout-distribution-0.9/mahout-core-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob -s SIMILARITY_COOCCURRENCE --input dados.csv --output output
Métricas...
3 MILHÕESde acessos
Acessos desproporcionais
Acessos
1314126830928733
695156844314820 733886336030387 1 1461380400
1857712592933254 1659840805718841 1 1457751600
459836780240009 738977595379058 1 1460084400
715051021259018 1597532753452474 1 1457665200
2129884632821879 1726026021769732 5 1458961200
2211950224976468 2049611670763120 1 1458529200
2262258856060242 127962519162750 1 1457406000
2547022900948044 1719916616890884 1 1459738800
1351232552007122 439772798224598 1 1462071600
2320345584423341 2910045585351627 1 1460689200
1336788031028127 2102694821459710 1 1458442800
USER ID CONTENT ID RATE TIMESTAMP
Próximos passos...
João Vitor Vendramejoao.vendrame@dextra-sw.com
Danilo Pinheirodanilo.pinheiro@dextra-sw.com
https://github.com/jvgengo/devcamp_apache_mahout