Post on 14-Apr-2017
© 2013 Acxiom Corporation. All Rights Reserved. © 2013 Acxiom Corporation. All Rights Reserved.
Jak oswoić słonia w korporacji Hadoop in practice
11.06.2015 – Jakub Wszolek (jwszol@acxiom.com)
twitter.com/jwszol
© 2013 Acxiom Corporation. All Rights Reserved.
NoSQL
2
© 2013 Acxiom Corporation. All Rights Reserved.
Era danych
3
Nazwa Ilość danych
New York Stock 1 TB nowych danych / dzień
Ancestry.com (genealogy site) 2.5 PB danych
Facebook 1 PB danych
Allegro.pl Aukcja o numerze 1 600 000 000 (8 maja
2011)
© 2013 Acxiom Corporation. All Rights Reserved.
Rynek pracy
4
© 2013 Acxiom Corporation. All Rights Reserved.
Hadoop
5
• Hadoop framework
• Praktycznie nieograniczona skalowalność
• Środowisko rozproszone
• Możliwości szybkiej analizy dużych
wolumenów
• Dedykowane aplikacje
• wyszukiwanie trendów
• analizy statystyczne
© 2013 Acxiom Corporation. All Rights Reserved.
Hadoop eco-system
6
© 2013 Acxiom Corporation. All Rights Reserved.
Klaster klienta
7
• Srodowiska VM vs. Fizyczne
• Wolumen danych
• bigdata.myAcxiom.com – warstwa dostepowa
© 2013 Acxiom Corporation. All Rights Reserved.
Klaster klienta
8
• HUE
• Dedykowane rozwiazania administracyjne
© 2013 Acxiom Corporation. All Rights Reserved.
Ingestion/extraction process
9
Extract
Ingestion
Ingestion
Extract
© 2013 Acxiom Corporation. All Rights Reserved.
Automatyzacja
• Oozie scheduler
• Autorskie narzedzia wspomagajace
-Hadoop Java Framework
-Python
-Shell script
• Rozbudowany system raportowania
10
© 2013 Acxiom Corporation. All Rights Reserved.
Analiza - R
11
• RevR + RStudio
• DataScience
• Analiza trendów, zaawansowany klastering
• Budowanie modeli predykcyjych
• Klasyfikatory
© 2013 Acxiom Corporation. All Rights Reserved.
Typowe problemy
• Podzial zasobow klastra pomiedzy wielku
uzytkowników
• Fair Scheduler - http://hadoop.apache.org/docs/r1.2.1/fair_scheduler.html
• Edge node – zarzadzanie dostepem
• Partycjonwanie duzych tabeli
• Nieoptymalne zapytania (HQL)
12
© 2013 Acxiom Corporation. All Rights Reserved. © 2013 Acxiom Corporation. All Rights Reserved.
Pytania?
Dziekuje!