Post on 25-Jun-2020
Skuteczna operacjonalizacja
środowiska analitycznego
Mariusz Gromada, MathSpace.PL
1
Komponenty Integracja
Pomiar
wartości
Budowa i
wykorzystanie
wiedzy
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 2015-10-14
mariuszgromada.org@gmail.com
Komponenty środowiska analitycznego – środowisko analityczne to znacznie więcej niż
narzędzia do budowania modeli predykcyjnych. Analityka predykcyjna, choć bardzo ważna, jest tylko
jednym z elementów cyklu analitycznego
2015-10-14 2
Dane klienta
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Cykl analityczny – zrozumienie pełnego cyklu analitycznego jest kluczowe dla zdefiniowania
komponentów środowiska, jak też interakcji między nimi.
2015-10-14 3
Cykl
Analityczny
Problem
biznesowy
Definicja i
wstępna analiza
danych
Przygotowanie
danych
Budowa
modeli
Ocena
jakości
modeli
Wdrożenie
modelu
Wykorzystanie
modelu +
monitoring
Analizy
biznesowo
ekonomiczne
Stawianie i
weryfikacja
hipotez
Ocena
potencjału
Definicja
zdarzenia i
sukcesu
Historia
danych +
preselekcja
atrybutów
Weryfikacja
jakości
danych
Wybór modelu
+
Potwierdzenie
potencjału
Analityka
predykcyjna
Raporty
efektywności
modelu
Alerty jakości
modelu
Analiza
problemu
Automatyczna
reestymacja
Metadane
modelu
Wdrożenie
algorytmu
Harmonogram
owanie
Definicja
zależności
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Architektura funkcjonalna środowiska analitycznego – cykl analityczny jest procesem
end-to-end, który powinien być odzwierciedlony w postaci odpowiednio zintegrowanych
komponentów. Stopień integracji jest wyznacznikiem dojrzałości środowiska.
2015-10-14 4
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
15
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Obszar budowy / odkrywania wiedzy (architektura funkcjonalna środowiska analitycznego)
2015-10-14 5
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
Zintegrowane, wersjonowane
(historyzowane dane), dane
detaliczne, bądź struktury
pochodne w data martach.
Jest źródłem dla analiz ad-
hoc (wszelkie analizy
biznesowo-ekonomiczne), jak
też stanowi podstawę do
naliczania data martów
analitycznych (tzw. ABT).
Hurtownia danych Analizy Ad-hoc
Duży nacisk na technologię
in-memory oraz możliwość
pracy lokalnie na własnym PC
(np. Tableau, QlikView).
Ekstremalnie istotna
ergonomia pracy, szybkość
działania, łatwość
wizualizacji.
Analizy
predykcyjne
Budowanie modeli
predykcyjnych (SAS, SPSS
Modeler, SAP / KXEN), R.
Najistotniejsze elementy to
łatwość łączenia do różnych
źródeł danych oraz
generowanie kodów
scoringowych do postaci
języków w różnych silnikach
scoringowych.
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Obszar wdrażania przygotowanych modeli predykcyjnych (architektura funkcjonalna
środowiska analitycznego)
2015-10-14 6
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
Definicja zależności,
harmonogramowanie
procesu naliczania
scoringu, cykliczne
uruchamianie kodów
scoringowych. Silnik
dodatkowo przekazuje
surowe wartości
wyliczonych wskaźników
do repozytorium
scoringowego.
Silnik scoringowy
Przechowuje metadane
modeli (np.
wykorzystywane
zmienne, nazwę i wersję
modelu, itp.) oraz
algorytmy modeli (kody
scoringowe).
Repozytorium
modeli
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Obszar repozytorium scoringowego (architektura funkcjonalna środowiska analitycznego)
2015-10-14 7
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
Przechowuje aktualne
wartości scoringów
(wyliczone przez silnik
scoringowy), w
szczególności ich
znormalizowaną postać
celem wykorzystania w
procesie optymalizacji
kampanii.
Repozytorium
scoringów
Sprowadzenie surowych
wartości scoringowych
do interpretacji
prawdopodobieństwa.
Tylko wartości
prawdopodobieństwa
mogą być skutecznie
wykorzystywane w
trakcie procesu
optymalizacji kampanii.
Normalizacja
scoringów
Rozpoznawanie
odpowiedzi Klienta
oraz sukcesu.
Wykorzystywane do
raportowania oraz
normalizacji scoringów.
Detekcja
responsu
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Obszar definicji oraz uruchomienia kampanii (architektura funkcjonalna środowiska analitycznego)
2015-10-14 8
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
Master / marketing data
mart – atrybuty klienta
wykorzystywane podczas
definicji kampanii.
Dane Klienta +
Repozytorium
scoringów
Scenariusze, reguły,
selekcje Klientów – jako
wynik lista działań / ofert
przypisana do Klienta.
Definicje kampanii
Element wybierający najbardziej
efektywne scenariusze komunikacji, wybór
dokonywany jest spośród wielu dostępnych
scenariuszy przy zadanych kryteriach
brzegowych (koszty, spodziewane efekty,
cele)
Optymalizacja
kampanii
Uruchomienie
kampanii
Kanały
Jaka oferta,
kiedy, w
jakim
kanale
Treatmenty Podział klientów na
grupy docelowe i
kontrolne
Grupy kontrolne
Detekcja
odpowiedzi
klienta, jak też
sukcesu kampanii
(tzw. response
wywiedziony)
Detekcja
responsu
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Obszar monitoringu modeli predykcyjnych (architektura funkcjonalna środowiska analitycznego)
2015-10-14 9
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
Monitoring efektywności
modeli predykcyjnych.
Ocena skuteczności
modeli: stan bieżący, jak
też w czasie. Dostarcza
różnego typu statystyki
jakościowe
wykorzystywanych
modeli. Jest źródłem
raportowania i danych
dla wyzwalania alertów
jakości modeli.
Monitoring
modeli
W sytuacji niespełnienia
kryteriów jakościowych
wyzwalana jest
automatyczna reestymacja
parametrów modelu.
Automatyczna
przebudowa
modeli
Raporty prezentujące
efektywność modeli w
czasie.
Raporty jakości
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Obszar raportowania kampanii (architektura funkcjonalna środowiska analitycznego)
2015-10-14 10
Dane
analityczne
Odkrywanie
wiedzy
Repozytorium
modeli
Silnik
scoringowy
Raporty
jakości
Monitoring
modeli
Automatyczna
przebudowa
modeli
Dane klienta Repozytorium
scoringów
Definicje
kampanii
Optymalizacja
kampanii
Treatmenty Grupy
kontrolne
Detekcja
responsu
Kanały
Normalizacja
scoringów
Hurtownia
danych
Raporty
kampanii
Campaign Management
0
1
2
3
4
5b 5a
5c
6
7
8 9 10
11
12
13
14
Surowe scoringi
Surowe
scoringi
Prawdopod
obieństwo Prawdopod
obieństwo
Resp
onse
Meta
dane
modeli
Scoringi
Resp
onse
Leady,
ofe
rty,
kanały
Efektywność kampanii w
postaci raportów oraz
dashboardów (Bussiness
Objects, QlikView,
Tableau, IBM Cognos,
MicroStrategy, itp.)
Narzędzia BI
Całość danych ze
środowiska analitycznego
oraz systemu Campaign
Management powinna
trafiać do hurtowni
danych.
Hurtowania
danych
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Pełny (360st) obraz klienta – kilka dobrych praktyk
11
360
Demografia
Geografia
Aplikacje o produkty
Posiadane produkty
Użycie produktów
Rezygnacje
Wartość klienta
Komunikacja marketingowa
Interakcje klienta
Customer Experience
Ryzyko
Dane zewnętrzne
(social, biura
gospodarcze)
Obsługa klienta
Reklamacje
Windykacje
Starajmy się aby liczba zmiennych była pochodną pokrytych
obszarów danych, a nie wynikiem posiadania różnych
wariantów tej samej informacji.
Liczba zmiennych nie
jest najważniejsza
Projektując nowe zmienne zawsze pamiętajmy o
konieczności naliczenia również odpowiedniej
historii. W przeciwnym wypadku nowe zmienne
będą mogły być wykorzystane dopiero za
okres kilku / kilkunastu miesięcy,
powodując w okresie przejściowym szereg
problemów (np. przypadkowe
uwzględnienie nowej zmiennej w modelu
poprzez fałszywą korelację z brakiem danych
– faktycznie będzie to korelacja z czasem)
Rozwój data martu
Miesięczny data mart z dużą liczbą
zmiennych jest zawsze potrzebny. Polecam
utworzenie mniejszych struktur naliczanych
w cyklach tygodniowych lub nawet
dziennych.
Im częściej tym lepiej
2 lata historii to
minimum, 3 lata
jest optymalnym
wyborem.
Dostępna historia
ma znaczenie
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 2015-10-14
Prawdopodobieństwo zakupu jeślioferta nie przedstawiona
Pra
wd
op
od
ob
ień
stw
o z
aku
pu
jeśl
i o
fert
a p
rze
dst
awio
na
Uplift – inkrementalna sprzedaż jest wyznacznikiem skuteczności prowadzonej komunikacji.
Separacja grup Awersja vs Sympatia do komunikacji może znacząco wpłynąć na efektywność
kosztową kanałów.
2015-10-14 12
Zakup – oferta nie
przedstawiona
Nie Tak
Zakup –
ofe
rta
prz
edst
aw
iona
Nie Awersja do
produktu
Awersja do
komunikacji
Tak Sympatia do
komunikacji
Sympatia
do produktu
Kupują pod wpływem stymulacji komunikacją – ta grupa
jest najcenniejsza z punktu widzenia poniesionego
kosztu (kanału komunikacji, oferty) w stosunku do
dodatkowego (inkrementalnego) sukcesu.
Sympatia do komunikacji
Komunikat obniża skłonność do skorzystania
z oferty – ważne, aby grupę poprawnie
zidentyfikować i usunąć z działań
aktywnych.
Awersja do komunikacji
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Grupy kontrolne – kluczowy aspekt w zakresie oceny skuteczności aktywnych kampanii
marketingowych. Grupy kontrolne (różne typy) umożliwiają raportowanie oraz stanowią podstawę
do przygotowania modeli upliftu. Toruję ponadto drogę do rygoru analizy danych w trakcie
wspierania procesu decyzyjnego.
2015-10-14 13
Wybór modelem
Nie (wybór losowy)
Tak (wybór modelem)
Kom
unik
acja
mark
eti
ngow
a
Nie (brak aktywnej
komunikacji)
Holdout
group
Model
Holdout
group
Tak (aktywna
komunikacja)
Control
group Target group
Efekt dodatkowy
komunikacji w całej
populacji
Wskaźnik siły
modelu
Inkrementalny wpływ
komunikacji
marketingowej w grupie
wysoko skłonnej
Dodatkowy wpływ doboru
modelem w grupie
komunikowanej
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.
Analityka – kilka rad na koniec
2015-10-14 14
Cechy i
zachowania
Klientów
360 degress
view
Wydajne i
skalowalne
środowisko
Elastycznie,
szybko i
powtarzalnie
Ludzie
Proces
decyzyjny
Ciągły
monitoring
Analiza produktów z dużym potencjałem / popytem jest zawsze bardzo ważna. Jednak jeśli naszym
celem jest promowanie spersonalizowanych ofert w różnych kanałach sprzedaży niezbędne staje się
rozszerzenie analizy o cechy / nawyki klientów.
Z pomocą przychodzą metody analizy biznesowo-ekonomicznej oraz analityki predykcyjnej. Metody te
dają najlepsze efekty gdy są stosowane na poziomie pojedynczego klienta, to zaś wymaga konstrukcji
pełnego data martu (360 degrees view), opisującego niemal każdy aspekt relacji klienta z firmą. Stworzenie
takiego data martu jest trudnym zadaniem, jednak w nagrodę otrzymamy możliwość obniżenia kosztu działań.
Przygotowanie modeli predykcyjnych wymaga posiadania dużej historii danych, dlatego należy brać
pod uwagę konieczność utworzenia adekwatnego wyseparowanego środowiska, zawsze z rezerwą
zasobów oraz z łatwością przyszłego skalowania wraz ze wzrostem biznesu.
Są to kluczowe słowa przy dążeniu do skutecznej operacjonalizacji analityki. Dlatego z uwagą należy
wybierać narzędzia do analizy danych, pamiętając, że te obecnie niezwykle szybko się rozwijają.
Równie ważny jest dobór odpowiednich ludzi.
Poszukujcie data scientists’ów – to oni posiadają kompetencje techniczne niezbędne do rozwiązywania
złożonych problemów, i ciekawość odkrywania rozwiązań. Ich profil to częściowo matematycy, częściowo
specjaliści IT, częściowo wizjonerzy. Dodatkowo są to osoby płynnie poruszające się w realiach
biznesowych, jak też nie mające problemu w kontaktach z zespołami IT – nie możemy zatem się dziwić, że
są dobrze wynagradzani.
Zawsze pamiętajmy o rygorze analizy danych w trakcie wspierania procesu decyzyjnego – tu warto
wspomnieć o często pomijanym efekcie inkrementalnym, który obok łącznych efektów, powinien być
zawsze optymalizowany. Dlatego tak ważny jest dobór odpowiednich grup kontrolnych.
Nie zapomnijcie o cyklicznej walidacji wykorzystywanych modeli – wszystko zmienia się w czasie, a
tempo zmian rośnie. Niestety modele dostatecznie silne dziś w jakimś punkcie przyszłości będą
wymagały przebudowy.
© Mariusz Gromada, MathSpace.PL - materiały chronione prawem autorskim - kopiowanie,
rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora.