Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB...
Transcript of Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB...
Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems
Budapest University of Technology and EconomicsFault Tolerant Systems Research Group
Mintavételezés, szűrés, kilógó esetek detektálása
Salánki Ágnes
Alapfogalmak
Az alapfeladat ugyanaz
Az aspektus más
Alapfogalmak
Az alapfeladat ugyanaz
Az aspektus más
OUTLIER DETEKTÁLÁS
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Hogy néznek ki?
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Hogyan szeparálhatóak?
Hogy néznek ki?
Miért?
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Hogyan szeparálhatóak?
Hogy néznek ki?
Miért?
Vannak-e egyáltalán?
Nagy adat: aggregálás?
Szakterület specifikus?
Hatások?
Alapfeladat
Alapfeladat
Megközelítések
Távolság alapúak Sűrűség alapúak
Megközelítések
Távolság alapúak Sűrűség alapúak
Megközelítések
Távolság alapúak Sűrűség alapúak
Megközelítések
Távolság alapúak Sűrűség alapúak
TÁVOLSÁG ALAPÚ TECHNIKÁK
Befoglaló burok
0
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Befoglaló burok
0
2 31 54 6 7 8
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
Min.: 2 31 44 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
Min.: 2 31 44 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Extrém pontok
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
Min.: 2 31 44 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Extrém pontok
Medián: majd a végén…
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
Befoglaló burok
Féltér-mélység: Tukey, 1974
DEMO
Csomag: depth
Hasznos függvények: depth, isodepth
Paraméterek: 𝑢 pont, 𝑑𝑝𝑡ℎ mélység
Befoglaló burok
DB
Distance Based
Outlier: szomszédok száma alacsony
Paraméterek
o 𝑟 sugarú hipergömb
o Szomszédok elvárt 𝜋 aránya
DB
Distance Based
Outlier: szomszédok száma alacsony
Paraméterek
o 𝑟 sugarú hipergömb
o Szomszédok elvárt 𝜋 aránya
DEMO
Csomag: fields
Függvény: fields.rdist.near
Paraméterek: 𝑑𝑒𝑙𝑡𝑎 sugár
DB
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
0.0014 0.00041
0.00011
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
0.0014 0.00041
0.00011
Kimerítő keresés?
choose(n = 1000, k = 900)
[1] 6.385051e+139
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
Mahalanobis távolság
𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗
o 𝑆 – kovarianciamátrix
o 𝜗 – súlypont
Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance
Mahalanobis távolság
𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗
o 𝑆 – kovarianciamátrix
o 𝜗 – súlypont
Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
X
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
X
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
X
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
BACON
Blocked Adaptive Computationally EfficientOutlier Nominators
Kiinduló halmaz félig felügyelt módban is!
Új halmaz: küszöbérték alapján
DEMO
Csomag: robustX
Függvény: mvBACON
Paraméterek
o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz
• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz
• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete
BACON
DEMO
Csomag: robustX
Függvény: mvBACON
Paraméterek
o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz
• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz
• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete
BACON
SŰRŰSÉG ALAPÚ TECHNIKÁK
DB alapötlete
Hiába vagyunk a középpontban, ha
nincsenek szomszédaink
Distance-basedapproach
LOF motiváció: mikor jó a DB?
𝑝2 sem, vagy 𝐶1 is?
LOF
Local Outlier Factor
Alapötlet: csak a szomszédaival hasonlítsuk össze
o lokális sűrűség
Outlier kritérium
o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan
𝑟𝑑: reachability distance
LOF
Local Outlier Factor
Alapötlet: csak a szomszédaival hasonlítsuk össze
o lokális sűrűség
Outlier kritérium
o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan
𝑟𝑑: reachability distance
LOF
Local Outlier Factor
Alapötlet: csak a szomszédaival hasonlítsuk össze
o lokális sűrűség
Outlier kritérium
o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan
𝑟𝑑: reachability distance
LOF
Ha a szomszédaim
is magányosak,
nincs nagy gond
LOF: DMwR::lofactor
Local outlier factor
DEMO
Csomag: DMwR (Data Mining with R)
Függvény: lofactor
Paraméterek: 𝑘 szomszédság mérete
LOF
OUTLIEREK ADATFOLYAMOKBAN
Adatfolyamok
1. több forrásból,2. ismeretlen
sebességgel
Buffer, megengedett számítási memória
igény korlátos
Egyszer streamenként: „Lokális maximum?”
Globális kérdések: „Minden új maximumot
jelezzünk”
Ábra és a számértékes példák forrása: [1]
Outlierek idősorokban
IT Monitorozás
Tőzsdei elemzések
Banki csalásfelderítés
Mindkét adattípus számít
o Szenzorok: nagyrészt numerikus
• 𝐶𝑃𝑈_𝑛𝑖𝑐𝑒: 0.12, 0.13, 0.12, 0.13, …
o Naplózás: nagyrészt kategorikus
• 𝑉𝑀_𝑜𝑝𝑒𝑟𝑎𝑡𝑖𝑜𝑛𝑠: Start, Stop, Start, Snapshot, Snapshot, …
Hatások szerinti osztályozás
Additive outlier
o A rákövetkező elemekre teljesen hatástalan
Level Shift Outlier
o Permanens hatás
Innovational Outlier
o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet
Transient Change Outlier
o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra
Basic typesAdditive
Transient change
Level Shift
Innovational
Outlierek szekvenciák között
„Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?”
Feltételezések
o Az idősorok hossza azonos
o Keressük a legkiugróbbat
Outlierek szekvenciák között
Ötletek
o Képezzük le egy értékre az idősort
• variancia
• az első pillanat, amikor az érték elért egy küszöböt
o Elemek egy hasonlósági mátrixba
Innentől már akármelyik klasszikus klaszterezési módszer működik
Távolságfüggvény a szomszédossághoz?
Idősorok távolságfüggvényei
Euklideszi távolság
o X tengely menti eltolás (offset)?
Dynamic time warping
o eleve kiugró értékek alapján hasonlítunk
Length of common subsequence
Dinamikus idővetemítés
Az idősorok pontjait nem indexenként hasonlítjuk össze
oMotiváció pl. hangfelismerésnél
Dinamikus idővetemítés
Az idősorok pontjait nem indexenként hasonlítjuk össze
oMotiváció pl. hangfelismerésnél
Dinamikus idővetemítés számítása
1. 𝑛 × 𝑚-es 𝐷 mátrixban rögzítjük a sorok egymástól való távolságát
2. Kell: 𝑝 = 𝑝1, 𝑝2, … 𝑝𝑘 útvonal a 𝐷 1,1 és 𝐷 𝑛,𝑚között
3. Cél: minimális költség4. Szabályok:
1. Minden lépésben előre haladunk (nem távolodhatunk, tehát 𝑖, 𝑗 → 𝑖, 𝑗 esetén 𝑖 ≥𝑖, 𝑗 ≥ 𝑗)
2. Az út folytonos, mindig csak szomszédos cellákra léphetünk
Dinamikus idővetemítés
Sakoe-Chibasáv
Dinamikus idővetemítés
Sakoe-Chibasáv
Longest common subsequence
Nem a pontos időpont számít
Csak a sorrend
𝑥1: 𝑎𝑏𝑐𝑑𝑒𝑓𝑔
𝑥2: 𝑓𝑎𝑏𝑑𝑐𝑒𝑔
𝑛𝑙𝑐𝑠(𝑥1, 𝑥2) = 5𝑙𝑐𝑠 𝑥1, 𝑥2 : 𝑎𝑏𝑐𝑒𝑔
Longest common subsequence
Nem a pontos időpont számít
Csak a sorrend
Általánosítás folytonos értékekre
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.
Eredeti: 5 különböző érték
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.
Eredeti: 5 különböző érték
-2 törlése után: 4 különböző érték is elég
Autokorrelációs módszerek
Autokorrelációs módszerek
o Hol térünk el nagyon a prediktált értéktől?
o Hol változik legjobban az autokorrelációs modell?
Egy kis kitérő: NNDB
Felügyelt: feltételezzük, hogy létezik orákulum
Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?
Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni
Variációk egy témára
o Mennyi információnk van?
o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
NNDB
1. ∀ 𝑖-re 𝑁𝑁 = 𝑥 ∈ 𝑆, 𝑑 𝑖, 𝑥 ≤ 𝑟𝑖 , 𝑟𝑖 az adott ciklusban megengedhető maximális sugár
2. ∀𝑖 -re 𝑠𝑖 = max𝑥 ∈𝑁𝑁(𝑖)
|𝑁𝑁 𝑖 | − |𝑁𝑁 𝑥 |
3. Sejtett ritka elem: 𝑖, amire 𝑠𝑖 maximális.
4. Ha 𝑖 ritka, vége.
5. Ha nem,𝑟𝑖+1 = 𝑖 + 1 × 𝑟1,ugrás 1-re.
𝑁𝑁 = 7𝑁𝑁 = 14
Apriori információval – NNDB
𝑟𝑖+1 = (𝑖 + 1) × 𝑟1, na de mekkora legyen 𝑟1?
Ötlet: ha a ritkák aránya ≈ 𝑝2, akkor legyen 𝐾 =𝑝2 × 𝑆 , számítsuk ki ∀ 𝑖-re a 𝐾. legközelebbi elem távolságát: 𝑛𝑖.
Legyen 𝑟1 = min𝑖 ∈𝑆
𝑛𝑖.
Apriori információval – NNDB
𝑟𝑖+1 = (𝑖 + 1) × 𝑟1, na de mekkora legyen 𝑟1?
Ötlet: ha a ritkák aránya ≈ 𝑝2, akkor legyen 𝐾 =𝑝2 × 𝑆 , számítsuk ki ∀ 𝑖-re a 𝐾. legközelebbi elem távolságát: 𝑛𝑖.
Legyen 𝑟1 = min𝑖 ∈𝑆
𝑛𝑖.
Ha a ritkák tényleg nagyon közel vannak egymáshoz,
akkor beleférnek egy körbe
Implementációs kérdések
𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’) – milyen adatszerkezettel?
o 𝑜𝑟𝑡 𝑥 𝑘 ,𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′
Partíciós módszerek?
o Pl. fák: k-d tree, VP-tree
Implementációs kérdések
𝑥 ≤ 𝑟′
𝑟𝑟′ ≤ 𝑥 ≤ 𝑟′𝑥𝑥ℎ𝑐𝑐𝑖𝑖𝑤𝑤ℎ 𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’)– milyen adatszerkezettel?
Naiv
o Távolságmátrixot tárolunk
o 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′
Partíciós módszerek?
o Pl. fák: k-d tree, VP-tree
Implementációs kérdések
𝑥 ≤ 𝑟′
𝑟𝑟′ ≤ 𝑥 ≤ 𝑟′𝑥𝑥ℎ𝑐𝑐𝑖𝑖𝑤𝑤ℎ 𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’)– milyen adatszerkezettel?
Naiv
o Távolságmátrixot tárolunk
o 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′
Partíciós módszerek?
o Pl. fák: k-d tree, VP-tree
o Pl. fák: k-d tree, VP-tree
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
≤9 (7. zóna)= 10
2.1 𝑟’ ≤ 9 (7. zóna)2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
≤9 (7. zóna)= 10
2.2 r’ = 7 (5-8. zóna) 2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
≤9 (7. zóna)= 10
2.2 r’ = 7 (5-8. zóna) 2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)
Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt
Map-Reduce?
𝑛 elég nagy muszáj bontani
Map-Reduce?
𝑛 elég nagy muszáj bontani
REDUCE
MAPCsomópont milyen más csp-
ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
Map-Reduce?
𝑛 elég nagy muszáj bontani
REDUCE
MAPCsomópont milyen más csp-
ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
Mi van, ha már a felosztást is elosztottan akarom végezni?
Egy kis csalás.. Voronoi cellák
𝑼𝟏
Amiért jó: MapReduce
𝑛 elég nagy muszáj bontani
REDUCE2
MAP2Csomópont milyen más csp-
ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
Amiért jó: MapReduce
𝑛 elég nagy muszáj bontani
MAP1
REDUCE2
MAP2
Csomópont->tartomány hozzárendelések
Csomópont milyen más csp-ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
REDUCE1 Tartományok értékei
Hivatkozásjegyzék
[1] Stream Processing, filtering: Mining of MassiveData Sets
o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf
o Coursera tárgy: https://www.coursera.org/course/mmds
[2] Outlier Detection
o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys(CSUR), 41(3):15, 2009