Z ákladné princípy strojového učenia
description
Transcript of Z ákladné princípy strojového učenia
ZZákladné princípy ákladné princípy strojového učeniastrojového učenia
Kristína MachováKristína Machová
OSNOVA:1. Uvažované kognitívne algoritmy2. Základné princípy kognitívnych algoritmov3. Usporiadanie priestoru pojmov4. Horolezecký princíp5. Delenie priestoru príkladov na podpriestory6. Riadenie výnimkami7. Súťaživý princíp8. Skórovacia funkcia9. Redukcia počtu kandidátov10.Návrh a výber algoritmu11.Voľba základných princípov
Klasifikačná úloha
Sekvenčná úloha
Kontrolovanéučenie -s učiteľom
Learningapprentices
Nekontrolo-vané učenie - bez učiteľa
Zhlukovanie
Reinforce-ment learning
UVAŽOVANÉ KOGNITÍVNE ALGORITMY
1. VSS – Version space search (logické konjunkcie)2. EGS – Exhaustive General to Specific (logické konjunkcie)3. ESG – Exhaustive Specific to General (logické konjunkcie)4. HGS – Heuristic General to Specific (logické konjunkcie)5. HSG – Heuristic Specific to General (logické konjunkcie)6. HCT – Heuristic criteria tables (prahové pojmy)7. IWP – Iterative Weight Perturbation (prahové pojmy)8. SOMA – SamoOrganizujúci sa Migračný algoritmus()9. NCD – Nonincr. Induction of Competitive Disjunctions (etalóny)10.ICD – Incr. Induction of Competitive Disjunctions (etalóny)11.AQ11 – (disjunktívna normálna forma - DNS)12.NSC – Non-incremental Separate and Conquer (DNS)13.ID3 – Iterative Dichotomizer 3 (rozhodovacie stromy RS)14.ID5R – Iterative Dichotomizer 5 Recursive (RS)15.C4.5 – (rozhodovacie stromy)16.MDLP – Minimum Description Lenght Principle (rozhodovacie
stromy)17.CN2 – (rozhodovacie zoznamy RZ)18.NEX – Nonincremental Induction with Exclusions(RZ)19.BSK – Bayes-ovský klasifikátor (pravdepodobnostné pojmy)
hgs(PSET,NSET,CLOSED-SET,HSET) nech OPEN-SET={}for každý pojem H v HSET nech SPECS sú všetky jedno-podmienkové špecifikácie H, nech NEWSET={} for každý špecifikovaný pojem S v SPECS if Score (S,PSET,NSET)>Score (H,PSET,NSET) then pridaj S do NEWSETif NEW-SET={}then pridaj H do CLOSED-SETelse for každý pojem S v NEW-SETpridaj S do OPEN-SETfor každý pojem C v CLOSED-SET if S je aspoň tak špecifický ako C then if Score (C,PSET,NSET)>Score (S,PSET,NSET) then vymaž S z OPEN-SET else vymaž C z CLOSED-SETif OPEN-SET={}then vráť člena s najvyšším skóre v CLOSED-SETelse nech BEST-SET je Beam-Size počet najvyššie skórovaných členov zjednotenia OPEN-SET a CLOSED-SET nech CLOSED-SET je množina členov CLOSED-SET v BEST-SET nech OPEN-SET je množina členov OPEN-SET v BEST-SET hgs (PSET,NSET,CLOSED-SET,OPEN-SET).
hct(PSET,NSET,ATTS)nech etalón E je množinou najfrekventovanejších hodnôt v PSET pre každý z atribútov v ATTSnech inicializačná prahová hodnota T = veľkosť ATTS (počet atribútov)nech inicializačná množina hypotéz HSET={[T_z_E]}htc-aux(PSET,NSET,E,{},HSET) htc-aux(PSET,NSET,E,CLOSED-SET,HSET)nech OPEN-SET={}for každý pojem H v HSET nech SPECS je najšpecifickejšie zovšeobecnenie(H,E) nech NEWSET={} for každý špecifikovaný pojem S v SPECS if Score (S,PSET,NSET)>Score (H,PSET,NSET) then pridaj S do NEWSETif NEW-SET={}then pridaj H do CLOSED-SETelse for každý pojem S v NEW-SET pridaj S do OPEN-SET if OPEN-SET={} then vráť člena s najvyšším skóre v CLOSED-SET else nech BEST-SET je Beam-Size počet najvyššie skórovaných členov zjednotenia OPEN-SET a CLOSED-SET nech CLOSED-SET je množina členov CLOSED-SET v BEST-SET nech OPEN-SET je množina členov OPEN-SET v BEST-SET hct-aux(PSET,NSET,E,CLOSED-SET,OPEN-SET)
ZÁKLADNÉ PRINCÍPY KOGNITÍVNYCH ALGORITMOV
P1 - usporiadanie priestoru pojmov P2 - horolezecký princíp P3 - delenie priestoru príkladov na
podpriestory P4 - riadenie výnimkami P5 - súťaživý princíp P6 - skórovacia funkcia P7 - redukcia počtu kandidátov
základné princípy
charakteristické princípy dodatkové princípy
P6
P7
P1
P2
P3
P4
P5
USPORIADANIE PRIESTORU POJMOV
Prehľadávanie priestoru všetkých kandidátov pojmov.
Priestor pojmov je usporiadaný (napr. podľa všeobecnosti).
Nutnosť definovať operátory pre pohyb v priestore pojmov (napr. operátorov špecifikácie/zovšeobecnenia).
Prehľadávame od všeobecného k špecifickému (G-S), od špecifického k všeobecnému (S-G), resp. obidvoma smermi.
Princíp využívajú algoritmy: VSS, EGS a ESG.
HOROLEZECKÝ PRINCÍP Prehľadávacia stratégia založená na
gradientnom hľadaní extrému v lokálnom okolí aktuálneho riešenia.
Extrém – najsľubnejšie riešenie je možné merať skórovacou funkciou.
V rýchlo nájdenom lokálnom extréme často uviazne (dotiahnutie extrému nájdeného inou metódou).
Princíp využívajú algoritmy: IWP, SADE a SOMA.
DELENIE PRIESTORU PRÍKLADOV
NA POD PRIESTORY Priestor príkladov sa rekurzívne delí na
pod priestory, kým nie je splnená ukončovacia podmienka (napr. v každom pod priestore sú iba príklady jednej triedy).
Podmienka delenia (testovací atribút) sa vyberá pomocou informačnej teórie (napr. minimálna entrópia).
Princíp využívajú algoritmy: NSC, AQ11, ID3, ID5R, C4.5 a MDPL.
RIADENIE VÝNIMKAMI Pre chybne klasifikované príklady - výnimky
sa vytvoria nové triedy (pseudotriedy). Tento proces sa opakuje, kým nie sú všetky
príklady správne klasifikované (nové iterácie neprinášajú lepšie výsledky, maximálny počet iterácií).
Princíp využívajú algoritmy: NCD, ICD a NEX.
SÚŤAŽIVÝ PRINCÍP Kandidáti pojmov sa ohodnotia pomocou
zvolenej hodnotiacej funkcie a vyberie sa najlepšie ohodnotený pojem.
Príklad hodnotiacej funkcie – pravdepodobnosť triedy podmienená hodnotami atribútov klasifikovaného príkladu.
Príklad hodnotiacej funkcie –vzdialenosť (Euklidova) klasifikovaného príkladu od typických reprezentantov jednotlivých tried.
Princíp využívajú algoritmy: NCD, ICD a Bayes-ovský klasifikátor.
SKÓROVACIA FUNKCIA Umožňuje vytvárať systémy s
prehľadávacími preferenciami (search bias), ktorý bude pojmy lepšie ohodnotené skórovacou funkciou uvažovať skôr.
Vo všeobecnosti je skóre priamo úmerne závislé na počte pokrytých pozitívnych príkladov a nepriamo úmerne závislé na počte pokrytých negatívnych príkladov.
Zložitejšie prístupy používajú štatistické alebo informačné miery (entrópia, signifikancia).
Princíp využívajú algoritmy: HGS, HSG, HCT, ID3, ID5R, C4.5 a CN2.
REDUKCIA POČTU KANDIDÁTOV
V každej iterácii algoritmu sa obmedzí počet pojmov na určitý počet (Beam Size – BS).
Z kandidátov pojmov usporiadaných podľa hodnôt skórovacej funkcie sa vyberie iba BS najsľubnejších pojmov.
Horolezecký princíp je špeciálnym prípadom prípadom pri BS=1.
Tvrdé preferencie (Hard Bias) – niektoré typy pojmov sú vopred vylúčené z prehľadávania.
Mäkká zaujatosť (Soft Bias) – pojmy s vyšším skóre majú prednosť.
Princíp využívajú algoritmy: HGS, HSG a HCT.
P2
VSSEGS
HGS
IWP SADE
SOMA
HGS
HSG
HCT
CN2
NEXNCD
ICD
P1
P3
P7
P6
P5
P4
NSC
AQ11MDPL
ID3
ID5R
C4.5
NÁVRH RESPEKTÍVE VÝBER ALGORITMU
Analýza problému resp. kognitívnej úlohy. Na základe analýzy, voľba základných
princípov vyhovujúcich danej úlohe. Návrh všeobecného algoritmu
kombinujúceho zvolené základné princípy.
VOĽBA ZÁKLADNÝCH PRINCÍPOV
Ak je veľký rozsah trénovacích údajov, široký priestor pojmov alebo zašumené trénovacie údaje a nemusíme trvať na optimálnom riešení, potom je vhodná kombinácia princípov P1 & P6 & P7.
Pre úlohu charakteristickú veľkým rozptylom príkladov jednej triedy medzi príklady ostatných tried je vhodný princíp P3 & P1 alebo P4.
Ak je priestor pojmov lineárne separabilný, potom môžeme použiť P2.
Keď sú trénovacie údaje kontradičné (klasifikácia dokumentov) je vhodné použitie princípu P5.
PRÍKLADY POUŽITIA Klasifikácia podozrivej bankovej operácie -
veľké množstvo trénovacích údajov z niekoľkých bánk: P1 & P6 & P7.
Diagnostika zriedkavých diagnóz špecializovanej oblasti medicíny – málo početná trénovacia množina a veľký rozptyl príkladov jednej triedy medzi príklady ostatných tried: P3 a v jednotlivých podpriestoroch P1 alebo P4 (P4 formuje pre výnimky pseudotriedu – novú chorobu spôsobenú zmutovaným vírusom).
Ďakujem za Ďakujem za pozornosťpozornosť