Mnohorozměrná statistická analýza dat

download Mnohorozměrná statistická analýza dat

If you can't read please download the document

description

Mnohorozměrná statistická analýza dat. Mnohorozměrná analýza dat. E=m.c 2 1+1= ?. H max = log 2 s. Vysvětlované proměnné - druhová data (rostliny, živočichové) 2. Vysvětlující proměnné- vlastnosti prostředí. Co jsou mnohorozměrná data. - PowerPoint PPT Presentation

Transcript of Mnohorozměrná statistická analýza dat

  • Mnohorozmrn statistick analza dat

    E=m.c2 1+1= ?Hmax= log2sMnohorozmrn analza dat

  • Vysvtlovan promnn - druhov data (rostliny, ivoichov)2. Vysvtlujc promnn- vlastnosti prosted

    Co jsou mnohorozmrn data Mm fytocenologick snmek, ve kterm je mnoho promnnch (druh) ppadn promnnch prosted (velikost plochy, sklon, expozice, ph pdy, vlhkost pdy, zpsob vyuvn, hnojen)

    Mm k dispozici soubor dat, nap. druhy vek z vce lokalit. Charakteristiky kadho druhu (poetnost, dominance, diverzita) je ovlivnn mnohmi faktory (promnnmi) prosted (pdn typ, nadmosk vka, expozice, typ vegetace, sukcese, klimatick faktory, antropick innost). U vodnch ivoich to jsou fyzikln-chemick vlastnosti vody, vegetace atd.

  • 1. Nominln (kvalitativn) - tento typ dat je bez numerickch hodnot a nelze ho zaadit nai do td. Data presence/absence se kduj jako + - i 1/0. Hodnoty nemaj vztah navzjem. Na tyto data nelze pout aritmetiku (stat, nsobit atd.)

    2. Ordinln (poadov) - takovto data mohou bt umstna v adu podl kontinua.Typickm pkladem jsou jednodu kly abundance. S tmito daty mohou bt provdny 4 zkladn aritmetick operace. Je vak teba dbt na to, e nap. rozdl mezi "1 a 2" nemus bt stejn jako mezi "3 a 4". Proto i potn prmru a dalch statistickch hodnot me bt nebezpen a zavdjc

    3. Intervalov (kvantitativn) - maj pevnou jednotku men a tak mohou bt rozdly mezi hodnotami srovnvny (nap. teplota: rozdl 3 stup znamen tent rozdl kdekoliv na cel kle). Specifick je vak postaven nuly - nen pevn. Nulov hodnota stupnice je dna definic a jej pozice na seln ose je vcemn libovoln. Pomr dvou hodnot zvis na uitch jednotkch (5oC = 41oF; 10oC = 50oF)

    4. Pomrn (kvantitativn) - obdobn (3), ale s pevn fixovanou nulou. Tak je mondefinovat pomr. Pomr je nezvisl na jednotce, ve kter je velikost znaku vyjdena. Tedy - jestlie jeden kvadrt m plochu 2 m2 a druh 4 m2, pak je druh 2x vt ne prvn.

    Typy dat

  • Sname se :

    najt strukturu v datech (zjistit, kter druhy se vyskytuj pospolu, nebo kter snmky/zpisy si jsou podobn)

    najt korelaci druh s charakteristikami prosted

    najt asovou nebo prostorovou variabilitu vegetace

    provst statistick test vlivu pokusnho faktoru.

    Jak problmy eme s pouitm mnohorozmrnch dat

  • 1. Pm bezprostedn ovlivuj rst rostlin. svtlo. teplota. voda. iviny2. Nepm (zstupn) snadno se m a koreluj s pmmi faktory. nadmosk vka. geologick podlo. typ pdy. sklon a orientace svahu aj.

    Gradienty prosted(environmentln gradienty = EF)

  • Pm gradientov analza

    analyzuje zmny druhovho sloen podle znmho a pedem stanovenho jednoho nebo nkolika gradient prosted(podle nadm. vky, vlastnost pdy, intenzity hnojen atd.)

    2. Nepm gradientov analza

    analyzuje variabilitu druhovho sloen spoleenstva nezvisle na prosted smr nejvt variability druhovho sloen (cenoklina komplexn gradient prosted)

    Pm a nepm gradientov analza

  • Kdovn kvantitativnch a kvalitativnch promnnch Kategoriln vcestavov (dummy) promnn Poet parametr prosted? Kolik parametr? Parametry prosted siln korelovan (Inflation factor)

  • ORDINAN METODY

    Druh (objekty) jsou charakterizovan p znaky je mon si pedstavit jako body v p rozmrnm prostoru, kde kad z rozmr pedstavuje hodnoty jednoho znaku. V ppad dvou nebo t znak meme na dvou- ppadn troj- rozmrnm diagramu bez problm kontrolovat vztahy mezi objekty.

    V ppad vtho potu znak (rozmr, dimenz) monost takovto kontroly chyb. K tomuto elu je zapoteb redukovat celkov poet pozorovanch znak na dva a ti nov znaky (rozmry) a to tak, aby dolo k co nejmen ztrt informace, kter je v pvodnch znacch obsaena. Ordinan metody slou prv tomuto elu. Jejich spnost zvis na struktue obsaen v datech. Dobe strukturovan data umouj koncentraci podstatn sti informace do nkolika prvnch ordinanch os.

    V praxi se pouvaj nejastji analza hlavnch komponent (principal component(s) analysis - PCA), detrendovan korespondenn analza (DCA), redundan analza (RDA) a kanonick koresponden analza CCA).

  • Ordinan metody

    zjednoduuj mnohorozmrn prostor na 14 rozmry (ordinan osy), princip nen v redukci, ale v rotaci pohledu

    1. osa zachycuje smr nejvt variability hyperprostoru

    2. osa zachycuje dal smr nejvt variability nezachycen 1. osou => nekoreluje s 1. osou

    dal osy zachycuj dal smry nejvt variability, nezachycen pedchozmi osami v sestupnm poad

    variabilita zachycen jednotlivmi osami je vyjdena tzv. charakteristickmi sly (eigenvalues)

  • Program CANOCO(jin SPSS, SYN-TAX, NCSS)

  • CANOCO

    Data jsou v CanoImp transformovan do Cornellovskho formtu

  • CANOCOModul CanoWin

  • CANOCO DCAAxes 1 2 3 4 Total inertiaEigenvalues : 0.809 0.427 0.156 0.048 2.287Lengths of gradient : 6.098 5.565 1.768 0.842Cumulative percentage variance of species data : 35.4 54.0 60.9 63.0Trend zbaven korespondenn analza DCA sepouv se jako 1. krok ordinan analzy, ke zjitn dlky gradientu (SD= smrodatn odchylka)Podle hodnoty SD volme ordinan proceduru bu linern metody ordinan analzy PCA, RDAunimodln metody (DCA, CCA)

  • CANOCOModul CanoDraw 4.5

  • CANOCO grafyDCAScatter plot

  • CANOCO grafyPCA

  • CANOCO grafyRDABiplot2 vrstvy druhy prosted

  • CANOCO statistika 6 aluviln louky 0.19Environmental variable 6 tested

    P-value 0.0100 (variable 6; F-ratio= 2.71; number of permutations= 499)

    19 permutac test pro 5% hladinu vznamnosti (P

  • Klasifikan metody

    Koeficinety vyjadujc vztahy mezi objekty nebo znakyKoeficinety vzdlenosti pro kvantitativn data (metric distances)Koeficinety vzdlenosti pro binrn znaky (binary simmilarity coefficients)Koeficinety vzdlenosti pro smen data (coefficients for mixed data)Korelan koeficietnty (corelation coefficients)

  • Jaccardv index J = a/b+c-a . 100 (%)

    a spolen vskyt druhb poet druh lokality bc poet druh lokality c Srensenv indexS = 2a/b+c . 100 (%) a spolen vskyt druhb druh cenzy Ac druh cenzy B

    Binrn koeficienty podobnosti

  • Koeficinety vzdlenosti pro kvantitativn data (metric distances)

    Studovan objekty jsou body v porostoru, maj sv souadnice,Dimenze prostoru je dan potem znak pouitch k jejich popisu Pokud koeficienty spluj nsledovn, povauj se za metrikySymetrie- vzdlenost objekt x,y d(x,y)= d(y,x)02. Vzdlenost totonch objekt d(x,y)= 0 kdy x=y3. Vzdlenost objekt, kter nejsou toton d(x,y)> 0 kdy xy4. Vzdlenost dvou d(x,y) je men (nebo rovna) soutu jejich vzdlenost od objektu tetho d(x,z) + d(y,z) d(x,y) d(x,) + d(y,z)

  • Metrick koeficienty

    Euklidovsk vzdlenost mezi objekty A [x1, y1] a B [x2, y ] pedstavuje vzdlenost oznaenou jako c (pepona trojhelnku), Manhattansk vzdlenost pedstavuje souet vzdlenost oznaench jako a a b (souet odvsen trojhelnku).

  • Jestlie se druhy X a Y vyskytuj ve snmcch 1 a 2, podobnost nebo-li "distance" mezi tmito dvma snmky v geometrickm prostoru druh x,y je definovna

    pro vce ne 2 druhy pak

    kde Dij = Euklideova vzdlenost mezi snmky i a j; m = poet druh;xik = abundance druhu k ve snmku i xjk = abundance druhu k ve snmku jEuklidovsk vzdlenost mezi objekty x a ynejznmj metrika- ordinln (kvantitativn data)

  • Clem shlukov analzy (cluster analysis) je nalzt v celm souboru dat takov skupiny objekt, kter jsou si navzjem blzk i podobn, ale kter se li od objekt ostatnch skupin. Jde v n tedy o slouen objekt (nap. druh) do skupin (do shluk) na zklad jejich vlastnost. Kad skupina pak obsahuje objekty s velmi podobnmi vlastnostmi.

    Shlukov analza je pedevm metodou prvnho stupn analzy dat, kter m navrhnout urit hypotzy.

    Nemla by bt konenm clem dn prce, ale spe prvnm vodtkem k pouit dalch statistickch metod. Ve shlukov analze nedochz k testovn hypotz, tak ji nkte autoi nepovauj za statistickou metodu.

    Pklad pouit shlukov analzy: Mjme soubor strom a pro kad z nich adu namench parametr. Shlukov analza nm vytvo takov shluky (clusters) strom, uvnit kterch jsou stromy s podobnmi parametry. A tak obrcen: stromy zahrnut do rznch shluk se v danch parametrech li vce, ne stromy obsaen v jednom shluku.Shlukov - klastrov analza

  • SHLUKOVAC (KLASTROV) ANALZY

    Shluk (klastr) - skupina objekt, kter uvnit njak vt skupiny nemaj ani nhodn ani rovnomrn vskyt. Existuje centrum shluku - centroid prvek (nap. hypotetick taxon), kter m vlastnosti dan prmrnmi hodnotami vech objekt.

    Shlukovac metody se dl podle rznch kriteri:

    zpsob tvorby shluk: - aglomerativn metody uplatuje se postupn fze objekt do vtch skupin- divizivn dochz k postupnmu dlen objekt do mench skupin (2) uspodn shluk: - hierarchick - v prvnm ppad jsou shluky hierarchicky uspodan, - nehierarchick; druh se objekty dl jen do primrnch skupin, klasifikace na vych rovnch tu chyb

  • Jednospojov metoda, metoda nejbliho souseda (single linkage, the nearest neighbor method)

    Skupiny, kter jsou na zatku analzy reprezentovan jednotlivmi objekty se spojuj podle vzdlenosti mezi jejich nejblimi objekty. Vzdlenost mezi skupinami se tedy definuje jako vzdlenost mezi jejich nejblimi pslunky.

    Tato metoda se me pout s koeficienty podobnosti nebo s hodnotami vzdlenost.

  • Vespojov metoda, metoda nejvzdlenjho souseda (complete linkage, the furthest neighbor method)

    Tato metoda je pesnm opakem jednospojov metody - vzdlenost mezi skupinami je definovna jako vzdlenost mezi nejvzdlenjmi body (objekty) z tchto skupin.

  • Prmrov metoda (average linkage, UPGMA - unweighted pair-group method using arithmetic averages)

    Tato metoda definuje vzdlenost mezi skupinami jako prmr vzdlenost mezi vemi pry OTU ve dvou skupinch. Pedstavuje uiten kompromis mezi pedchozmi dvma metodami.Geometrick interpretace prmrov metody je nsledujc:

  • Seazen dat do tabulky- sloupce jsou tvoeny jednotlivmi promnnmi a dky objekty

    Transformace dat- v souboru mohu mt promnn s rznmi stupnicemi (cm, %, bezjednotkov promnn, atd.). Proto se data transformuj na standartizovanou stupnici

    Vpoet matice podobnosti i nepodobnosti mezi objekty (pomoc vzdlenosti mezi objekty)

    Aplikace tdc strategie: vezmou se objekty, kter maj v matici nepodobnosti nejni koeficient (tud jsou si nejbli), slou se do stejn skupiny (do stejnho shluku), pak se spot opt matice nepodobnosti mezi skupinami a opt se spoj nejbli skupiny, atd. Byla vyvinuta cel ada tdcch strategi

    Vsledkem shlukov analzy m.e bt nap. Dendrogram. Poet shluk me bt pedem zadn, nebo je soust procedury podle njakho kritria urit optimln poet shlukPrincip shlukov analzy

  • Narozdl od pedchozch postup tato metoda nen zaloena na optimalizaci vzdlenosti mezi shluky, ale na optimalizaci homogenity shluk podle uritho kritria, kterm je minimalizace zvyovn chyby sumy tverc odchylek bod shluku od jeho prmru (centroidu).

    Metodu navrhl Ward v roku 1963 tak, e se na kadm stupni analzy pot ztrta informace, kter je vsledkem seskupen OTU do shluk, a kter je vyjdena jako prstek celkov vnitroskupinov sumy tverc odchylek kadho bodu shluku od prmrn hodnoty bod tohoto shluku.

    Na kadm stupni analzy se tato suma tverc pot pro spojen kadho monho pru shluk. Spojuj se potom takov shluky, kde dochz k minimlnmu nrstu chyby sumy tverc (the error sum of squares). Jinmi slovy, tato metoda minimalizuje vnitroshlukov roptyl.

    Princip shlukov analzyWardova metoda, metoda minimalizace zvyovn chyby sumy tverc

  • Program NCSS

    StatisticaStatSoft, Inc. (2004). STATISTICA Cz [Softwarov systm na analzu dat], verze 7. Www.StatSoft.Cz

  • Dendrogram - klastrWardova metodaJednoduch spojen

  • Jak st z dendrogramu?

    Dendrogram m na horizontln ose vynesen koeficient (po)nepodobnosti (si)dissimilarity a na ose vertikln jsou vyneseny objekty (v naem ppad sla (jmma) strom - klastr). m del jsou ve stromovm diagramu horizontln seky, tm vt je rozdl mezi objekty.

    3D graf ze skre na ordinan osy

    Dkuji za pozornostS mnohorozmrnou analzou do svta...