START-projekti Mittaussarjoista saatavan tiedon kehittäminen - SCOAP-lämpötilaprofiilin...

32
SÄÄTÖTEKNIIKAN LABORATORIO START-projekti Mittaussarjoista saatavan tiedon kehittäminen - SCOAP-lämpötilaprofiilin esikäsittely Jani Posio Raportti B No 59, Marraskuu 2005

Transcript of START-projekti Mittaussarjoista saatavan tiedon kehittäminen - SCOAP-lämpötilaprofiilin...

  • SÄÄTÖTEKNIIKAN LABORATORIO

    START-projekti

    Mittaussarjoista saatavan tiedon kehittäminen -

    SCOAP-lämpötilaprofiilin esikäsittely

    Jani Posio

    Raportti B No 59, Marraskuu 2005

  • Oulun yliopisto Säätötekniikan laboratorio Raportti B No 59, Marraskuu 2005

    START-projekti

    Mittaussarjoista saatavan tiedon kehittäminen – SCOAP-lämpötilaprofiilin esikäsittely

    Jani Posio

    Oulun yliopisto, Säätötekniikan laboratorio

    Lyhennelmä: START-projektin tehtävässä: ”Mittaussarjoista saatavan tiedon kehittäminen” puitteissa on kokeiltu useita erilaisia esikäsittelyalgoritmeja kaksiulotteisen SCOAP-lämpötiladatan esikäsittelyyn. Esikäsittelyyn kuuluvat mm. poikkeavien arvojen haku ja korjaus, reunaroson silittäminen sekä tarvittaessa tehtävä profiilin suoristaminen. Tässä raportissa tehdään katsaus SCOAP-lämpötilaprofiilien esikäsittelyssä käytettyihin menetelmiin ja arvioidaan niiden toimivuutta. Esikäsittelyä lähestyttiin sekä perinteisten tilastollisten menetelmien että muutaman kuvankäsittelystä johdetun menetelmän avulla. Tilastolliset menetelmät ovat pääasiassa tuttuja yksiulotteisten signaalien esikäsittelystä. Suurimpina tekijöinä hakualgoritmien toimintaan vaikuttivat poikkeavien arvojen lukumäärä ja käsiteltävän datan epästationäärisyys. Mediaania käyttävissä, esimerkiksi robusteissa, menetelmissä mediaanin murtumispiste aiheutti ongelmia. Globaalisti toimivien algoritmien suorituskykyä heikensivät profiilin pituus- ja poikkisuunnan epästationääriset komponentit, esimerkiksi keskiarvon muuttuminen kyseisissä suunnissa. Johtopäätöksenä todettiin, että toimiakseen mahdollisimman tehokkaasti muuttuville profiileille algoritmien pitäisi etsinnässä adaptoitua toimintaympäristönsä mukaisesti. Toisaalta algoritmien toimiminen paikallisesti ja adaptoituvasti lisää laskentakuormaa ja siten hidastaa niiden toimintaa. Kuten voitiin jo etukäteen odottaa, yhtä ja ainoaa oikeaa menetelmää on miltei mahdotonta määritellä, joten valinta joudutaan tekemään tapauskohtaisesti. Tässä vaiheessa päätettiin profiilien esikäsittelyssä käyttää globaalia robustia menetelmää ja globaalia histogrammin kynnystystä niiden laskentatehokkuuden perusteella. Profiilinsuoristusalgoritmin toiminta perustui kaikkien poikkisuuntaisten pyyhkäisyjen keskipisteen siirtoon samalle tasolle. Tämä toimenpide saadaan suoritetuksi yksinkertaisin profiilipinnalla tehdyin geometrisin toimenpitein. Profiilialueen reunaroson tasoittaminen taas tapahtui alipäästösuodattamalla alkuperäinen reunamuotoa kuvaava vektori ja digitoimalla suodatustulos lähimpiin kokonaislukuihin. Hakusanat: Datan esikäsittely, kuumanauhavalssaamo, lämpötilaprofiili. ISBN 951-42-7899-2 Oulun yliopisto ISSN 1238-9404 Säätötekniikan laboratorio PL 4300 FIN-90014 OULUN YLIOPISTO

  • Sisällysluettelo 1 JOHDANTO .............................................................................................................. 1 2 LÄMPÖTILAPROFIILIN VIRHEPYYHKÄISYT JA POIKKEAVAT ARVOT ... 2 2.1 Poikkeavien arvojen hakualgoritmit .......................................................................... 2 2.2 Algoritmien suorituskyky .......................................................................................... 8 2.3 Poikkeavien arvojen korvaaminen........................................................................... 15 3 YLIMÄÄRÄISEN TAI VIRHEELLISEN KEULA- JA HÄNTÄALUEEN

    KORJAUS................................................................................................................ 19 4 REUNAROSON TASOITTAMINEN..................................................................... 21 5 YHTEENVETO....................................................................................................... 23 LÄHDELUETTELO......................................................................................................... 24

  • 1

    1 JOHDANTO

    Säätötekniikan START-projektin puitteissa selvitettiin skannaavilta SCOAP-pyrometreilta (SCOAP0 ja SCOAP1) saatavan 2D-datan laatua ja luonteenomaisia piirteitä. Lisäksi arvioitiin vaadittavia esikäsittelymenetelmiä. Esikäsittelyn tavoitteena on tuottaa tutkittavaa kohdetta kuvaava mittaussignaali, jossa analysoitava ilmiö on mahdollisimman hyvin esillä. Ilmiön näkyvyyttä analyysituloksissa peittävät virheet on poistettava ilman, että tuotetaan uusia ilmiöitä dataan. Poikkeavien arvojen korjaaminen sisältää kaksi haastavaa tehtävää: poikkeavat arvot on löydettävä jonkin luotettavan kriteerin perusteella ja lisäksi ne on korvattava riittävän hyvillä estimaateilla aiheuttamatta liian suurta harhaa datasta estimoitaviin tunnuslukuihin. Muita mahdollisia esikäsittelymenetelmän ominaisuuksia ovat mm. sen suoritusnopeudelle ja robustisuudelle asetettavat vaatimukset. /1, 2/ Alkuperäisessä esikäsittelyn määrittelyssä mainittiin muun muassa ylimääräisen keula- tai häntäalueen poisto, reunaroson tasoittaminen ja virhepyyhkäisyjen korjaus. Esikäsittely on tulosten luotettavuuden kannalta eräs data-analyysin kriittisimpiä vaiheita. Tehokkaalla ja oikealla esikäsittelyllä varmistetaan datasta laskettavien piirteiden luotettavuus ja edustavuus. Esikäsitellystä datasta on myös helpompi havaita merkittävät ja hyödylliset piirteet /1, 2/. Lähtökohtana on pyyhkäisevien pyrometrien tuottamien kaksiulotteisten lämpötilaprofiilien käsittely. Nauhavalssaamolla on toiminnassa kaksi SCOAP-laitetta ennen ja jälkeen jäähdytysvyöhykettä ja levyvalssaamolla nopeutetussa jäähdytyksessä myös kaksi (SCOAP ja Landis). SCOAP-analysaattoreiden tuottamaa dataa voidaan käsitellä kaksiulotteisilla kuvankäsittelyalgoritmeilla tai vaihtoehtoisesti erikseen yksiulotteisesti signaalinkäsittelyalgoritmeilla pituus- ja poikittaissuuntaisesti. Molempia signaalinkäsittelyllisiä lähestymistapoja kokeiltiin. Esikäsittelyn perustavana ongelmana on löytää kaikissa tilanteissa robustisti toimiva esikäsittelymenetelmä. Lämpötilaprofiilin esikäsittelyä vaikeuttaa profiilin epästationäärisyys sekä vaihtelut poikkeavien arvojen lukumäärässä ja esiintymispaikoissa. Yleensä on tehtävä kompromissi lopputuloksen suhteen tai käytettävä eri tilanteisiin adaptoituvia menetelmiä. Esikäsittelyalgoritmin tärkein tehtävä on tunnistaa ne datapisteet, jotka ovat jonkin toisen kuin normaalin prosessimekanismin tuottamia. Muita esikäsittelyn piiriin kuuluvia toimenpiteitä ovat epätasaisen profiilireunan tasoitus (reunaroson poisto) ja mahdollinen profiilin suoristaminen. Signaalinkäsittelyn kannalta nämä tehtävät edellyttävät alipäästösuodatuksia, paikkatason siirtymiä, ekstrapolointia ja mahdollisesti interpolointia.

  • 2

    2 LÄMPÖTILAPROFIILIN VIRHEPYYHKÄISYT JA POIKKEAVAT ARVOT

    Perimmäinen tavoite esikäsittelyssä on määritellä niin sanottu normaali datajoukko, eli ne prosessia kuvaavat arvot, jotka eivät sisällä poikkeavia arvoja. Tämä tavoite vaatii yleensä ennakkoon tietoa tarkasteltavasta kohteesta ja tietämystä normaalien mittaustulosten vaihtelualueesta. Lämpötilaprofiileissa poikkeavat arvot esiintyvät sekä peräkkäisinä poikittaissuuntaisina jaksoina että yksittäisinä satunnaisina pisteinä. Niiden esiintymistaajuus ei noudata mitään systematiikkaa. Ne ovat ns. lyhytkestoisia häiriöitä, jotka ovat yleensä aina laajakaistaisia. Poikkeavat arvot ovat lähinnä mittaustapahtuman tuottamia. Poikkeavien ja normaalien arvojen välillä esiintyy voimakas gradientti. Poikkeavia arvoja esiintyy yleensä enemmän nauhan keulassa kuin muissa osissa nauhaa. Poikkeavat arvot suuntautuvat lähes aina keskiarvosta negatiivista ääretöntä kohti aiheuttaen lämpötilaprofiilin jakaumaan negatiivista vinoutta ja bi-modaalisuutta. Lisäksi poikkeavat arvot voidaan mallintaa additiivisena impulssimaisena ja pulssimaisena häiriökomponenttina joka on summattavissa normaaliin signaalitasoon. Toinen erittäin tärkeä seikka esikäsittelyn suunnittelussa on tarkasteltavan kohteen stationäärisyys. Käsiteltävän kohteen tilastollisten suureiden muutokset ajan tai paikan funktiona pitäisi ottaa huomioon esikäsittelyssä. Jos edellä mainittua epästationäärisyyttä esiintyy, vaaditaan esikäsittelyalgoritmilta jonkinlaista adaptoitumista muuttuviin olosuhteisiin. Toinen tapa epästationäärisyyden vaikutuksen vähentämiseksi on approksimoida epästationäärinen komponentti esim. trendi ja poistaa se ennen esikäsittelyä tai esikäsittelemällä profiilia paikallisesti, jolloin epästationäärisyys ei vaikuta lopputulokseen. Lämpötilaprofiileissa esiintyviä epästationäärisyyksiä olivat mm. pituus- ja poikittaissuuntaiset trendit ja satunnaiset varianssin muutokset. Tyypillinen epästationäärinen piirre oli nauhan keulan suurempi varianssi verrattuna muihin nauhan osiin. Esikäsittelyssä arvioitiin edellä mainittujen tekijöiden vaikutuksia lopputulokseen.

    2.1 Poikkeavien arvojen hakualgoritmit

    Tavoitteena oli määrittää menetelmä, joka olisi riittävän herkkä ja robusti poikkeavien arvojen löytämiseksi. Testatut menetelmät voidaan luokitella esimerkiksi globaaleihin, paikallisiin, yksi- ja kaksiulotteisiin ja adaptiivisiin menetelmiin. Osa menetelmistä on perinteisiä signaalinkäsittelyn ja osa kuvankäsittelyn menetelmiä. Tiettyjä menetelmiä voidaan soveltaa kaksiulotteiseen lämpötilaprofiiliin joko riveittäin ja sarakkeittain ja tiettyjä taas käsittelemällä koko profiilia globaalisti tai vaihtoehtoisesti tarkastelemalla arvoja alue kerrallaan pienessä ikkunassa, maskissa. Lisäksi kaksiulotteisissa algoritmeissa tarkasteluikkunat voivat olla erillisiä (distinct windows) ikkunoita tarkastelualueella tai vaihtoehtoisesti ne voivat liukua (sliding windows) arvo kerrallaan koko profiilialueen yli. Jälkimmäinen vaihtoehto on laskennallisesti kaikista raskain. Kaikkia edellä mainittuja toimintatapoja kokeiltiin.

  • 3

    Testatuista menetelmistä perinteisestä signaalinkäsittelystä tuttuja olivat mm. wavelet perusteinen menetelmä, robusteihin estimaatteihin perustuvat menetelmät ja 3-sigman menetelmä. Kuvankäsittelystä tuttuja menetelmiä olivat datapisteiden välisiä siirtymiä kuvaavan kaksiulotteisen todennäköisyysjakauman klusterointimenetelmä, profiilin intensiteetin klusterointi K-means algoritmilla, profiilin yksiulotteisen histogrammin kynnystäminen ja kaksiulotteisesti toimiva Hampel-suodin. Osaa menetelmistä testattiin sekä globaalisti koko profiilille että paikallisesti profiilin eri osissa. Ensimmäiseksi esikäsittelyä kokeiltiin perinteisellä 3-sigman menetelmällä, jossa poikkeaviksi arvoiksi luokitellaan datapisteet, jotka eroavat datan keskiarvosta yli kolmen keskihajonnan verran. Tässä globaalissa menetelmässä oletetaan tarkasteltavan mittausdatan olevan stationääristä, joten tunnuslukujen laskennassa käytetään koko dataa. Menetelmässä oletetaan datapisteiden olevan normaalijakautuneita ja todennäköisyydellä 0.3 % yli 3 keskihajontaa keskiarvosta poikkeavia. Menetelmän käyttämät tilastolliset momentit, keskiarvo ja keskihajonta, kuitenkin biasoituvat herkästi, jos datassa on useita poikkeavia arvoja. Näin ollen sen tehokkuus useiden poikkeavien arvojen tapauksessa on heikko. 3-sigman algoritmi toimii seuraavalla tavalla /3, 4/: 1. estimoidaan datajoukon keskiarvo, mean 2. estimoidaan datajoukon keskihajonta, σ 3. lasketaan jokaiselle k:lle 1:N: zk = |( xk-mean)/ σ | 4. jos zk > 3, niin xk on poikkeava arvo. Eräs tapa parantaa tulosta, on robustien estimaattien käyttö poikkeavien arvojen haussa. 3-sigman menetelmässä voidaan keskiarvo korvata mediaanilla ja keskihajonta hajonnan absoluuttisella mediaanilla (MAD = median absolute deviation). Tämä menetelmä on varsin robusti poikkeaville arvoille, mutta sen haittapuolena on oletus käsiteltävien datapisteiden symmetrisestä jakautumisesta. Näin ollen käytettäessä kyseisiä estimaatteja esimerkiksi alkuperäisen todellisen jakauman ollessa vino, estimoidaan herkästi myös oikeita arvoja virheellisiksi. Tätä algoritmia voidaan käyttää globaalina tai paikallisena ja yksi- tai kaksiulotteisena versiona. /4/ Mediaanin ja MAD-estimaatin käyttöä poikkeavien arvojen haussa kokeiltiin sekä paikallisesti että globaalisti toimivana algoritmina sekä yksi- että kaksiulotteisessa toimintaympäristössä. Kummassakin tapauksessa tavoitteena oli etsiä arvot, jotka poikkeavat tietyn MAD-hajontaestimaatin monikerran verran datasta lasketusta mediaanista. Paikallinen versio funktiosta, jota myös Hampel-suotimeksi kutsutaan, laskee mediaania ja hajontaestimaattia liukuvassa ikkunassa ikkunan arvoilla. Ikkunassa testataan, ylittääkö ikkunan keskimmäinen arvo lasketun hajonnan kynnysarvon ja korvataan se ikkunan mediaanilla, jos kynnysarvo ylittyy. Liukuva ikkuna voi olla yksiulotteinen (esim. 1*5 ikkuna) ja liukua riveittäin tai sarakkeittain profiilin yli, tai se voi olla kaksiulotteinen maski (esim. 3*3 ikkuna) ja liukua arvo kerrallaan käyden koko profiilin läpi. Globaalissa versiossa laskettiin koko profiilin mediaani ja MAD-estimaatti hajonnalle ja käytettiin näitä globaalin kynnysarvon määrittämiseen. Molemmissa versioissa viritysparametrina on testauksessa käytettävän MAD-estimaatin kerroin t. Paikallisesti toimivassa versiossa lisäviritysparametrina on lisäksi käytetyn liukuvan ikkunan koko, joka vaikuttaa oleellisesti lopputulokseen mediaanin murtumispisteen vuoksi.

  • 4

    Yleisesti ottaen paikallisesti toimiva versio on tehokas, kun poikkeavia arvoja on paljon, mutta niiden määrä laskentaikkunassa ei ylitä mediaanin murtumispistettä, eli 50 % arvojen lukumäärästä. Globaali versio toimii hyvin, mikäli poikkeavia arvoja on paljon ja tarkasteltava kohde on kohtalaisen stationäärinen. Globaalin version lisäksi lämpötilaprofiileille kokeiltiin profiilin erillisillä alueilla toimivaa ja kynnysarvoa adaptoivaa versiota suotimesta. Tässä tapauksessa profiili jaettiin erillisiin tarkasteluikkunoihin. Näillä menetelmillä pyrittiin estämään epästationäärisyyden vaikutusta hakutulokseen. Robusteihin estimaatteihin perustuva Hampel-suodin toimii joko koko datalle tai laskentaikkunassa seuraavalla tavalla /3, 4/: 1. xt = median{xk}, (estimoidaan datajoukon keskiarvoa mediaanilla). 2. dk(i) = | xk(i) – xt | (datapisteiden, xk(i), (i = 1,…,N), ja mediaanin välisen

    erotuksen itseisarvo dk). 3. MAD = 1.4826*median(dk) (estimoidaan hajontaa MAD-estimaatilla,

    kerroin 1,4826 on valittu siten, että MAD:n odotusarvo vastaa normaalijakautuneen datan keskihajontaa).

    4. testaus: jos dk(i) > t*S, niin xk(i) on poikkeava. (tyypillisesti 2 th. Siten poikkevan arvon paikka

  • 5

    alkuperäisessä datassa on joko 2sk tai 2sk – 1. Tarkan sijainnin löytämiseksi on laskettava alkuperäisen sarjan keskiarvo, meanorig, ilman 2sk tai 2sk – 1 arvoja. Poikkeava arvo sijaitsee kohdassa 2sk, jos ehto, |origdata(2sk) - meanorig| > |origdata(2sk-1) - meanorig|, on tosi, muussa tapauksessa poikkeava arvo sijaitsee kohdassa 2sk-1.

    Histogrammin kynnystys on eräs kuvankäsittelyssä käytetty menetelmä kuvan objektien ja poikkeavien arvojen hakuun. Tässä menetelmässä arvioidaan jollakin ennalta suunnitellulla laskentatavalla kynnysarvo, jolla datan intensiteettijakauma jaetaan kahteen osaan. Joskus voidaan käyttää useampiakin kynnysarvoja eri kuva-alueiden erottamiseksi. Lämpötilaprofiilin tapauksessa jakaumaa estimoidaan histogrammilla, jossa käytetään 50 osaväliä lämpötila-amplitudin kuvaamiseen. Oletuksena on, että lämpötilaprofiilin jakauma on bimodaalinen, jossa suurempi jakauman huippu vastaa kuvassa olevaa taustaa (normaalin lämpötilan alueet) ja pienempi kuvassa olevaa objektia (poikkeavat arvot). Histogrammin bimodaalisuutta voidaan korostaa tekemällä profiilille ensin ns. min/max-munnos, jossa arvoalueen yli liukuvassa ikkunassa lasketaan ikkunan minimi ja maksimi arvot ja testataan kumpaa lähempänä ikkunan keskimmäinen arvo sijaitsee. Mikäli arvo on yhtä kaukana sekä minimistä että maksimista, säilytetään arvo ennallaan ja mikäli se on lähempänä jompaakumpaa ääriarvoa, muutetaan se lähimpänä olevaksi ääriarvoksi. Näin bi-modaalisuus korostuu ja histogrammi on helpompi kynnystää. Lisäksi kohinan häiritsevää vaikutusta voidaan poistaa suodattamalla profiili sopivalla alipäästösuotimella ennen min/max-muunnosta. /6/ Histogrammin kynnystysfunktiona käytetään ns. Triangle-algoritmia, jolla lasketaan yksi kynnysarvo histogrammille. Triangle-algoritmi toimii yleensä hyvin, vaikka bi-modaalisen histogrammin toinen huippu olisi hyvinkin pieni. Lämpötilaprofiileissa suurin osa lämpötila-arvoista on normaaleja ja enimmillään poikkeavien arvojen osuus on alle 15 % kaikista arvoista. Näin ollen normaalien lämpötila-arvojen muodostama huippu histogrammissa on paljon suurempi kuin poikkeavien arvojen muodostama huippu. Triangle-algoritmi toimii xy-avaruudessa, jossa histogrammi on määritelty. Y-akselilla kuvataan amplitudin jakautuminen eri osaväleihin (lämpötila-arvojen lukumäärät kussakin osavälissä) ja X-akselilla kutakin osaväliä vastaava lämpötila. Triangle-algoritmissa haetaan histogrammin nollaa lähimpänä oleva osaväli ja sitä vastaavat x- ja y-koordinaatit ((x,y) → (lämpötila, lämpötila-arvojen lkm kyseisellä osavälillä)). Vastaavasti haetaan histogrammin maksimi osaväli, eli normaalidataa kuvaavan huipun x- ja y-koordinaatit. Näiden pisteiden välille muodostetaan suora, jonka avulla kynnysarvoa lähdetään estimoimaan. Algoritmissa lasketaan kohtisuoraa etäisyyttä, d, suoran ja histogrammihuippujen välillä ja kynnysarvo määritetään maksimietäisyyden perusteella. Histogrammi, ääriarvojen välinen suora ja maksimietäisyys, d, ja löydetty kynnysarvo, TH, on esitetty Kuvassa 1. Lämpötilaprofiilin bi-modaalisuus on hyvin näkyvää ja kynnysarvo voidaan määrittää selkeästi. On kuitenkin muistettava, että menetelmä on luonteeltaan globaali ja voi siten toimia huonosti, jos profiili on voimakkaasti epästationäärinen. /7/

  • 6

    Kuva 1. Triangle algoritmi ja lämpötilaprofiilin histogrammin kynnysarvon määritys.

    Kuvankäsittelyssä käytetään myös kaksiulotteista todennäköisyysjakaumaa kuvan objektien ja taustan erottamiseen. Tätä yhteismatriisiin perustuvaa kuvapinnan kynnystystä kokeiltiin myös lämpötilapinnan esikäsittelyyn. Yhteismatriisi esittää lämpötilan, tässä tapauksessa pituussuuntaisen muutoksen, esiintymistodennäköisyyden kullekin näytejoukon pisteelle. Yhteismatriisiin kootaan tietyssä profiilin siirtymäsuunnassa tapahtuneiden pisteparien väliset siirtymälukumäärät. Näin ollen yhteismatriisi esittää tarkastellun siirtymäsuunnan spatiaalisen riippuvuussuhteen etäisyydellä d toisistaan olevien pisteparien välillä. Siirtymälle voidaan siis haluttaessa määrittää kulma ja etäisyys. Lämpötilaprofiileista lasketuissa yhteismatriiseissa käytetään yhden näytevälin siirtymää pituussuunnassa. Profiililla esiintyvät homogeeniset alueet esiintyvät melko symmetrisesti yhteismatriisin nousevan diagonaalin molemmin puolin. Diagonaalilla esiintyvät huiput kuvaavat yhtenäisiä alueita ja diagonaalin ulkopuoliset huiput puolestaan raja-alueita ja poikkeamia, tässä tapauksessa virheellisiä arvoja. Lämpötilaprofiilissa esiintyvää ns. normaalidataa voidaan verrata kuva-analyysissä kuvan taustaan, kun taas poikkeavat arvot edustavat kuvassa esiintyviä objekteja. Jos nämä objektit (virhearvot) ovat yhden näytevälin pituisia poikkeamia pituussuunnassa, ne kuvautuvat diagonaalin ulkopuolisiin klustereihin. Poikkeavien arvojen välillä tapahtuvat siirtymät taas kuvautuvat omaan klusteriinsa diagonaalilla. Diagonaalilla esiintyvät huiput kuvaavat intensiteetiltään yhtenäisiä profiilin alueita tarkastelusuunnassa. Huippujen amplitudit ovat suoraan verrannollisia alueiden kokoon suhteessa koko profiiliin. Diagonaalilla olevan klusterin hajonta maksimiarvon ympärillä kertoo yhtenäisen alueen tasaisuudesta, mitä suppeammalle alueelle arvot ovat huipun ympärille levinneet, sitä homogeenisempi kyseinen alue on.

  • 7

    Kuvassa 2 on esitetty kahden eri nauhan yhteismatriisikuvaajat molemmille SCOAP profiileille. /8, 9/

    Kuva 2. Profiilin pituussuuntaisten siirtymäparien yhteismatriiseja.

    Esikäsittely edellä esitetyn yhteismatriisin avulla perustuu normaalien ja epänormaalien siirtymien erotteluun klusteroimalla. Lämpötilaprofiilin yhteismatriisi muodostaa tavallisesti neljä erillistä siirtymäklusteria, joita ovat siirtymät normaaleista arvoista poikkeaviin arvoihin, poikkeavista arvoista pois ja poikkeavien arvojen kesken. Kuvassa 2 näkyvät punaiset ympyrät kuvaavat todennäköisimmän pituussuuntaisen siirtymäparin. Todennäköisin pituussuuntainen siirtymäpari sijaitsee yleensä normaaleja pisteiden välisiä siirtymiä edustavassa klusterissa. Tämän klusterin hajonta ja symmetrisyys diagonaaliin nähden kertoo normaalidatan homogeenisuudesta. Mitä pienempi hajonta ja symmetrisempi muoto, sitä tasaisempi profiili. Todennäköisyys osumalle pääklusteriin saadaan jakamalla pääklusterin summa kaikkien siirtymäosumien summalla. Tästä voidaan päätellä poikkeavien siirtymien osuutta profiilin kaikista siirtymistä. 2-D yhteismatriisin klusteroinnissa käytettiin alkuarvauksina klusterikeskuksille normaalidatan todennäköisyyden maksimipisteen, (tnmax), koordinaatteja, poikkeaville siirtymille [tnmax, tnmax –/+ 150 oC] koordinaattiparia ja poikkeavien arvojen välisille siirtymille [tnmax – 150 oC, tnmax – 150 oC] koordinaattiparia. Klusteroinnissa käytettiin k-means algoritmia. Aikataulun puitteissa ei muiden 2-D todennäköisyysjakauman kynnystysfunktioiden kokeiluun ehditty paneutua.

  • 8

    Kuvankäsittelyssä käytetään myös normaalia k-means klusterointia kuvan intensiteettitasojen klusterointiin /10/. Tätä menetelmää kokeiltiin myös SCOAP-profiilien klusterointiin. Esitietojen perusteella klusterilukumääräksi valittiin 2, eli normaalien arvojen ja poikkeavien arvojen klusterit. Myös klusterikeskuksille käytettiin alkuarvauksia. Normaalien arvojen klusterikeskukselle käytettiin alkuarvauksena profiilin mediaania ja poikkeaville arvoille profiilin pituussuuntaisten differenssien maksimiarvojen mediaanin ja profiilin mediaanin välistä erosuuretta. Lisäksi kokeiltiin histogrammin kynnystystä ja Hampel-suotimen käyttöä paikallisesti profiilin osiin jakavissa lohkoissa. Hampel-suotimen käyttöön osalohkoittain viitattiin jo aikaisemmassa robustien menetelmien kappaleessa. Osajakona käytettiin 5 osaväliä profiilin poikkisuunnassa ja 3 osaväliä profiilin pituussuunnassa, eli yhteensä 15 eri lohkoa. Osajaolla pyrittiin erottamaan nauhan keula-, keski- ja häntäosat toisistaan ja eliminoimaan poikkisuuntaisen trendin vaikutus. Hampel-suotimen MAD-estimaatin monikertaa, t, muutettiin kyseessä olevan lohkon MAD-estimaatin suuruuden perusteella. Hajonnan ollessa pieni käytettiin suurta kerrointa ja hajonnan ollessa suuri taas puolestaan pienempää kerrointa. Kerroin t vaihteli välillä 2-8 riippuen MAD-estimaatin tasosta. Tämän tyyppistä menetelmää voidaan sanoa adaptiiviseksi, koska menetelmässä käytetty hakuparametri adaptoituu hajonnan tason funktiona. Histogrammin kynnystys kohdistui lohkokohtaisiin histogrammeihin. Lohkokohtaisessa kynnystyksessä käytettiin samaa triangle-algoritmia kuin globaalissakin kynnystyksessä.

    2.2 Algoritmien suorituskyky

    Edellisessä kappaleessa esiteltyjä algoritmeja testattiin koedatalla. Koedatana käytettiin SCOAP 1 lämpötilaprofiilia (kela: 20584071.1p), jossa esiintyi huomattavan paljon poikkeavia arvoja. Toinen koeprofiilin piirre oli sen epästationäärisyys, joka ilmeni pituus- ja poikittaissuuntaisina trendeinä sekä suurempana hajontana nauhan keulaosalla. Poikkeavien arvojen täsmällistä lukumäärää ei täydellä varmuudella tiedetty, mutta sitä estimoitiin manuaalisesti kynnystämällä koeprofiilin histogrammi ja laskemalla löytyneiden arvojen lukumäärä. Silmämääräisen tarkastelun perusteella tehdyssä kynnystyksessä kynnysarvoksi määritettiin noin 510 oC. Tätä kynnysarvoa käyttämällä löydettiin 28235 poikkeavaa arvoa, joka oli noin 12.7 % osuus profiilista. Tätä suuntaa antavaa arvoa käytettiin vertailusuureena testattaessa hakualgoritmeja. On myös huomattava, että tässä tapauksessa käytettiin vain yhtä kynnysarvoa datan jakamiseksi normaaleihin ja poikkeaviin arvoihin, kun normaalisti poikkeavia arvoja haettaessa määritetään kynnysarvo molemmille puolille keskiarvoa. Koedata on esitetty kuvassa 3. Ylimpänä on esitetty lämpötilapinta 2D-intensiteettikuvana ja sen alapuolella pituussuuntainen signaali nauhan keskiosasta. Alimpana kuvassa on esitetty koeprofiilin histogrammi. Histogrammin hallitsevana piirteenä on sen bi-modaalisuus (kaksihuippuisuus).

  • 9

    Kuva 3. Koeprofiilin intensiteettikuva, pituussuuntainen signaali keskinauhalta ja histogrammi.

    Algoritmien tehokkuutta arvioitiin löydettyjen poikkeavien arvojen lukumäärän ja niiden oikeellisuuden perusteella. Oikeellisuudella tässä yhteydessä tarkoitetaan algoritmin kykyä määritellä intensiteetiltään poikkeavat arvot. Poikkeaviksi määriteltyjen arvojen oikeellisuutta arvioitiin tarkastelemalla algoritmien löytämien poikkeavien arvojen jakaumia ja vertaamalla niitä alkuperäiseen jakaumaan. Taulukossa 1 on esitetty poikkeavien arvojen lukumäärä ja niiden osuus koko datasta eri hakumenetelmillä.. Taulukossa manuaalinen tarkoittaa manuaalisesti tehtyä poikkeavien arvojen etsintää, 3-sigman menetelmä esiteltiin jo aikaisemmin samaa nimeä käyttäen, MAD-globaali, – lohko ja 2Dhampel käyttävät robusteja estimaatteja hajonnalle ja keskiluvulle. Globaali viittaa yhteen koko profiilista laskettuun tunnuslukuun, lohko taas profiilin jakoon erillisiin lohkoihin ja tunnusluvun laskemista lohkoittain. 2Dhampel laskee tunnuslukua ja hakee poikkeavia arvoja liukuvassa 2-D ikkunassa käyden läpi kaikki arvot. Toimintatapasarakkeessa viitataan juuri edellä mainittuihin globaaliin tai paikalliseen hakumenettelyyn. Lisäksi adaptiivinen toiminta MAD-global ja – lohkon kohdalla viittaa haussa käytettävän hajontaestimaatin monikerran, t, adaptiiviseen

  • 10

    muunteluun hajontaestimaatin (MAD) suuruuden perusteella. Wavelet-menetelmällä tarkoitetaan jo aikaisemmin esiteltyä waveletteihin perustuvaa menetelmää. Wavelet-menetelmä toimii yksiulotteisesti käsitellen profiilin pituussuuntaisen jakson kerrallaan. Hist-TH menetelmä tarkoittaa histogrammin kynnystämiseen perustuvaa menetelmää, jota on kokeiltu sekä lohkoittain paikallisesti että koko profiilille globaalisti. k-means viittaa profiilin klusterointiin k-means algoritmilla käyttäen jo aikaisemmin tässä raportissa esiteltyjä alkuarvauksia ja klusterimäärää. 2Dyhteismatriisi menetelmällä viitataan profiilin pituussuuntaisten siirtymien todennäköisyysjakauman klusterointiin. Taulukko 1. Hakumenetelmien vertailutaulukko.

    Menetelmä

    Löydetyt poikkeavat arvot

    Poikkeavien arvojen osuus [%] profiilista Toimintatapa

    Manuaalinen 28235 12,65 globaali 3-sigma 3412 1,53 globaali MAD-globaali 28632 12,83 globaali MAD-lohko 28063 12,57 paikallinen,adaptiivinen 2Dhampel 20707 9,28 paikallinen, adaptiivinenWavelet 21307 9,55 paikallinen Hist-TH 28924 12,96 globaali Hist-TH 29538 13,23 paikallinen K-means 28599 12,81 globaali 2Dyhteismatriisi 28301 12,68 globaali

  • 11

    Kuten voidaan olettaa, perinteisen 3-sigma algoritmin suorituskyky on heikko, kun poikkeavia arvoja on paljon. Poikkeavat arvot vääristävät 3-sigma algoritmin etsinnässään käyttämiä tilastollisia momentteja (keskihajonta ja keskiarvo), joten algoritmi ei kykene havaitsemaan poikkeavia arvoja. Robusteihin estimaatteihin (mediaani, MAD) perustuvat hakualgoritmit sekä globaalina että paikallisena versiona näyttävät tässä tapauksessa löytävän hyvin poikkeavia arvoja. Koeprofiilissa esiintyy jonkin verran epästationäärisyyttä, joka vaikuttaa globaalin algoritmin hakutulokseen. Robusteja estimaatteja käyttävä menetelmä toimii yleisesti ottaen hyvin, kun poikkeavia arvoja on paljon ja data on symmetrisesti jakautunut mediaanin ympärille. Vähemmällä poikkeavien arvojen määrällä ja epästationäärisissä tapauksissa algoritmi helposti luokittelee myös normaaleja datapisteitä poikkeaviksi. Tämä on nähtävissä Kuvan 4 histogrammissa, joka esittää robusteja estimaatteja käyttävän globaalin menetelmän löytämien poikkeavien arvojen jakauman. Jakauman perusteella myös osa oikeista arvoista on luokiteltu poikkeaviksi.

    Kuva 4. Globaalin robustin menetelmän (MAD-globaali) löytämien poikkeavien arvojen histogrammi.

    Adaptiivisissa versioissa, esimerkiksi 2Dhampel-algoritmissa adaptoitiin haussa käytettävää kynnysarvoa hajontaestimaatin suuruuden perusteella. Kun MAD-hajonta oli pienempi kuin 20 käytettiin t:n arvoa 4 ja muissa MAD-estimaatin tapauksissa käytettiin t:lle arvoa 3. Lohkoittain tapahtuvassa haussa (MAD-lohko) muutettiin t:n arvoja välillä 2–4 hajontaestimaatin suuruuden funktiona. Wavelet-menetelmässä käsitellään profiilin yksittäisiä pituussuuntaisia signaaleja. Wavelet-pohjainen menetelmä ei löytänyt kaikkia poikkeavia arvoja vaikka

  • 12

    yksityiskohtia kuvaavat wavelet-tasot kynnystettiin käyttäen robusteja estimaatteja. Varsinkin peräkkäisten poikkeavien arvojen haussa waveletit epäonnistuivat. Varsinaisia kuvankäsittelyn menetelmiä olivat profiilin histogrammin kynnystys (hist TH), 2-D siirtymätodennäköisyysjakauman klusterointi (2Dyhteismatriisi) ja profiilipinnan klusterointi (k-means). Globaali histogrammin kynnystys toimii kohtalaisen hyvin, jos profiilissa ei esiinny voimakasta epästationäärisyyttä. Kuvassa 5 on punaisella palkilla esitetty globaalin histogrammin kynnystysalgoritmin löytämä kynnysarvo profiilin histogrammille. Tässä tapauksessa jakauman bi-modaalisuus on selkeää ja kynnysarvo määräytyy helposti (noin 519 oC).

    Kuva 5. Globaali histogrammin kynnystys, kynnysarvo (punainen pystyviiva).

    Histogrammin kynnystystä kokeiltiin myös paikallisesti epästationäärisyyden vaikutuksen eliminoimiseksi. Kuvassa 6 on esitetty profiilin paikallisen kynnystyksen kynnysarvot ja vastaavat paikalliset histogrammit pituus- ja poikittaissuuntaisissa lohkoissa. Kuvassa esitetyssä lohkojaossa yläosan histogrammit vastaavat nauhan keulaosaa ja alaosa häntää ja poikittaissuunta on jaettu viiteen eri osaan. Keulaosan suurempi poikkeavien arvojen lukumäärä näkyy voimakkaampana bi-modaalisuutena. Myös profiilin keskialueen lohkojen suurempi pinta-ala näkyy histogrammin suurempina frekvenssimäärinä. Menetelmä toimii hyvin, jos selvää bi-modaalisuutta esiintyy. Algoritmia voitaisiin parantaa lisäämällä bi-modaalisuuden tarkistus, jolla vältettäisiin histogrammin kynnystys tilanteissa, joissa sitä ei esiinny (selvästi poikkeavia arvoja ei esiinny).

  • 13

    Kuva 6. Paikallinen histogrammin kynnystys ja määritetyt kynnysarvot; profiili on jaettu 3*5 osalohkoon. Kuvassa keula sijaitsee ylhäällä.

    2-D todennäköisyysjakauman klusterointialgoritmin suorituskyky riippuu paljolti klusteroinnin tuloksesta ja tämä taas klusterien erottuvuudesta. Periaatteessa siirtymäavaruudessa tehty klusterointi onnistuu sitä paremmin, mitä selvempiä siirtymien väliset klusterit ovat. Jos datassa esiintyvä paikallinen hajonta on vähäistä ja voimakkaita trendejä ei esiinny, klusterointi onnistuu yleensä hyvin. 2D-siirtymäavaruuden klusterointitulos klusterikeskuksineen on esitetty Kuvassa 7. Klusterikeskukset on merkitty, ”+”, merkillä ja suurimman todennäköisyyden siirtymäpari kolmiolla. Diagonaalilla olevista klustereista ylempi kuvaa normaalia dataa ja alempi poikkeavien arvojen välisiä siirtymiä.

  • 14

    Kuva 7. Profiilin pituussuuntaisten siirtymäparien todennäköisyysjakauman klusterointi (2Dyhteismatriisi).

    K-means klusterointi kahdella klusterikeskuksella ja oikeilla klusterikeskuksen alkuarvauksilla antoi myös hyviä tuloksia. Tämänkin menetelmän tehokkuus riippuu luonnollisesti klusterien erottuvuudesta ja datan stationäärisyydestä. Yleisesti ottaen kaikkien globaalien algoritmien suorituskyky riippuu olennaisesti profiilin stationäärisyydestä. Vasemmalla Kuvassa 8. on esitetty alkuperäinen profiilin histogrammi ja oikealla klusterointimenetelmän löytämien poikkeavien arvojen osuus alkuperäisestä histogrammista.

  • 15

    Kuva 8. Alkuperäisen profiilin ja k-means-algoritmin löytämien poikkeavien arvojen histogrammit.

    Kokonaisuutena tarkasteltuna hakualgoritmien toimintaan vaikuttavat olennaisesti poikkeavien arvojen lukumäärä ja käsiteltävän profiilin epästationäärisyys. Paras tapa esikäsitellä profiili olisi ensin määritellä epästationäärinen komponentti ja poistaa se ja käyttää tämän jälkeen jotain globaalia hakualgoritmia. Uusi estimaatti poikkeavan arvon tilalle voitaisiin määrittää käyttämällä epästationääristä komponenttia ja robustia hajontaestimaattia. Ainoana ongelmana on robusti epästationäärisen komponentin määrittäminen, joten tässä vaiheessa tyydytään nyt esitettyihin menetelmiin. Profiilien esikäsittelyyn päätettiin käyttää globaalia robustia menetelmää ja vaihtoehtoisesti histogrammin kynnystystä, koska nämä menetelmät ovat laskennallisesti tehokkaita ja niihin on helppo määritellä käyttäjälle viritysparametreja. Suunnitelmana on tuottaa käyttäjälle mahdollisuus tarkistaa esikäsittelyn tulos ja mahdollisuus säätää joko histogrammin kynnystysarvoa tai MAD-estimaatin kerrointa manuaalisesti.

    2.3 Poikkeavien arvojen korvaaminen

    Poikkeavien arvojen löytäminen ei pelkästään riitä, vaan ne on korvattava mahdollisimman hyvillä estimaateilla. Ensimmäisenä tehtävänä on määritellä, minkä tekijän suhteen korvausmenetelmä optimoidaan, halutaanko säilyttää normaalidatan keskiarvo- ja keskihajontaestimaatit, vai korostetaanko datapisteiden keskinäistä riippuvuutta. Datassa voi myös esiintyä paikallisia piirteitä, ja mahdollisesti myös vierekkäisten datapisteiden keskinäinen riippuvuus voi muuttua paikan tai ajan

  • 16

    funktiona. Kyseessä on siis varsin haastava tehtävä. Lämpötilamatriisin puuttuvien arvojen korvaamiseen kokeiltiin uusien estimaattien imputointia hyödyntäen puuttuvia arvoja ympäröiviä datapisteitä. Poikkeavien arvojen korvaamista kokeiltiin imputoimalla uusia arvoja alkuperäisen matriisin mediaanisuodatetulta profiililta, naapuripisteiden lineaarisina interpolointeina, normaalien arvojen avulla muodostetulta säännölliseltä pinnalta imputoimalla ja lohkoittain alkuperäisestä profiilista lasketuilla mediaaneilla imputoimalla. Lähinaapureilla interpoloitaessa estimaatit korvattaville arvoille lasketaan lineaarisen interpoloinnin painotettuina summina lähimpien naapuripisteiden avulla, mediaani-imputoinnissa estimaatteina käytetään liukuvasti mediaanisuodatetun profiilin tai lohkoittain profiililta laskettuja mediaaneja. Pinnan sovituksessa haetaan ensin normaalit datapisteet ja niitä vastaavat koordinaatit. Tämän jälkeen muodostetaan säännöllinen kaksiulotteinen pisteavaruus, johon puuttuvat arvot estimoidaan normaaleja arvoja käyttäen. Muodostetulta pinnalta imputoidaan uudet arvot alkuperäiseen profiiliin poikkeavien arvojen tilalle. Viidellä lähimmällä naapuripisteellä interpoloitaessa ongelmaksi muodostuivat profiilin reuna-alueet, joissa tapahtuu siirtyminen profiilialueelta taustaan. Mikäli reuna-alueita ei laajenneta, estimoidaan virheellisiä arvoja profiilin reunoille. Mediaanisuodattimen tapauksessa pätee sama reuna-alueen ongelma ja lisäksi mediaani-imputoinnin ongelmaksi muodostuvat profiilit, joissa mediaanipintaa laskettaessa poikkeavia-arvoja on niin paljon, että mediaanisuodin murtuu. Mediaani pitäisi laskea käyttäen vain normaaleja arvoja. Pinnanmuodostusalgoritmi normaaleja arvoja käyttäen toimii kohtalaisen hyvin, mutta paljon poikkeavia arvoja sisältävillä alueilla estimaatti vakioituu, koska apupisteitä on vähän. Lisäksi säännöllisen pinnan muodostaminen sovituksilla ja interpoloinneilla on laskennallisesti melko raskas. Erillisissä lohkoissa mediaanin laskennassa käytettiin vain lohkossa olevia normaaleja arvoja, poikkeavia arvoja ei sisällytetty laskentaan. Näin vältyttiin mediaaniestimaatin mahdolliselta murtumiselta. Kuvassa 9 ylimpänä vasemmalla on esitetty alkuperäisen lämpötilaprofiilin histogrammi ja oikealla 600 ensimmäistä arvoa profiilin keskikohdan pituussuuntaisesta signaalista. Alkuperäisestä profiilista on histogrammin perusteella määritelty poikkeaviksi arvoiksi pienemmät kuin 510 oC olevat arvot. Määritetyille poikkeaville arvoille on estimoitu uudet arvot edellä mainittuja menetelmiä käyttäen. Alkuperäisen profiilin alapuolella on esitetty eri poikkeavien arvojen korvausmenetelmiä käyttäen saatujen profiilien histogrammit ja keskinauhan trendit. Kuvan perusteella parhaiten toimivia menetelmiä näyttävät olevan sovitetulta pinnalta imputointi (surface fit imputation) ja lohkoittain lasketulta mediaanipinnalta imputointi.

  • 17

    Kuva 9. Alkuperäinen profiilin histogrammi ja keskinauhan trendi ennen ja jälkeen poikkeavien arvojen korvausta uusilla estimaateilla. Kuvassa järjestyksessä ylhäältä alas: alkuperäinen, sovitetulta pinnalta imputoitu, mediaanisuodatetulta pinnalta imputoitu, lähimmän naapurin interpolointi, alueittain lasketuilla mediaaneilla imputointi.

    Kuvassa 10 on esitetty kunkin menetelmän käyttämä keskimääräinen laskenta-aika. Kuten jo aikaisemmin mainittiin säännöllisen profiilipinnan muodostaminen normaalien datapisteiden avulla on laskennallisesti selvästi raskain, muut menetelmät näyttävät olevan melko tasavertaisia suoritusnopeudeltaan.

  • 18

    Kuva 10. Suoritusajat poikkeavien arvojen korvausmenetelmille vasemmalta oikealle: pinnan sovitus, mediaanisuodatus, kaksiulotteinen interpolointi ja lohkoittain laskettu mediaani.

  • 19

    3 YLIMÄÄRÄISEN TAI VIRHEELLISEN KEULA- JA HÄNTÄALUEEN KORJAUS

    Virheellinen keula- tai häntäalue näkyy yleensä selvänä nauhan käyristymisenä tai taittumisena sen keula- ja häntäosassa. Toisin sanoen poikittaissuuntaiset pyyhkäisyt eivät ole kohdakkain toistensa suhteen. Nauhan lämpötilaprofiilia pyrittiin oikaisemaan siirtämällä matriisin rivejä suhteessa johonkin referenssipisteeseen, joka tässä tapauksessa oli koko profiilialueen keskipiste. Jokainen lämpötilaprofiilin poikittaissuuntainen pyyhkäisy siirrettiin sivuttaissuunnassa siten, että kyseisen pyyhkäisyn keskipiste sijaitsi profiilin keskikohdassa. Näin saatiin tehtyä standardi keskitys jokaiselle pyyhkäisylle ja profiilille. Profiilin suoristusalgoritmi toimii pääpiirteissään seuraavasti: 1. Määritetään profiilin globaali keskikohta, mid, poikittaissuunnassa. 2. Määritetään poikkisuuntaisten pyyhkäisyjen keskikohdat, midr, profiilin

    reunoja kuvaavien top- ja botindeksien avulla. 3. Lasketaan jokaisen poikkisuuntaisen pyyhkäisyn keskikohdan, midr, ja

    profiilin keskikohdan, mid, erotus, er: er(i) = midr(i)-mid; jossa i = 1,..,rivien lkm.

    4. a) jos er(i) < 0, siirrä kyseistä riviä poikkisuunnassa oikealle |er(i)| askeleen verran. b) jos er(i) > 0, siirrä kyseistä riviä poikkisuunnassa vasemmalle |er(i)| askeleen verran.

    c) jos er(i) = 0, riviä ei siirretä. Kyseisellä toimenpiteellä oikaistiin koko lämpötilamatriisi. Oikaisussa käytetty pyyh-käisy- eli rivikohtainen keskipiste saatiin käyttämällä top- ja botindeksi-vektoreita, jotka ilmaisevat sarakekohtaiset indeksit lämpötiladatan sijoittumiselle profiilille. Kuvan 11 yläosassa on esitetty alkuperäinen lämpötilaprofiili ja alaosassa sama profiili edellä mainitulla menetelmällä suoristettuna. Samassa yhteydessä estimoitiin pituussuunnassa hännässä oleva ylimääräinen nolla-alue ja poistettiin se.

  • 20

    Kuva 11. Suoristamaton ja suoristettu lämpötilaprofiili.

  • 21

    4 REUNAROSON TASOITTAMINEN

    Nauhan lämpötilaprofiilin reunat ovat usein rosoisia, johtuen nauhan sivusuuntaisesta liikkeestä sen kulkiessa mittalaitteen alitse. Sivuttaissuuntainen liike selittää osittain poikkisuuntaisten pyrometrin skannausjaksojen eripituisuuden (lämpötilamatriisin rivit eripituisia). Rivien eripituisuus ilmenee lukuisina paikallisina minimeina ja maksimeina, eräänlaisena korkeataajuisena kohinana, tarkasteltaessa nauhan reunamuodon yksiulotteista profiilia. Rivien alkamis- ja päättymisindeksejä kuvaavat profiilikohtaisesti tallennettavat indeksisignaalit topIndex ja botIndex. Näitä indeksivektoreita sopivasti alipäästösuodattamalla voidaan estimoida profiilin reunalle pehmeämpää trendiä. Alipäästösuodatus toteutettiin käänteisesti poistamalla alkuperäisestä reunamuodon signaalista Butterworth 4. kertaluvun suotimella aikaansaatu ylipäästösuodatuksen tulos. Rajaamalla alkuperäisen lämpötilamatriisin reunat näiden suodatettujen reunaindeksifunktioiden avulla saadaan reunaroso poistettua melko tehokkaasti. Ainoaksi ongelmaksi jää alipäästösuodatuksen tuottama indeksi, joka ei aina ole kokonaisluku. Profiilikuvan esittämisen kannalta tämä on ongelmallista, koska kuvatason digitointi xy-koordinaattien suhteen on määritelty kokonaislukuina. Tämän vuoksi kyseiset indeksit on pyöristettävä lähimpään kokonaislukuun. Lisäksi joissain tapauksissa profiilin reunan trendin rajaaman alueen sisäpuolelle jää nollapisteitä, jotka tässä tapauksessa voidaan korvata kyseisen rivin mediaanilla tai muulla sopivalla estimaatilla. Menetelmän toimivuuden kannalta ratkaisevia ovat reunan suodatuksessa käytettävän suotimen parametrit. On myös huomattava, että edellä mainitussa menetelmässä menetetään aina muutamia lämpötilamatriisin uloimpia datapisteitä. Kuvassa 12 on esitetty reunarosoalgoritmilla muodostettu pehmeämpi reunaprofiili. Uusi reunaestimaatti on tulostettu punaisella ja paksummalla viivalla alkuperäisen reunaprofiilin päälle.

  • 22

    Kuva 12. Alkuperäiset lämpötilaprofiilin reunaindeksivektorit ja reunarosoalgoritmilla estimoidut uudet indeksit.

  • 23

    5 YHTEENVETO

    Tässä raportissa esiteltiin SCOAP-lämpötilaprofiilien esikäsittelymenetelmiä ja tutkittiin niiden suorituskykyä. Esikäsittelyyn kuuluvat seuraavat tehtävät: poikkeavien arvojen haku ja korjaus, reunaroson silittäminen sekä tarvittaessa tehtävä profiilin suoristaminen. Esikäsittelyn tavoitteena on tuottaa riittävän hyvää dataa jatkoanalyysejä varten. Poikkeavien arvojen esikäsittelyssä testatut menetelmät voidaan luokitella esimerkiksi globaaleihin, paikallisiin, yksi- ja kaksiulotteisiin ja adaptiivisiin menetelmiin. Osa menetelmistä on perinteisiä signaalinkäsittelyssä käytettyjä menetelmiä ja osa kuvankäsittelystä tuttuja. Testatuista menetelmistä perinteisestä signaalinkäsittelystä tuttuja olivat mm. wavelet-perusteinen menetelmä, robusteihin estimaatteihin (mediaani, MAD) perustuvat menetelmät ja 3-sigman menetelmä. Kuvankäsittelystä tuttuja menetelmiä olivat datapisteiden välisiä pituussuuntaisia siirtymiä kuvaavan kaksiulotteisen todennäköisyysjakauman klusterointiin perustuva menetelmä, profiilin intensiteetin klusterointi k-means algoritmilla, profiilin yksiulotteisen histogrammin kynnystäminen ja 2D Hampel-suodin. Toimintatavoiltaan menetelmät jaoteltiin paikallisesti ja globaalisti toimiviin. Poikkeavien arvojen lukumäärä ja käsiteltävän datan epästationäärisyys vaikuttivat merkittävimmin hakualgoritmien toimintaan . Mediaania käyttävissä, esimerkiksi robusteissa menetelmissä, mediaanin murtumispiste aiheutti ongelmia. Globaalisti toimivien algoritmien suorituskykyä heikensi profiilin pituus- ja poikkisuunnan epästationääriset komponentit, esimerkiksi keskiarvon muuttuminen kyseisissä suunnissa. Johtopäätöksenä todettiin, että toimiakseen mahdollisimman tehokkaasti pitäisi etsinnässä käytettyjen algoritmien adaptoitua toimintaympäristönsä mukaisesti. Toisaalta paikallisesti toimiminen ja adaptoituminen lisäävät laskentakuormaa ja siten hidastavat algoritmien toimintaa. Kuten jo voitiin etukäteen odottaa, yhtä ja ainoaa oikeaa menetelmää on miltei mahdotonta määritellä, vaan valinta joudutaan tekemään tapauskohtaisesti. Tässä vaiheessa päätettiin profiilien esikäsittelyssä käyttää globaalia robustia menetelmää ja globaalia histogrammin kynnystystä niiden laskentatehokkuuden perusteella. Lisäksi niiden käytön yhteyteen luodaan käyttäjälle mahdollisuus säätää haussa käytettäviä parametreja. Profiilinsuoristusalgoritmin toiminta perustuu kaikkien poikkisuuntaisten pyyhkäisyjen keskipisteen siirtämiseen samalle tasolle. Tämä toimenpide tapahtuu yksinkertaisilla profiilipinnalle tehdyillä geometrisilla toimenpiteillä. Profiilialueen reunaroson tasoittaminen taas tapahtuu alipäästösuodattamalla alkuperäinen reunamuotoa kuvaava vektori ja digitoimalla suodatustulos lähimpiin kokonaislukuihin.

  • 24

    LÄHDELUETTELO

    1. Rousseeuw P.J., and Leroy A.M., Robust Regression and Outlier Detection, John Wiley, New york, 1987, 329 p.

    2. Barnett V., and Lewis T., Outliers in Statistical data, John Wiley and Sons, New York, 1994, 463 p.

    3. Pearson R.K.: Outliers in Process Modelling and Identification, IEEE Transactions on Control System Technology, 10(2002)1, 55-63.

    4. Chiang L.H., Pell R.J., Seasholtz M.B.: Exploring process data with the use of robust outlier detection algorithms. Journal of Process Control, 13(2003), 437-449.

    5. Bilen C., Huzurbazar S., Wavelet-based detection of Outliers in Time Series. Journal Computational and Graphical Statistics, 11(2002)2, 311 327.

    6. Gonzalez R.C., Woods R.E., Digital Image Processing, Prentice Hall, New Yersey, 2002, 793 p.

    7. Zack G.W., Rogers W.E., Latt S.A.: Automatic Measurement of Sister Chromatid Exchange Frequency, Journal of Histochemisty and Cytochemistry, 25(1977)7, 746-753.

    8. Haddon J.F., Boyce J.F.: Image segmentation by Unifying Region and Boundary Information. IEEE Transactions on Pattern and Machine Intelligence, 10(1990)12, 929-948.

    9. Corneloup G., Moysan J., Magnin I.E.: BSCAN Image Segmentation by Thresholding Using Cooccurrence Matrix Analysis, Pattern Recognition, 29(1996)2, 281-296.

    10. Shapiro L.G., Stockman G.C., Computer Vision, Prentice Hall, New Yersey, 2001, 580 p.

  • 25

    ISBN 951-42-7250-1 ISSN 1238-9404 Oulun yliopisto Säätötekniikan laboratorio - Sarja B - http://ntsat.oulu.fi/ [research] > [reports] > [series b] Toimittaja: Leena Yliniemi – [email protected] 11. Jaako J, Yksinkertaisia prosessimalleja. Syyskuu 1999. 73 s. ISBN 951-42-5353-1. 12. Jaako J, MATLAB-ohjelman käyttö eräissä prosessiteknisissä laskuissa. Syyskuu 1999.

    61 s. ISBN 951-42-5354-X. 13. Jaako J, Säätötekniikan laboratorion opetuskokeiluja I – Portfoliomuotoisen kurssin

    toteutus ja tulokset. Helmikuu 2000. 28 s. ISBN 951-42-5544-5. 14. Ahola T, Ruuska J, Juuso E & Leiviskä K, Paperikoneen katkoherkkyysindikaattori.

    Helmikuu 2000. 33 s. ISBN 951-42-5563-1. 15. Ylikunnari J, InTouch valvomo-ohjelmiston implementointi lämmönsiirron

    identifiointiprosessiin (PS II:n harjoitustyölaitteisto). Maaliskuu 2000. ISBN 951-42-5568-2.

    16. Mäki T & Juuso E, Tapahtumapohjainen sumea lingvistinen yhtälöjärjestelmä lääkevalmisteiden koostumusten ja valmistusprosessien tutkimuksessa. Kesäkuu 2000. ISBN 951-42-5678-6.

    17. Jaako J, Säätötekniikan laboratorion opetuskokeiluja II – Apuopettaja opettajan apuna. Elokuu 2000. 22 s. ISBN 951-42-5742-1.

    18. Sivonen J, Johdatus säätötekniikkaan, opetuslaitteiston suunnittelu ja toteutus. Syyskuu 2000. 20 s. ISBN 951-42-5795-2.

    19. Mutka P, Neuraalilaskenta ja epälineaarinen dynamiikka komponenttien kulutus- ja myyntiennusteiden laatimisessa. Joulukuu 2000. 41 s. ISBN 951-42-5873-8.

    20. Komulainen K & Juuso E, Vikatietojen hyödyntäminen funktionaalisessa testauksessa. Joulukuu 2000. 22 s. ISBN 951-42-5874-6.

    21. Ikäheimonen J, Juuso E, Leiviskä K & Murtovaara S, Sulfaatisellun menetelmät, keiton ohjaus ja massan pesu. Joulukuu 2000. 48 s. IBSN 951-42-5875-4.

    22. Ikäheimonen J, Juuso E, Leiviskä K, Murtovaara S & Sutinen R (2000) Keittolipeä- ja massa-analyysi sellun keitossa ja pesussa. Joulukuu 2000. 35 s. ISBN 951-42-5876-2.

    25. Rahikka L & Juuso E (2000) Sulfaattisellun eräkeittoprosessin jatkuvatoiminen analy-sointi. Joulukuu 2000. 36 s. ISBN 951-42-5879-7.

    26. Pirttimaa M & Leiviskä K (2000) Tilastollinen prosessinohjaus: Pastapainoprosessin tehdaskokeet. Joulukuu 2000. ISBN 951-42-5884-3.

    27. Jaako J & Nelo S (2001) Prosessi- ja ympäristötekniikan opetuksen tulevaisuuden haas-teita. Tammikuu 2001. 25 s. ISBN 951-42-5889-4.

    28. Näsi J, Isokangas A & Juuso E (2001) Klusterointi kuorimon puuhäviöiden mallintami-sessa. Tammikuu 2001. ISBN 951-42-5894-0

    29. Mäki T & Juuso E (2001) Lingvistinen yhtälöjärjestelmä lääkevalmisteiden rakeistus-prosessin dynaamisessa simuloinnissa. Tammikuu 2001. ISBN 951-42-5895-9

    31. Joensuu P (2001) Vikadiagnostiikka sulatuksen laadun-ohjauksessa: Syherön syntyminen ja siihen vaikuttavat tekijät. Tammikuu 2001. ISBN 951-42-5893-2

    32. Ikäheimonen J, Leiviskä K & Ruuska J (2001) Jatketiilen tukkeentumisen mallintami-nen neuroverkoilla. Helmikuu 2001. ISBN 951-42-5906-8

    33. Ikäheimonen J, Leiviskä K & Ruuska J (2001) Sulkutangon asennon ja valunopeuden käyttö jatketiilen tukkeentumisen ennustamisessa. Maaliskuu 2001. ISBN 951-42-5946-7

    34. Ruuska J & Leiviskä K (2001) LD-KG-konvertterin lämpötilamalli. Toukokuu 2001. ISBN 951-42-6411-8

    35. Ainali I, Juuso E & Sorsa A (2001) Vesikemikaalien annostelutyökalun kehittäminen: Flotaation perusteet, koejaksot ja mallinnus. Marraskuu 2001. ISBN 951-42-6589-0

    36. Näsi J & Sorsa A (2002) Jatkuvatoimisen liuospuhdistuksen Pilot-prosessin mallinnus ja prosessikehitys. Helmikuu 2002. ISBN 951-42-6626-9

  • 26

    37. Ikäheimonen J & Leiviskä K (2002) Syherödatan analysointi histogrammeja käyttäen. Maaliskuu 2002. ISBN 951-42-6678-1

    38. Ikäheimonen J & Leiviskä K (2002) Neuroverkot ja lingvistiset yhtälöt jatketiilen tuk-keuman ennustuksessa. Huhtikuu 2002. ISBN 951-42-6700-1

    39. Posio J (2002) Malliprediktiivinen säätö. Marraskuu 2002. ISBN 951-42-6887-3 40. Jaako J (2003) Säätötekniikan laboratorion opetuskokeiluja III - Opettajien perehdyttä-

    miskoulutus. Helmikuu 2003. ISBN 951-42-6955-1 41. Ruuska J, Peltonen J & Leiviskä K (2003) LD-KG-konvertterin dynaaminen ohjaus.

    Helmikuu 2003. ISBN 951-42-6956-X 42. Ruuska J & Leiviskä K (2003) LD-KG-konvertterin lämpötila- ja lisäainemallit. Helmi-

    kuu 2003. ISBN 951-42-6957-8 44. Näsi J & Niemelä P (2003) Hydrometallurgisen prosessin tutkimuskohteita osa 2: Raman

    analytiikan käyttömahdollisuudet. Huhtikuu 2003. ISBN 951-42-7041-X 46. Heikkinen E-P & Jaako J (2003) Koulutuksen laatuyksikköhakemus ja pedagoginen

    johtajuus. Elokuu 2003. ISBN 951-42-7091-6 47. Jaako J (2003) Tekniikan pedagogiikka - Väitöskirjat ja tutkijakoulutus prosessi- ja ym-

    päristötekniikan osastolla. Syyskuu 2003. ISBN 951-42-7137-8 48. Jaako J (2003) Tekniikan pedagogiikka – Perusteita. Marraskuu 2003. ISBN 951-42-

    7212-9 49. Isokangas A, Juuso E & Leiviskä K (2003) Kuorintaprosessin analyysi ja

    mallintaminen. Joulukuu 2003. ISBN 951-42-7250-1. 50. Auvinen A & Jaako J (2004) Tekniikan pedagogiikka- Muuntokoulutus ja tuutorointi.

    Helmikuu 2004. ISBN 951-42-7282-X. 51. Mäki T & Posio J (2004) Savukaasumittaukset. Maaliskuu 2004. ISBN 951-42-7333-8. 52. Jaako J (2004) Tekniikan pedagogiikka – Muutosvastarinta ja muutos. Lokakuu 2004.

    ISBN 951-42-7497-0 53. Tenkku H & Ruuska J (2004) Kirjallisuusselvitys eräiden mittausten soveltuvuudesta

    LD-KG-konvertterin ohjaukseen. Joulukuu 2004. ISBN 951-42-7619-1 54. Sorsa A & Näsi J (2005) Lähi-infrapunamittauksen erälineaarinen kalibrointi neuro-

    verkoilla ja neuro-sumeilla menetelmillä. Tammikuu 2005. ISBN 951-42-7633-7 55. Hartikka M (2005) Paperikoneen retentiopolymeerin konsentraation UV-

    absorptioon perustuva mittaus. Maaliskuu 2005. ISBN 951-42-7679-5 56. Isokangas A, Hyvönen A, Pöllänen K, Tuomaranta M & Laitinen O (2005) Uunikuha

    –projektin loppuraportti. Elokuu 2005. ISBN 951-42-7828-3 57. Osmo Kauppila (2005) PYO tutkimuksen laadun pilottiyksikkönä – EFQM-mallin

    sovellus tutkimuksen laadun itsearviointiin. Elokuu 2005. ISBN 951-42-7832-1 58. Jaako J (2005) Tekniikan pedagogiikka – Metakognitiivisten taitojen kehittyminen ja

    kehittäminen tekniikan opiskelijoilla. Lokakuu 2005. ISBN 951-42-7874-7 59. Posio J (2005) Mittaussarjoista saatavan tiedon kehittäminen - SCOAP-lämpötilaprofiilin

    esikäsittely. Marraskuu 2005. ISBN 951-42-7899-2 ISSN 1238-9404 Säätötekniikan laboratorio – Sarja B