[Yleistä]

[Puuttuvien havaintojen käsitteleminen]

[Puuttuvien havaintojen poistaminen]

[Muuttujien poistaminen]

[Puuttuvien havaintojen parittainen poistaminen]

[Keskiarvon käyttö]

[Ryhmäkeskiarvojen käyttö]

[Muita tapoja]

[Puuttuvien havaintojen koodaaminen]

[Lähteet]

[Lisätietoja]

[Kalvot]

 

Puuttuvat havainnot

 

Lähes kaikissa määrällisissä aineistoissa on havaintoyksikköjä, joista ei jostain syystä ole pystytty mittaamaan kaikkia tarvittavia muuttujien arvoja. Tällaisia tapauksia kutsutaan puuttuviksi havainnoiksi. Niillä voi olla suuri merkitys aineiston analyysin kannalta. Jos puuttuvat havainnot poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Vielä suurempi ongelma on silloin, jos puuttuvat havainnot eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken, vaan joissakin ryhmissä niitä on huomattavasti enemmän kuin toisissa. Tällainen tilanne saattaa pahimmassa tapauksessa vääristää analyysin tuloksia merkittävästi. Näiden syiden vuoksi puuttuvien havaintojen käsittelyyn kannattaa aina käyttää harkintaa ennen varsinaisen analyysin aloittamista.

 

Havaintojen puuttumiselle voi olla useita eri syitä. Usein kyselytutkimuksissa kaikkien vastaajien ei ole edes tarkoitus vastata kaikkiin kysymyksiin. Esimerkiksi jos vastaaja ilmoittaa, ettei hänellä ole lapsia, ei hänen tarvitse vastata seuraaviin kysymyksiin, joissa tiedustellaan lasten ikää. Tällaiset puuttuvat havainnot ovat jo lomakkeen suunnitteluvaiheessa tiedossa, eivätkä ne aiheuta suuria ongelmia aineiston analyysissa. Sen sijaan vakavampia ovat muut mahdolliset puuttuvien havaintojen syyt. Joskus vastaajat kieltäytyvät vastaamaan johonkin tiettyyn kysymykseen. Kysymys voi esimerkiksi käsitellä niin arkaluonteisia asioita, että kaikki vastaajat eivät halua ilmoittaa mielipidettään. Joskus vastaus voi olla niin epämääräinen, ettei siitä yksikäsitteisesti selviä, mitä vastaaja on tarkoittanut (esimerkiksi kirjoitetusta numerosta ei saa selvää). Joskus puuttuvan havainnon syy ei ole tiedossa. Se voi johtua vastaajan, haastattelijan tai aineiston koodaajan virheestä.

 

Kyselytutkimuksissa vaihtoehdot ’En osaa sanoa’ tai ’En tiedä’ aiheuttavat joskus ongelmia aineiston jatkoanalyysille. Usein näitä vastausvaihtoehtoja käsitellään puuttuvina tietoina. Tämä ratkaisu ei välttämättä ole perusteltu, jos tällaisia vastauksia on paljon. Analyysin tulokset voivat muuttua, jos ”En tiedä” –vastaukset eivät ole jakautuneet sattumanvaraisesti vastaajien kesken, vaan niiden yleisyys vaihtelee tarkasteltavien ryhmien mukaan. Lisäksi ”En tiedä” –vastausten analyysi voi olla mielenkiintoinen tutkimusongelman kannalta. Jos tietyn tyyppisillä vastaajilla ei ole mielipidettä jostain yhteiskunnallisesta ilmiöstä, voi tämä tieto itsessään olla arvokas tulkittaessa vastaajien suhtautumista kysyttyyn ilmiöön.

 

Puuttuvien havaintojen käsitteleminen

 

Koska puuttuvat havainnot voivat vääristää analyysin tuloksia, täytyy niiden käsittelyyn kiinnittää erityistä huomiota. Ongelman korjaamiseksi tai ainakin lievittämiseksi on esitetty useita erilaisia menetelmiä. Yleispätevää toimintasääntöä ei ole, vaan soveltuvan ratkaisun valinta täytyy aina tehdä tapauskohtaisesti. Seuraava toimenpidejaottelu perustuu Hertelin (1976) asiaa käsittelevään artikkeliin.

 

Puuttuvien havaintojen poistaminen

 

Yksinkertaisin lähestymistapa puuttuvien havaintojen ongelmaan on poistaa analyysista kaikki havaintoyksiköt, joista on puuttuvia tietoja yhdessäkin analyysiin sisälletyissä muuttujissa. Englanninkielisissä tilasto-ohjelmissa tätä toimenpidettä kutsutaan nimellä listwise deletion. Ongelmana tässä lähestymistavassa on, että se voi pienentää otoksen kokoa huomattavasti. Tämä tulee erityisen selvästi esille monimuuttujamenetelmiä sovellettaessa, jolloin analyysissa voi olla mukana useita, joskus jopa kymmeniä, muuttujia.  Tällöin analyysin ulkopuolelle jäävät kaikki havaintoyksiköt, joista puuttuu yksikin arvo joltain näistä muuttujista. Toisaalta jos puuttuvat havainnot keskittyvät vain pieneen osaan havaintoyksiköistä, voi näiden poistaminen analyysista olla järkevää. Ennen tätä toimenpidettä kannattaa kuitenkin tarkistaa (esimerkiksi »ristiintaulukoinnin avulla) ovatko puuttuvat havainnot jakautuneet satunnaisesti tutkimusongelman kannalta mielenkiintoisten ryhmien välillä, vai keskittyvätkö ne joihinkin erityisiin ryhmiin. Jälkimmäisessä tapauksessa puuttuvien havaintojen poistaminen analyysista voi vääristää lopputuloksia.

 

Muuttujien poistaminen

 

Jos jostain muuttujasta puuttuu huomattava määrä havaintoja, kannattaa pohtia koko muuttujan pudottamista pois analyysista. Tämä on suositeltavaa ainakin silloin, jos aineistossa on muita muuttujia, jotka mittaavat samaa asiaa jollain eri tavalla. Hyvänä puolena tässä ratkaisussa on, että havaintoyksikköjen määrä ei toimenpiteen seurauksena vähene. Ratkaisua ei tietenkään voi suositella silloin, jos muuttuja on tutkimuskysymyksen kannalta tärkeä ja sen poisjättäminen vaikeuttaa tutkimusongelman ratkaisua.

 

Puuttuvien havaintojen parittainen poistaminen

 

Useat monimuuttujamenetelmät perustuvat muuttujien kovarianssi- tai korrelaatiomatriisin analysoinnille (esimerkiksi »faktorianalyysi ja »regressioanalyysi). Tällaisessa tapauksessa puuttuvia havaintoja voidaan poistaa analyysista ns. parittaisesti (pairwise deletion). Tämä tarkoitta sitä, että korrelaatiomatriisia laskettaessa otetaan huomioon kaikki ne havaintoyksiköt, joista on tiedot niillä kahdella muuttujalla, joista korrelaatio lasketaan. Näin saadussa korrelaatiomatriisissa jokainen korrelaatioarvo voi perustua eri suuruiselle otokselle. Tämänkin menetelmän seurauksena otoskoko pienenee, mutta ei läheskään yhtä paljon, kuin silloin, jos kaikki puuttuvia tietoja sisältävät havaintoyksiköt poistettaisiin analyysista.

 

Keskiarvon käyttö

 

Jos puuttuvien havaintojen poisto ei tule kysymykseen, yksi vaihtoehto on koodata puuttuvien muuttujan arvojen tilalle jokin ennalta päätetty arvo ja sisällyttää siten kaikki havaintoyksiköt analyysiin. Yleensä puuttuvien havaintojen tilalle koodataan koko aineiston keskiarvo kyseisellä muuttujalla. Keskiarvon käyttöä perustellaan sillä, että jos tutkijalla ei ole etukäteen mitään tietoa puuttuvan havainnon arvosta, paras ”arvaus” täksi arvoksi on juuri koko aineiston keskiarvo. Ilmeinen etu tämän menetelmän käytössä on, että aineiston koko ei menetelmän myötä pienene. Huono puoli on, että keskiarvojen käyttö johtaa muuttujien hajonnan pienenemiseen. Jos puuttuvia havaintoja on paljon, voi tällä olla suuri merkitys jatkoanalyysin kannalta. Käytännössä muuttujien hajonnan pienenemisestä seuraa, että niiden välinen korrelaatio pienenee. Näin keskiarvojen käyttö puuttuvien havaintojen tilalla tekee monimuuttujamenetelmien tuloksista ”konservatiivisempia” eli havaitut yhteydet muuttujien välillä eivät ole niin vahvoja kuin jos puuttuvia havaintoja olisi aineistossa vähemmin.

 

Ryhmäkeskiarvojen käyttö

 

Puuttuvat muuttujan arvot voidaan korvata koko muuttujan keskiarvon sijasta myös ryhmäkeskiarvoilla. Jos esimerkiksi vastaajien koulutustaso on mitattu kolmiluokkaisella mittarilla, jaetaan aineisto näihin kolmeen ryhmään ja lasketaan jokaiselle ryhmälle oma keskiarvo kiinnostuksen kohteena olevasta muuttujasta. Tämän jälkeen puuttuvat havainnot korvataan näillä ryhmäkeskiarvoilla. Jos vastaaja kuuluu korkeakoulutettujen ryhmään ja hänellä on jossain kysymyksessä puuttuva havainto, koodataan puuttuvan havainnon tilalle korkeakoulutettujen tällä muuttujalla saama keskiarvo jne. Tämän menetelmän ongelma on, että se korostaa ryhmien sisäistä samankaltaisuutta ja ryhmien välisiä eroja. Seuraukset ovat päinvastaiset kuin koko muuttujan keskiarvojen käytössä puuttuvien havaintojen tilalla. Ryhmäkeskiarvojen käyttö voi vääristää tuloksia kasvattamalla muuttujien välisiä korrelaatioita.

 

Muita tapoja

 

Edellä esitellyt tavat käsitellä puuttuvia havaintoja ovat yleisimmin käytetyt. Niiden lisäksi on kuitenkin myös muita mahdollisuuksia. Yksi mahdollisuus on jakaa aineisto ryhmiin (esimerkiksi miehiin ja naisiin) ja koodata puuttuvan arvon kohdalle havaintomatriisissa edellisen havainnon arvo. Tämä tarkoittaa, että puuttuvien arvojen tilalle koodataan useita eri arvoja, ei ainoastaan keskiarvoja. Menetelmän etu on, että se ei vähennä muuttujien hajontaa niin kuin pelkkien keskiarvojen käyttö. Myös regressioanalyysia voidaan käyttää puuttuvien havaintojen ”oikeiden” arvojen löytämiseksi. Tämä menetelmä on monimutkaisempi kuin edellä esitellyt vaihtoehdot. Lisätietoja eri menetelmien hyvistä ja huonoista puolista kannattaa katsoa Hertelin (1976) artikkelista.

 

Puuttuvien havaintojen koodaaminen

 

Edellä käsiteltiin puuttuvien havaintojen muodostaman ongelman ratkaisumalleja. Tässä osassa puuttuvien havaintojen käsittelyä tarkastellaan vielä käytännönläheisemmällä tasolla. Puuttuvat havainnot on jollain tavalla koodattava havaintomatriisiin niin, että niiden erityisluonne tulee selvästi esille. Samoin jos puuttuvan havainnon syy on selvillä, kannattaa eri syistä johtuvat puuttuvat havainnot koodata eri koodeilla. Joskus voi jälkikäteen tulla tarve pystyä erottelemaan puuttuvat havainnot toisistaan niiden syyn perusteella.

 

Periaatteessa puuttuvan havainnon voi koodata millä koodilla tahansa. Tähän valintaa vaikuttaa tietysti se, mitä alkuperäisellä muuttujalla on mitattu. Yleensä puuttuvien havaintojen koodi kannattaa valita niin, että se eroaa selkeästi muuttuja saamista ”oikeista” arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 99 tai 999. Tämä on tietenkin järkevää vain silloin, kun muuttuja on sellainen, että nämä arvot eivät tule kyseeseen todellisina havaittuina muuttujan arvoina.

 

Ennen varsinaisen tilastoanalyysin aloittamista kannattaa aina tarkistaa, miten puutuvat havainnot ovat koodattu ja onko tilasto-ohjelmassa määritelty puuttuvien havaintojen koodi niin, että niitä ei oteta automaattisesti mukaan analyysiin. Jos tämä unohtuu, voi tulokset vääristyä suurestikin. Jos esimerkiksi perheen lapsien määrää mittaavassa muuttujassa puuttuva havainto on koodattu arvolla 999 ja näitä havaintoja ei ole muistettu poistaa analyysista, voi perheiden keskimääräinen lapsiluku olla yllättävän suuri.

 

Lähteet

Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.

 

Lisätietoja

 

Puuttuvien havaintojen aiheuttamia ongelmia ja näiden ongelmien ratkaisuyrityksiä käsitellään määrällisten menetelmien perusoppikirjoissa yllättävän vähän. De Vausin kirjassa aihetta käsitellään jonkun verran. Käsittely perustuu kuitenkin lähinnä Hertelin artikkeliin.

·        De Vaus, D.A. (1994): Surveys in Social Research. Third edition. UCL Press, Guildford.

·        Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.

 

Kalvot

 

·        Lähes kaikissa aineistoissa on havaintoyksikköjä, joista ei ole pystytty mittaamaan kaikki arvoja -> puuttuvien havaintojen ongelma

·        Seuraukset:

·        Aineiston pieneneminen

·        Tulosten mahdollinen vääristyminen

 

·        Puuttuvien havaintojen syitä:

·        Vastaajan ei ollut tarkoituskaan vastata (esim. lapsien ikä, jos vastaajalla ei ole lapsia)

·        Vastaaja kieltäytynyt vastaamasta

·        Vastaus epäselvä

·        Vastaaja ei tiedä tai hänellä ei ole mielipidettä

·        Koodausvirhe

·        Syystä ei ole tietoa

 

·        Puuttuvien havaintojen käsitteleminen

·        Puuttuvien havaintojen poistaminen

·        Pienentää aineiston kokoa

·        Voi vääristää tuloksia, jos puuttuvat havainnot eivät jakaudu sattumanvaraisesti

 

·        Muuttujien hylkääminen

·        Kannattaa harkita, jos suuri määrä puuttuvia havaintoja

·        Ongelma jos muuttuja tärkeä tutkimusongelman kannalta

 

·        Havaintojen parittainen poistaminen

·        Voidaan käyttää jos analyysi perustuu kovarianssi- tai korrelaatiomatriisille

§         Esim. regressio- tai faktorianalyysi

·        Korrelaatiokertoimet lasketaan vain kaikista niistä havaintoyksiköistä, joista mittaus molemmalla muuttujalla

·        Jos puuttuvia havaintoja paljon, parempi vaihtoehto kuin kaikkien puuttuvien havaintojen poistaminen

 

·        Keskiarvojen käyttö

·        Korvataan puuttuvat havainnot muuttujan keskiarvolla

·        Ei pienennä aineiston kokoa

·        Pienentää keinotekoisesti muuttujien välisten yhteyksien vahvuutta (esim. korrelaatiokertoimien)

 

·        Ryhmäkeskiarvojen käyttö

·        Korvataan puuttuvat havainnot ryhmien keskiarvoilla

§         Esimerkiksi naisvastaajien puuttuvat havainnot korvataan naisvastaajien keskiarvolla

·        Kasvattaa ryhmien samankaltaisuutta

·        Kasvattaa keinotekoisesti muuttujien välisten yhteyksien vahvuutta (esim. korrelaatikertoimien)

 

·        Puuttuvien havaintojen koodaaminen

·        Täytyy erottaa puuttuvat havainnot selkeästi ”oikeista” muuttujien arvoista

·        Usein käytetään koodeja 99 tai 999

·        Tärkeää muistaa määritellä tilasto-ohjelmalle puuttuvien havaintojen koodit