[Puuttuvien havaintojen koodaaminen]
[Lähteet]
[Kalvot]
Lähes kaikissa
määrällisissä aineistoissa on havaintoyksikköjä, joista ei jostain syystä ole
pystytty mittaamaan kaikkia tarvittavia muuttujien arvoja. Tällaisia tapauksia
kutsutaan puuttuviksi havainnoiksi. Niillä voi olla suuri merkitys aineiston
analyysin kannalta. Jos puuttuvat havainnot poistetaan analyysista, pienenee
havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Vielä
suurempi ongelma on silloin, jos puuttuvat havainnot eivät ole jakautuneet
satunnaisesti havaintoyksikköjen kesken, vaan joissakin ryhmissä niitä on
huomattavasti enemmän kuin toisissa. Tällainen tilanne saattaa pahimmassa
tapauksessa vääristää analyysin tuloksia merkittävästi. Näiden syiden vuoksi
puuttuvien havaintojen käsittelyyn kannattaa aina käyttää harkintaa ennen
varsinaisen analyysin aloittamista.
Havaintojen
puuttumiselle voi olla useita eri syitä. Usein kyselytutkimuksissa kaikkien
vastaajien ei ole edes tarkoitus vastata kaikkiin kysymyksiin. Esimerkiksi jos
vastaaja ilmoittaa, ettei hänellä ole lapsia, ei hänen tarvitse vastata
seuraaviin kysymyksiin, joissa tiedustellaan lasten ikää. Tällaiset puuttuvat
havainnot ovat jo lomakkeen suunnitteluvaiheessa tiedossa, eivätkä ne aiheuta
suuria ongelmia aineiston analyysissa. Sen sijaan vakavampia ovat muut
mahdolliset puuttuvien havaintojen syyt. Joskus vastaajat kieltäytyvät
vastaamaan johonkin tiettyyn kysymykseen. Kysymys voi esimerkiksi käsitellä
niin arkaluonteisia asioita, että kaikki vastaajat eivät halua ilmoittaa
mielipidettään. Joskus vastaus voi olla niin epämääräinen, ettei siitä
yksikäsitteisesti selviä, mitä vastaaja on tarkoittanut (esimerkiksi
kirjoitetusta numerosta ei saa selvää). Joskus puuttuvan havainnon syy ei ole
tiedossa. Se voi johtua vastaajan, haastattelijan tai aineiston koodaajan
virheestä.
Kyselytutkimuksissa
vaihtoehdot ’En osaa sanoa’ tai ’En tiedä’ aiheuttavat joskus ongelmia
aineiston jatkoanalyysille. Usein näitä vastausvaihtoehtoja käsitellään
puuttuvina tietoina. Tämä ratkaisu ei välttämättä ole perusteltu, jos tällaisia
vastauksia on paljon. Analyysin tulokset voivat muuttua, jos ”En tiedä”
–vastaukset eivät ole jakautuneet sattumanvaraisesti vastaajien kesken, vaan
niiden yleisyys vaihtelee tarkasteltavien ryhmien mukaan. Lisäksi ”En tiedä”
–vastausten analyysi voi olla mielenkiintoinen tutkimusongelman kannalta. Jos
tietyn tyyppisillä vastaajilla ei ole mielipidettä jostain yhteiskunnallisesta
ilmiöstä, voi tämä tieto itsessään olla arvokas tulkittaessa vastaajien
suhtautumista kysyttyyn ilmiöön.
Koska puuttuvat
havainnot voivat vääristää analyysin tuloksia, täytyy niiden käsittelyyn
kiinnittää erityistä huomiota. Ongelman korjaamiseksi tai ainakin
lievittämiseksi on esitetty useita erilaisia menetelmiä. Yleispätevää
toimintasääntöä ei ole, vaan soveltuvan ratkaisun valinta täytyy aina tehdä
tapauskohtaisesti. Seuraava toimenpidejaottelu perustuu Hertelin (1976) asiaa
käsittelevään artikkeliin.
Yksinkertaisin
lähestymistapa puuttuvien havaintojen ongelmaan on poistaa analyysista kaikki
havaintoyksiköt, joista on puuttuvia tietoja yhdessäkin analyysiin
sisälletyissä muuttujissa. Englanninkielisissä tilasto-ohjelmissa tätä
toimenpidettä kutsutaan nimellä listwise deletion. Ongelmana tässä
lähestymistavassa on, että se voi pienentää otoksen kokoa huomattavasti. Tämä
tulee erityisen selvästi esille monimuuttujamenetelmiä sovellettaessa, jolloin
analyysissa voi olla mukana useita, joskus jopa kymmeniä, muuttujia. Tällöin analyysin ulkopuolelle jäävät kaikki
havaintoyksiköt, joista puuttuu yksikin arvo joltain näistä muuttujista.
Toisaalta jos puuttuvat havainnot keskittyvät vain pieneen osaan
havaintoyksiköistä, voi näiden poistaminen analyysista olla järkevää. Ennen
tätä toimenpidettä kannattaa kuitenkin tarkistaa (esimerkiksi »ristiintaulukoinnin
avulla) ovatko puuttuvat havainnot jakautuneet satunnaisesti tutkimusongelman
kannalta mielenkiintoisten ryhmien välillä, vai keskittyvätkö ne joihinkin erityisiin
ryhmiin. Jälkimmäisessä tapauksessa puuttuvien havaintojen poistaminen
analyysista voi vääristää lopputuloksia.
Jos jostain
muuttujasta puuttuu huomattava määrä havaintoja, kannattaa pohtia koko
muuttujan pudottamista pois analyysista. Tämä on suositeltavaa ainakin silloin,
jos aineistossa on muita muuttujia, jotka mittaavat samaa asiaa jollain eri
tavalla. Hyvänä puolena tässä ratkaisussa on, että havaintoyksikköjen määrä ei
toimenpiteen seurauksena vähene. Ratkaisua ei tietenkään voi suositella
silloin, jos muuttuja on tutkimuskysymyksen kannalta tärkeä ja sen
poisjättäminen vaikeuttaa tutkimusongelman ratkaisua.
Useat
monimuuttujamenetelmät perustuvat muuttujien kovarianssi- tai
korrelaatiomatriisin analysoinnille (esimerkiksi »faktorianalyysi ja »regressioanalyysi). Tällaisessa tapauksessa
puuttuvia havaintoja voidaan poistaa analyysista ns. parittaisesti (pairwise
deletion). Tämä tarkoitta sitä, että korrelaatiomatriisia laskettaessa
otetaan huomioon kaikki ne havaintoyksiköt, joista on tiedot niillä kahdella
muuttujalla, joista korrelaatio lasketaan. Näin saadussa korrelaatiomatriisissa
jokainen korrelaatioarvo voi perustua eri suuruiselle otokselle. Tämänkin
menetelmän seurauksena otoskoko pienenee, mutta ei läheskään yhtä paljon, kuin
silloin, jos kaikki puuttuvia tietoja sisältävät havaintoyksiköt poistettaisiin
analyysista.
Jos puuttuvien
havaintojen poisto ei tule kysymykseen, yksi vaihtoehto on koodata puuttuvien
muuttujan arvojen tilalle jokin ennalta päätetty arvo ja sisällyttää siten
kaikki havaintoyksiköt analyysiin. Yleensä puuttuvien havaintojen tilalle
koodataan koko aineiston keskiarvo kyseisellä muuttujalla. Keskiarvon käyttöä
perustellaan sillä, että jos tutkijalla ei ole etukäteen mitään tietoa
puuttuvan havainnon arvosta, paras ”arvaus” täksi arvoksi on juuri koko
aineiston keskiarvo. Ilmeinen etu tämän menetelmän käytössä on, että aineiston
koko ei menetelmän myötä pienene. Huono puoli on, että keskiarvojen käyttö
johtaa muuttujien hajonnan pienenemiseen. Jos puuttuvia havaintoja on paljon,
voi tällä olla suuri merkitys jatkoanalyysin kannalta. Käytännössä muuttujien
hajonnan pienenemisestä seuraa, että niiden välinen korrelaatio pienenee. Näin
keskiarvojen käyttö puuttuvien havaintojen tilalla tekee
monimuuttujamenetelmien tuloksista ”konservatiivisempia” eli havaitut yhteydet
muuttujien välillä eivät ole niin vahvoja kuin jos puuttuvia havaintoja olisi
aineistossa vähemmin.
Puuttuvat
muuttujan arvot voidaan korvata koko muuttujan keskiarvon sijasta myös
ryhmäkeskiarvoilla. Jos esimerkiksi vastaajien koulutustaso on mitattu
kolmiluokkaisella mittarilla, jaetaan aineisto näihin kolmeen ryhmään ja
lasketaan jokaiselle ryhmälle oma keskiarvo kiinnostuksen kohteena olevasta
muuttujasta. Tämän jälkeen puuttuvat havainnot korvataan näillä
ryhmäkeskiarvoilla. Jos vastaaja kuuluu korkeakoulutettujen ryhmään ja hänellä
on jossain kysymyksessä puuttuva havainto, koodataan puuttuvan havainnon
tilalle korkeakoulutettujen tällä muuttujalla saama keskiarvo jne. Tämän
menetelmän ongelma on, että se korostaa ryhmien sisäistä samankaltaisuutta ja ryhmien
välisiä eroja. Seuraukset ovat päinvastaiset kuin koko muuttujan keskiarvojen
käytössä puuttuvien havaintojen tilalla. Ryhmäkeskiarvojen käyttö voi vääristää
tuloksia kasvattamalla muuttujien välisiä korrelaatioita.
Edellä esitellyt
tavat käsitellä puuttuvia havaintoja ovat yleisimmin käytetyt. Niiden lisäksi
on kuitenkin myös muita mahdollisuuksia. Yksi mahdollisuus on jakaa aineisto
ryhmiin (esimerkiksi miehiin ja naisiin) ja koodata puuttuvan arvon kohdalle
havaintomatriisissa edellisen havainnon arvo. Tämä tarkoittaa, että puuttuvien
arvojen tilalle koodataan useita eri arvoja, ei ainoastaan keskiarvoja.
Menetelmän etu on, että se ei vähennä muuttujien hajontaa niin kuin pelkkien
keskiarvojen käyttö. Myös regressioanalyysia voidaan käyttää puuttuvien
havaintojen ”oikeiden” arvojen löytämiseksi. Tämä menetelmä on monimutkaisempi
kuin edellä esitellyt vaihtoehdot. Lisätietoja eri menetelmien hyvistä ja
huonoista puolista kannattaa katsoa Hertelin (1976) artikkelista.
Edellä
käsiteltiin puuttuvien havaintojen muodostaman ongelman ratkaisumalleja. Tässä
osassa puuttuvien havaintojen käsittelyä tarkastellaan vielä
käytännönläheisemmällä tasolla. Puuttuvat havainnot on jollain tavalla
koodattava havaintomatriisiin niin, että niiden erityisluonne tulee selvästi
esille. Samoin jos puuttuvan havainnon syy on selvillä, kannattaa eri syistä
johtuvat puuttuvat havainnot koodata eri koodeilla. Joskus voi jälkikäteen
tulla tarve pystyä erottelemaan puuttuvat havainnot toisistaan niiden syyn
perusteella.
Periaatteessa
puuttuvan havainnon voi koodata millä koodilla tahansa. Tähän valintaa
vaikuttaa tietysti se, mitä alkuperäisellä muuttujalla on mitattu. Yleensä
puuttuvien havaintojen koodi kannattaa valita niin, että se eroaa selkeästi
muuttuja saamista ”oikeista” arvoista. Usein puuttuvan havainnon koodina
käytetään arvoja 99 tai 999. Tämä on tietenkin järkevää vain silloin, kun
muuttuja on sellainen, että nämä arvot eivät tule kyseeseen todellisina
havaittuina muuttujan arvoina.
Ennen varsinaisen
tilastoanalyysin aloittamista kannattaa aina tarkistaa, miten puutuvat havainnot
ovat koodattu ja onko tilasto-ohjelmassa määritelty puuttuvien havaintojen
koodi niin, että niitä ei oteta automaattisesti mukaan analyysiin. Jos tämä
unohtuu, voi tulokset vääristyä suurestikin. Jos esimerkiksi perheen lapsien
määrää mittaavassa muuttujassa puuttuva havainto on koodattu arvolla 999 ja
näitä havaintoja ei ole muistettu poistaa analyysista, voi perheiden
keskimääräinen lapsiluku olla yllättävän suuri.
Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.
Puuttuvien
havaintojen aiheuttamia ongelmia ja näiden ongelmien ratkaisuyrityksiä
käsitellään määrällisten menetelmien perusoppikirjoissa yllättävän vähän. De Vausin
kirjassa aihetta käsitellään jonkun verran. Käsittely perustuu kuitenkin
lähinnä Hertelin artikkeliin.
· De Vaus, D.A. (1994): Surveys in Social Research. Third edition. UCL Press, Guildford.
· Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.
·
Lähes
kaikissa aineistoissa on havaintoyksikköjä, joista ei ole pystytty mittaamaan
kaikki arvoja -> puuttuvien havaintojen ongelma
·
Seuraukset:
·
Aineiston
pieneneminen
·
Tulosten
mahdollinen vääristyminen
·
Puuttuvien
havaintojen syitä:
·
Vastaajan ei
ollut tarkoituskaan vastata (esim. lapsien ikä, jos vastaajalla ei ole lapsia)
·
Vastaaja
kieltäytynyt vastaamasta
·
Vastaus
epäselvä
·
Vastaaja ei
tiedä tai hänellä ei ole mielipidettä
·
Koodausvirhe
·
Syystä ei
ole tietoa
·
Puuttuvien
havaintojen käsitteleminen
·
Puuttuvien
havaintojen poistaminen
·
Pienentää
aineiston kokoa
·
Voi
vääristää tuloksia, jos puuttuvat havainnot eivät jakaudu sattumanvaraisesti
·
Muuttujien
hylkääminen
·
Kannattaa
harkita, jos suuri määrä puuttuvia havaintoja
·
Ongelma jos
muuttuja tärkeä tutkimusongelman kannalta
·
Havaintojen
parittainen poistaminen
·
Voidaan
käyttää jos analyysi perustuu kovarianssi- tai korrelaatiomatriisille
§
Esim.
regressio- tai faktorianalyysi
·
Korrelaatiokertoimet
lasketaan vain kaikista niistä havaintoyksiköistä, joista mittaus molemmalla
muuttujalla
·
Jos
puuttuvia havaintoja paljon, parempi vaihtoehto kuin kaikkien puuttuvien
havaintojen poistaminen
·
Keskiarvojen
käyttö
·
Korvataan puuttuvat
havainnot muuttujan keskiarvolla
·
Ei pienennä
aineiston kokoa
·
Pienentää keinotekoisesti
muuttujien välisten yhteyksien vahvuutta (esim. korrelaatiokertoimien)
·
Ryhmäkeskiarvojen
käyttö
·
Korvataan
puuttuvat havainnot ryhmien keskiarvoilla
§
Esimerkiksi
naisvastaajien puuttuvat havainnot korvataan naisvastaajien keskiarvolla
·
Kasvattaa
ryhmien samankaltaisuutta
·
Kasvattaa
keinotekoisesti muuttujien välisten yhteyksien vahvuutta (esim.
korrelaatikertoimien)
·
Puuttuvien
havaintojen koodaaminen
·
Täytyy
erottaa puuttuvat havainnot selkeästi ”oikeista” muuttujien arvoista
·
Usein
käytetään koodeja 99 tai 999
·
Tärkeää
muistaa määritellä tilasto-ohjelmalle puuttuvien havaintojen koodit