[Puuttuvien havaintojen koodaaminen]
[Lähteet]
[Kalvot]
Lähes kaikissa
määrällisissä aineistoissa on havaintoyksikköjä, joista ei syystä tai toisesta ole
pystytty mittaamaan kaikkien muuttujien arvoja. Tällaisia tapauksia kutsutaan
puuttuviksi havainnoiksi. Niillä voi olla suuri merkitys aineiston analyysin
kannalta. Jos puuttuvat havainnot poistetaan analyysista, pienenee
havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Vielä
suurempi ongelma on silloin, jos puuttuvat havainnot eivät ole jakautuneet
satunnaisesti havaintoyksikköjen kesken, vaan joissakin ryhmissä niitä on
huomattavasti enemmän kuin toisissa. Tilanne saattaa pahimmassa tapauksessa
vääristää analyysin tuloksia merkittävästi. Näiden syiden vuoksi puuttuvien
havaintojen käsittelyyn kannattaa perehtyä ennen varsinaisen analyysin
aloittamista. Seuraavassa asiaa käsitellään erityisesti kyselytutkimusten näkökulmasta.
Havaintojen
puuttumiselle voi olla useita eri syitä. Usein kyselytutkimuksissa kaikkien
vastaajien ei ole edes tarkoitus vastata kaikkiin kysymyksiin. Esimerkiksi jos
vastaaja ilmoittaa, ettei hänellä ole lapsia, ei hänen tarvitse vastata kysymyksiin,
joissa tiedustellaan lasten ikää. Tällaiset puuttuvat havainnot ovat jo
lomakkeen suunnitteluvaiheessa tiedossa, eivätkä ne aiheuta suuria ongelmia
aineiston analyysissa. Sen sijaan muut mahdolliset puuttuvien havaintojen syyt
päänvaivaa tutkijalle. Vastaamatta voidaan jättää epähuomiossa tai
viitseliäisyyden puutteessa. Joskus vastaajat kieltäytyvät vastaamaan johonkin
tiettyyn kysymykseen. Joskus kysymys voi taas käsitellä niin arkaluonteisia
asioita, että kaikki vastaajat eivät halua ilmoittaa mielipidettään. Toisinaan
vastaus voi olla niin epämääräinen, ettei siitä yksikäsitteisesti selviä, mitä
vastaaja on tarkoittanut (esimerkiksi kirjoitetusta numerosta ei saa selvää). Eikä
puuttuvan havainnon syy ole aina edes tiedossa. Se voi johtua myös
haastattelijan tai aineiston koodaajan virheestä.
Kyselytutkimuksissa
vaihtoehdot ’en osaa sanoa’, ’en halua sanoa’ tai ’en tiedä’ aiheuttavat joskus
ongelmia aineiston jatkoanalyysille. Usein näitä vastausvaihtoehtoja
käsitellään puuttuvina tietoina. Tämä ratkaisu ei välttämättä ole perusteltu,
jos tällaisia vastauksia on paljon. Analyysin tulokset voivat muuttua, jos puuttuvat
vastaukset eivät ole jakautuneet sattumanvaraisesti vastaajien kesken, vaan
niiden yleisyys vaihtelee tarkasteltavien ryhmien mukaan. Lisäksi vastausten ’en
osaa sanoa’ tai ’en tiedä’ analyysi voi olla mielenkiintoinen tutkimusongelman
kannalta. Jos tietyn tyyppisillä vastaajilla ei ole mielipidettä jostain
yhteiskunnallisesta ilmiöstä, voi tämä tieto olla itsessään arvokas
tulkittaessa vastaajien suhtautumista tutkittavaan ilmiöön.
Koska puuttuvat
havainnot voivat kuitenkin myös vääristää analyysin tuloksia, täytyy niiden
käsittelyyn kiinnittää erityistä huomiota. Ongelman korjaamiseksi tai ainakin lievittämiseksi
on esitetty useita erilaisia menetelmiä. Yleispätevää toimintasääntöä ei ole,
vaan soveltuva ratkaisu täytyy valita tapauskohtaisesti. Seuraava
toimenpidejaottelu perustuu Hertelin (1976) asiaa käsittelevään artikkeliin.
Yksinkertaisin
lähestymistapa puuttuvien havaintojen ongelmaan on poistaa analyysista kaikki
havaintoyksiköt, joista on puuttuvia tietoja yhdessäkin analyysiin
sisälletyissä muuttujissa. Englanninkielisissä tilasto-ohjelmissa tätä
toimenpidettä kutsutaan nimellä listwise deletion. Ongelmana tässä
lähestymistavassa on, että se voi pienentää otoksen kokoa huomattavasti. Tämä
tulee erityisen selvästi esille monimuuttujamenetelmiä sovellettaessa, jolloin
analyysissa voi olla mukana useita, joskus jopa kymmeniä, muuttujia. Analyysin ulkopuolelle jäävät kaikki
havaintoyksiköt, joista puuttuu yksikin arvo jostakin analyysissa mukana
olevasta muuttujasta. Jos puuttuvat havainnot keskittyvät kuitenkin vain
pieneen osaan havaintoyksiköistä, voi näiden poistaminen analyysista olla
järkevää. Ennen tätä toimenpidettä kannattaa tarkistaa (esimerkiksi »ristiintaulukoinnin
avulla) ovatko puuttuvat havainnot jakautuneet satunnaisesti tutkimusongelman
kannalta mielenkiintoisten ryhmien välillä, vai keskittyvätkö ne joihinkin
erityisiin ryhmiin. Jälkimmäisessä tapauksessa puuttuvien havaintojen
poistaminen analyysista voi vääristää lopputuloksia.
Jos jostakin
muuttujasta puuttuu huomattava määrä havaintoja, kannattaa pohtia koko
muuttujan pudottamista pois analyysista. Tämä on suositeltavaa ainakin silloin,
kun aineistossa on muita muuttujia, jotka mittaavat samaa asiaa. Hyvänä puolena
tässä ratkaisussa on, että havaintoyksikköjen määrä ei toimenpiteen seurauksena
vähene. Ratkaisua ei tietenkään voi suositella silloin, kun muuttuja on
tutkimuskysymyksen kannalta tärkeä ja sen poisjättäminen vaikeuttaa
tutkimusongelman ratkaisua.
Useat
monimuuttujamenetelmät perustuvat muuttujien kovarianssi- tai
korrelaatiomatriisin analysoinnille (esimerkiksi »faktorianalyysi ja »regressioanalyysi). Tällaisessa tapauksessa
puuttuvia havaintoja voidaan poistaa analyysista ns. parittaisesti (pairwise
deletion). Tämä tarkoittaa sitä, että korrelaatiomatriisia laskettaessa
otetaan huomioon kaikki ne havaintoyksiköt, joista on tiedot niillä kahdella
muuttujalla, joista korrelaatio lasketaan. Näin saadussa korrelaatiomatriisissa
jokainen korrelaatioarvo voi perustua erilaiseen havaintoyksikköjen määrään.
Tämänkin menetelmän seurauksena aineisto pienenee, mutta ei läheskään yhtä
paljon verrattuna tilanteeseen, jossa kaikki puuttuvia tietoja sisältävät
havaintoyksiköt poistettaisiin analyysista.
Jos puuttuvia
havaintoja ei voida poistaa, yksi vaihtoehto on koodata puuttuvien muuttujan
arvojen tilalle jokin ennalta päätetty arvo ja sisällyttää siten kaikki
havaintoyksiköt analyysiin. Yleensä puuttuvien havaintojen tilalle koodataan muuttujan
keskiarvo. Keskiarvon käyttöä perustellaan sillä, että jos tutkijalla ei ole
etukäteen mitään tietoa puuttuvan havainnon arvosta, paras ”arvaus” täksi
arvoksi on juuri koko aineiston keskiarvo. Ilmeinen etu tämän menetelmän
käytössä on, että se ei pienennä aineiston kokoa. Huono puoli on, että
keskiarvojen käyttö johtaa muuttujien hajonnan pienenemiseen. Jos puuttuvia
havaintoja on paljon, voi tällä olla suuri merkitys jatkoanalyysin kannalta.
Käytännössä muuttujien hajonnan pienenemisestä seuraa, että niiden välinen
korrelaatio pienenee. Näin keskiarvojen käyttö puuttuvien havaintojen tilalla
tekee monimuuttujamenetelmien tuloksista ”konservatiivisempia”, eli havaitut
yhteydet muuttujien välillä eivät ole niin vahvoja kuin jos puuttuvia
havaintoja olisi aineistossa vähemmin.
Puuttuvat
muuttujan arvot voidaan korvata koko muuttujan keskiarvon sijasta myös
ryhmäkeskiarvoilla. Jos esimerkiksi vastaajien koulutustaso on mitattu
kolmiluokkaisella mittarilla, jaetaan aineisto näihin kolmeen ryhmään ja
lasketaan jokaiselle ryhmälle oma keskiarvo kiinnostuksen kohteena olevasta
muuttujasta. Tämän jälkeen puuttuvat havainnot korvataan näillä
ryhmäkeskiarvoilla. Jos vastaaja kuuluu akateemisen tutkinnon suorittaneiden ryhmään
ja hänellä on jossain kysymyksessä puuttuva havainto, koodataan puuttuvan
havainnon tilalle akateemisten tällä muuttujalla saama keskiarvo jne. Tämän
menetelmän ongelma on, että se korostaa ryhmien sisäistä samankaltaisuutta ja
ryhmien välisiä eroja. Seuraukset ovat päinvastaiset kuin koko muuttujan
keskiarvojen käytössä puuttuvien havaintojen tilalla. Ryhmäkeskiarvojen käyttö
voi vääristää tuloksia kasvattamalla muuttujien välisiä korrelaatioita.
Edellä esiteltiin
yleisimpiä tapoja käsitellä puuttuvia havaintoja. Niiden lisäksi on muitakin
mahdollisuuksia. Yksi tapa on jakaa aineisto ryhmiin (esimerkiksi miehiin ja
naisiin) ja koodata puuttuvan arvon kohdalle havaintomatriisissa edellisen
havainnon arvo. Tämä tarkoittaa, että puuttuvien arvojen tilalle koodataan
useita eri arvoja, ei ainoastaan keskiarvoja. Menetelmän etu on, että se ei
vähennä muuttujien hajontaa niin kuin pelkkien keskiarvojen käyttö. Myös
regressioanalyysia voidaan käyttää puuttuvien havaintojen ”oikeiden” arvojen löytämiseksi.
Tämä menetelmä on monimutkaisempi kuin edellä esitellyt vaihtoehdot.
Puuttuvien
havaintojen muodostamien ongelmien ratkaisemiseen ei ole helppo antaa
yleispäteviä toimintaohjeita. Jos puuttuvia havaintoja ei poisteta analyysista,
ne on koodattava havaintomatriisiin siten, että niiden erityisluonne tulee
selvästi esille. Samoin jos puuttuvan havainnon syy on selvillä, kannattaa eri
syistä johtuvat puuttuvat havainnot koodata eri koodeilla.
Periaatteessa
puuttuvan havainnon voi koodata millä koodilla tahansa. Valinta riippuu
kuitenkin siitä, millainen on muuttujan arvojen alkuperäinen vaihteluväli. Puuttuvien
havaintojen koodi kannattaa joka tapauksessa valita niin, että se eroaa
selkeästi muuttuja saamista ”oikeista” arvoista. Usein puuttuvan havainnon
koodina käytetään arvoja 9, 99 tai 999 edellyttäen, että ne eivät ole muuttujan
valideja arvoja. Myös nollaa käytetään usein puuttuvan tiedon arvona, mutta
tällöinkin tulee kiinnittää erityistä huomiota siihen, ettei ’0’ ole
sisällöllisesti hyväksyttävä tieto (esimerkiksi vastaaja ei ole osallistunut
kertaakaan kysyttyyn toimintaan).
Ennen varsinaisen
tilastoanalyysin aloittamista tulee ehdottomasti tarkistaa muuttujien puuttuvien
havaintojen ja tietojen koodaus ja onko tilasto-ohjelmassa määritelty
puuttuvien havaintojen koodi niin, että niitä ei oteta automaattisesti mukaan
analyysiin. Jos esimerkiksi perheen lapsien määrää mittaavassa muuttujassa
puuttuva havainto on koodattu arvolla 999 ja näitä havaintoja ei ole muistettu
poistaa analyysista, voi perheiden keskimääräinen lapsiluku olla yllättävän
suuri.
Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.
Puuttuvien
havaintojen aiheuttamia ongelmia ja näiden ongelmien ratkaisuyrityksiä
käsitellään määrällisten menetelmien perusoppikirjoissa yllättävän vähän. De
Vausin kirjassa aihetta käsitellään jonkin verran. Käsittely perustuu kuitenkin
lähinnä Hertelin artikkeliin.
· De Vaus, D.A. (1994): Surveys in Social Research. Third edition. UCL Press, Guildford.
· Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.
·
Lähes
kaikissa aineistoissa on muuttujia ja havaintoyksikköjä, joista ei ole pystytty
mittaamaan kaikki arvoja -> puuttuvien havaintojen ongelma
·
Seuraukset:
·
Aineiston
pieneneminen
·
Tulosten
mahdollinen vääristyminen
·
Puuttuvien
havaintojen syitä kyselytutkimuksissa:
·
Ei
tarkoituskaan vastata (esim. lasten ikä, jos vastaajalla ei ole lapsia)
·
Kieltäytyy
vastaamasta
·
Vastaus
epäselvä
·
Vastaaja ei
tiedä tai hänellä ei ole mielipidettä
·
Vahinko tai
viitseliäisyyden puute
·
Koodaus- tai
tallennevirhe
·
Syystä ei
ole tietoa
·
Puuttuvien
havaintojen poistaminen analyysista
·
Pienentää
aineiston kokoa
·
Voi vääristää
tuloksia, jos puuttuvat havainnot eivät jakaudu sattumanvaraisesti
·
Muuttujien
hylkääminen analyysista
·
Kannattaa
harkita, jos muuttujassa suuri määrä puuttuvia havaintoja
·
Ongelma, jos
muuttuja tärkeä tutkimusongelman kannalta
·
Havaintojen
parittainen poistaminen
·
Voidaan käyttää
jos analyysi perustuu kovarianssi- tai korrelaatiomatriisille
§
Esim.
regressio- tai faktorianalyysi
·
Korrelaatiokertoimet
lasketaan vain kaikista niistä havaintoyksiköistä, joista tiedot molemmista
muuttujista
·
Parempi
vaihtoehto kuin kaikkien puuttuvien havaintojen poistaminen
·
Keskiarvojen
käyttö
·
Korvataan
puuttuvat havainnot muuttujan keskiarvolla
·
Ei pienennä
aineiston kokoa
·
Pienentää
keinotekoisesti muuttujien välisten yhteyksien vahvuutta (esim. korrelaatio)
·
Ryhmäkeskiarvojen
käyttö
·
Korvataan
puuttuvat havainnot ryhmien keskiarvoilla
§
Esimerkiksi
naisvastaajien puuttuvat havainnot korvataan naisvastaajien keskiarvolla
·
Lisää
ryhmien samankaltaisuutta
·
Vahvistaa keinotekoisesti
muuttujien välisten yhteyksien vahvuutta (esim. korrelaatio)
·
Puuttuvien
havaintojen koodaaminen
·
Puuttuvat
havainnot erotettava selkeästi ”oikeista” muuttujien arvoista
·
Usein
käytetään koodeja 0, 9, 99 tai 999
·
Tärkeää määritellä
tilasto-ohjelmalle puuttuvien havaintojen koodit