[Yleistä]

[Puuttuvien havaintojen käsitteleminen]

[Puuttuvien havaintojen poistaminen]

[Muuttujien poistaminen]

[Puuttuvien havaintojen parittainen poistaminen]

[Keskiarvon käyttö]

[Ryhmäkeskiarvojen käyttö]

[Muita tapoja]

[Puuttuvien havaintojen koodaaminen]

[Lähteet]

[Lisätietoja]

[Kalvot]

 

Puuttuvat havainnot

 

Lähes kaikissa määrällisissä aineistoissa on havaintoyksikköjä, joista ei syystä tai toisesta ole pystytty mittaamaan kaikkien muuttujien arvoja. Tällaisia tapauksia kutsutaan puuttuviksi havainnoiksi. Niillä voi olla suuri merkitys aineiston analyysin kannalta. Jos puuttuvat havainnot poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Vielä suurempi ongelma on silloin, jos puuttuvat havainnot eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken, vaan joissakin ryhmissä niitä on huomattavasti enemmän kuin toisissa. Tilanne saattaa pahimmassa tapauksessa vääristää analyysin tuloksia merkittävästi. Näiden syiden vuoksi puuttuvien havaintojen käsittelyyn kannattaa perehtyä ennen varsinaisen analyysin aloittamista. Seuraavassa asiaa käsitellään erityisesti kyselytutkimusten näkökulmasta.

 

Havaintojen puuttumiselle voi olla useita eri syitä. Usein kyselytutkimuksissa kaikkien vastaajien ei ole edes tarkoitus vastata kaikkiin kysymyksiin. Esimerkiksi jos vastaaja ilmoittaa, ettei hänellä ole lapsia, ei hänen tarvitse vastata kysymyksiin, joissa tiedustellaan lasten ikää. Tällaiset puuttuvat havainnot ovat jo lomakkeen suunnitteluvaiheessa tiedossa, eivätkä ne aiheuta suuria ongelmia aineiston analyysissa. Sen sijaan muut mahdolliset puuttuvien havaintojen syyt päänvaivaa tutkijalle. Vastaamatta voidaan jättää epähuomiossa tai viitseliäisyyden puutteessa. Joskus vastaajat kieltäytyvät vastaamaan johonkin tiettyyn kysymykseen. Joskus kysymys voi taas käsitellä niin arkaluonteisia asioita, että kaikki vastaajat eivät halua ilmoittaa mielipidettään. Toisinaan vastaus voi olla niin epämääräinen, ettei siitä yksikäsitteisesti selviä, mitä vastaaja on tarkoittanut (esimerkiksi kirjoitetusta numerosta ei saa selvää). Eikä puuttuvan havainnon syy ole aina edes tiedossa. Se voi johtua myös haastattelijan tai aineiston koodaajan virheestä.

 

Kyselytutkimuksissa vaihtoehdot ’en osaa sanoa’, ’en halua sanoa’ tai ’en tiedä’ aiheuttavat joskus ongelmia aineiston jatkoanalyysille. Usein näitä vastausvaihtoehtoja käsitellään puuttuvina tietoina. Tämä ratkaisu ei välttämättä ole perusteltu, jos tällaisia vastauksia on paljon. Analyysin tulokset voivat muuttua, jos puuttuvat vastaukset eivät ole jakautuneet sattumanvaraisesti vastaajien kesken, vaan niiden yleisyys vaihtelee tarkasteltavien ryhmien mukaan. Lisäksi vastausten ’en osaa sanoa’ tai ’en tiedä’ analyysi voi olla mielenkiintoinen tutkimusongelman kannalta. Jos tietyn tyyppisillä vastaajilla ei ole mielipidettä jostain yhteiskunnallisesta ilmiöstä, voi tämä tieto olla itsessään arvokas tulkittaessa vastaajien suhtautumista tutkittavaan ilmiöön.

 

Puuttuvien havaintojen käsitteleminen

 

Koska puuttuvat havainnot voivat kuitenkin myös vääristää analyysin tuloksia, täytyy niiden käsittelyyn kiinnittää erityistä huomiota. Ongelman korjaamiseksi tai ainakin lievittämiseksi on esitetty useita erilaisia menetelmiä. Yleispätevää toimintasääntöä ei ole, vaan soveltuva ratkaisu täytyy valita tapauskohtaisesti. Seuraava toimenpidejaottelu perustuu Hertelin (1976) asiaa käsittelevään artikkeliin.

 

Puuttuvien havaintojen poistaminen

 

Yksinkertaisin lähestymistapa puuttuvien havaintojen ongelmaan on poistaa analyysista kaikki havaintoyksiköt, joista on puuttuvia tietoja yhdessäkin analyysiin sisälletyissä muuttujissa. Englanninkielisissä tilasto-ohjelmissa tätä toimenpidettä kutsutaan nimellä listwise deletion. Ongelmana tässä lähestymistavassa on, että se voi pienentää otoksen kokoa huomattavasti. Tämä tulee erityisen selvästi esille monimuuttujamenetelmiä sovellettaessa, jolloin analyysissa voi olla mukana useita, joskus jopa kymmeniä, muuttujia.  Analyysin ulkopuolelle jäävät kaikki havaintoyksiköt, joista puuttuu yksikin arvo jostakin analyysissa mukana olevasta muuttujasta. Jos puuttuvat havainnot keskittyvät kuitenkin vain pieneen osaan havaintoyksiköistä, voi näiden poistaminen analyysista olla järkevää. Ennen tätä toimenpidettä kannattaa tarkistaa (esimerkiksi »ristiintaulukoinnin avulla) ovatko puuttuvat havainnot jakautuneet satunnaisesti tutkimusongelman kannalta mielenkiintoisten ryhmien välillä, vai keskittyvätkö ne joihinkin erityisiin ryhmiin. Jälkimmäisessä tapauksessa puuttuvien havaintojen poistaminen analyysista voi vääristää lopputuloksia.

 

Muuttujien poistaminen

 

Jos jostakin muuttujasta puuttuu huomattava määrä havaintoja, kannattaa pohtia koko muuttujan pudottamista pois analyysista. Tämä on suositeltavaa ainakin silloin, kun aineistossa on muita muuttujia, jotka mittaavat samaa asiaa. Hyvänä puolena tässä ratkaisussa on, että havaintoyksikköjen määrä ei toimenpiteen seurauksena vähene. Ratkaisua ei tietenkään voi suositella silloin, kun muuttuja on tutkimuskysymyksen kannalta tärkeä ja sen poisjättäminen vaikeuttaa tutkimusongelman ratkaisua.

 

Puuttuvien havaintojen parittainen poistaminen

 

Useat monimuuttujamenetelmät perustuvat muuttujien kovarianssi- tai korrelaatiomatriisin analysoinnille (esimerkiksi »faktorianalyysi ja »regressioanalyysi). Tällaisessa tapauksessa puuttuvia havaintoja voidaan poistaa analyysista ns. parittaisesti (pairwise deletion). Tämä tarkoittaa sitä, että korrelaatiomatriisia laskettaessa otetaan huomioon kaikki ne havaintoyksiköt, joista on tiedot niillä kahdella muuttujalla, joista korrelaatio lasketaan. Näin saadussa korrelaatiomatriisissa jokainen korrelaatioarvo voi perustua erilaiseen havaintoyksikköjen määrään. Tämänkin menetelmän seurauksena aineisto pienenee, mutta ei läheskään yhtä paljon verrattuna tilanteeseen, jossa kaikki puuttuvia tietoja sisältävät havaintoyksiköt poistettaisiin analyysista.

 

Keskiarvon käyttö

 

Jos puuttuvia havaintoja ei voida poistaa, yksi vaihtoehto on koodata puuttuvien muuttujan arvojen tilalle jokin ennalta päätetty arvo ja sisällyttää siten kaikki havaintoyksiköt analyysiin. Yleensä puuttuvien havaintojen tilalle koodataan muuttujan keskiarvo. Keskiarvon käyttöä perustellaan sillä, että jos tutkijalla ei ole etukäteen mitään tietoa puuttuvan havainnon arvosta, paras ”arvaus” täksi arvoksi on juuri koko aineiston keskiarvo. Ilmeinen etu tämän menetelmän käytössä on, että se ei pienennä aineiston kokoa. Huono puoli on, että keskiarvojen käyttö johtaa muuttujien hajonnan pienenemiseen. Jos puuttuvia havaintoja on paljon, voi tällä olla suuri merkitys jatkoanalyysin kannalta. Käytännössä muuttujien hajonnan pienenemisestä seuraa, että niiden välinen korrelaatio pienenee. Näin keskiarvojen käyttö puuttuvien havaintojen tilalla tekee monimuuttujamenetelmien tuloksista ”konservatiivisempia”, eli havaitut yhteydet muuttujien välillä eivät ole niin vahvoja kuin jos puuttuvia havaintoja olisi aineistossa vähemmin.

 

Ryhmäkeskiarvojen käyttö

 

Puuttuvat muuttujan arvot voidaan korvata koko muuttujan keskiarvon sijasta myös ryhmäkeskiarvoilla. Jos esimerkiksi vastaajien koulutustaso on mitattu kolmiluokkaisella mittarilla, jaetaan aineisto näihin kolmeen ryhmään ja lasketaan jokaiselle ryhmälle oma keskiarvo kiinnostuksen kohteena olevasta muuttujasta. Tämän jälkeen puuttuvat havainnot korvataan näillä ryhmäkeskiarvoilla. Jos vastaaja kuuluu akateemisen tutkinnon suorittaneiden ryhmään ja hänellä on jossain kysymyksessä puuttuva havainto, koodataan puuttuvan havainnon tilalle akateemisten tällä muuttujalla saama keskiarvo jne. Tämän menetelmän ongelma on, että se korostaa ryhmien sisäistä samankaltaisuutta ja ryhmien välisiä eroja. Seuraukset ovat päinvastaiset kuin koko muuttujan keskiarvojen käytössä puuttuvien havaintojen tilalla. Ryhmäkeskiarvojen käyttö voi vääristää tuloksia kasvattamalla muuttujien välisiä korrelaatioita.

 

Muita tapoja

 

Edellä esiteltiin yleisimpiä tapoja käsitellä puuttuvia havaintoja. Niiden lisäksi on muitakin mahdollisuuksia. Yksi tapa on jakaa aineisto ryhmiin (esimerkiksi miehiin ja naisiin) ja koodata puuttuvan arvon kohdalle havaintomatriisissa edellisen havainnon arvo. Tämä tarkoittaa, että puuttuvien arvojen tilalle koodataan useita eri arvoja, ei ainoastaan keskiarvoja. Menetelmän etu on, että se ei vähennä muuttujien hajontaa niin kuin pelkkien keskiarvojen käyttö. Myös regressioanalyysia voidaan käyttää puuttuvien havaintojen ”oikeiden” arvojen löytämiseksi. Tämä menetelmä on monimutkaisempi kuin edellä esitellyt vaihtoehdot.

 

Puuttuvien havaintojen koodaaminen

 

Puuttuvien havaintojen muodostamien ongelmien ratkaisemiseen ei ole helppo antaa yleispäteviä toimintaohjeita. Jos puuttuvia havaintoja ei poisteta analyysista, ne on koodattava havaintomatriisiin siten, että niiden erityisluonne tulee selvästi esille. Samoin jos puuttuvan havainnon syy on selvillä, kannattaa eri syistä johtuvat puuttuvat havainnot koodata eri koodeilla.

 

Periaatteessa puuttuvan havainnon voi koodata millä koodilla tahansa. Valinta riippuu kuitenkin siitä, millainen on muuttujan arvojen alkuperäinen vaihteluväli. Puuttuvien havaintojen koodi kannattaa joka tapauksessa valita niin, että se eroaa selkeästi muuttuja saamista ”oikeista” arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 9, 99 tai 999 edellyttäen, että ne eivät ole muuttujan valideja arvoja. Myös nollaa käytetään usein puuttuvan tiedon arvona, mutta tällöinkin tulee kiinnittää erityistä huomiota siihen, ettei ’0’ ole sisällöllisesti hyväksyttävä tieto (esimerkiksi vastaaja ei ole osallistunut kertaakaan kysyttyyn toimintaan).

 

Ennen varsinaisen tilastoanalyysin aloittamista tulee ehdottomasti tarkistaa muuttujien puuttuvien havaintojen ja tietojen koodaus ja onko tilasto-ohjelmassa määritelty puuttuvien havaintojen koodi niin, että niitä ei oteta automaattisesti mukaan analyysiin. Jos esimerkiksi perheen lapsien määrää mittaavassa muuttujassa puuttuva havainto on koodattu arvolla 999 ja näitä havaintoja ei ole muistettu poistaa analyysista, voi perheiden keskimääräinen lapsiluku olla yllättävän suuri.

 

Lähteet

Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.

 

Lisätietoja

 

Puuttuvien havaintojen aiheuttamia ongelmia ja näiden ongelmien ratkaisuyrityksiä käsitellään määrällisten menetelmien perusoppikirjoissa yllättävän vähän. De Vausin kirjassa aihetta käsitellään jonkin verran. Käsittely perustuu kuitenkin lähinnä Hertelin artikkeliin.

·        De Vaus, D.A. (1994): Surveys in Social Research. Third edition. UCL Press, Guildford.

·        Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.

 

Kalvot

 

·        Lähes kaikissa aineistoissa on muuttujia ja havaintoyksikköjä, joista ei ole pystytty mittaamaan kaikki arvoja -> puuttuvien havaintojen ongelma

·        Seuraukset:

·        Aineiston pieneneminen

·        Tulosten mahdollinen vääristyminen

 

·        Puuttuvien havaintojen syitä kyselytutkimuksissa:

·        Ei tarkoituskaan vastata (esim. lasten ikä, jos vastaajalla ei ole lapsia)

·        Kieltäytyy vastaamasta

·        Vastaus epäselvä

·        Vastaaja ei tiedä tai hänellä ei ole mielipidettä

·        Vahinko tai viitseliäisyyden puute

·        Koodaus- tai tallennevirhe

·        Syystä ei ole tietoa

 

·        Puuttuvien havaintojen poistaminen analyysista

·        Pienentää aineiston kokoa

·        Voi vääristää tuloksia, jos puuttuvat havainnot eivät jakaudu sattumanvaraisesti

 

·        Muuttujien hylkääminen analyysista

·        Kannattaa harkita, jos muuttujassa suuri määrä puuttuvia havaintoja

·        Ongelma, jos muuttuja tärkeä tutkimusongelman kannalta

 

·        Havaintojen parittainen poistaminen

·        Voidaan käyttää jos analyysi perustuu kovarianssi- tai korrelaatiomatriisille

§         Esim. regressio- tai faktorianalyysi

·        Korrelaatiokertoimet lasketaan vain kaikista niistä havaintoyksiköistä, joista tiedot molemmista muuttujista

·        Parempi vaihtoehto kuin kaikkien puuttuvien havaintojen poistaminen

 

·        Keskiarvojen käyttö

·        Korvataan puuttuvat havainnot muuttujan keskiarvolla

·        Ei pienennä aineiston kokoa

·        Pienentää keinotekoisesti muuttujien välisten yhteyksien vahvuutta (esim. korrelaatio)

 

·        Ryhmäkeskiarvojen käyttö

·        Korvataan puuttuvat havainnot ryhmien keskiarvoilla

§         Esimerkiksi naisvastaajien puuttuvat havainnot korvataan naisvastaajien keskiarvolla

·        Lisää ryhmien samankaltaisuutta

·        Vahvistaa keinotekoisesti muuttujien välisten yhteyksien vahvuutta (esim. korrelaatio)

 

·        Puuttuvien havaintojen koodaaminen

·        Puuttuvat havainnot erotettava selkeästi ”oikeista” muuttujien arvoista

·        Usein käytetään koodeja 0, 9, 99 tai 999

·        Tärkeää määritellä tilasto-ohjelmalle puuttuvien havaintojen koodit