Kimmo Vehkalahti, tilastotieteilijä / datataiteilija

Lectio praecursoria

eli väittelijän johdatus aiheeseen väitöstilaisuuden alussa

(Kuva: lisensiaatti puhuu, muut kuuntelevat)
Paikka: Helsingin yliopiston pieni juhlasali
Aika: 25.11.2000 klo 10

Mittaaminen ja sen laadun arviointi
Historialliset lähtökohdat
Cronbachin alfa
Mittaamisen mallintaminen
Tutkimuksen tavoitteet

1. Mittaaminen ja sen laadun arviointi

Mittaaminen on tieteen keskeisiä käsitteitä. Tutkimustulosten ja johtopäätösten kannalta mittauksen laadun merkitys on kiistaton. Ensisijainen kriteeri on validiteetti, joka kertoo mitataanko sitä mitä pitikin mitata. Jos mittaus ei ole validia, ei sen muilla ominaisuuksilla ole merkitystä.

Toinen mittauksen laatukriteeri on tarkkuus, johon tulee kiinnittää huomiota, mitataan sitten mittalaitteilla tai kyselylomakkeilla. Epätarkat mittaukset tulevat kalliiksi, sillä mittaustilanne on ainutkertainen, eikä siinä tehtyjä virheitä voida korjata jälkikäteen. Mittauksen tarkkuutta arvioidaan reliabiliteetin avulla. Yleensä reliabiliteettitarkastelut liitetään käyttäytymis- ja yhteiskuntatieteisiin, mutta mittaamisen ongelmat ovat yhteisiä kaikille tieteenaloille.

Määritelmänsä mukaan reliabiliteetti tarkoittaa todellisen vaihtelun osuutta mittauksen kokonaisvaihtelusta. Jäljelle jäävä osuus koostuu satunnaisista mittausvirheistä. Niiden spesifioimiseksi tarvitaan mittausmalli, jolla teoreettisesti kuvataan mittausasetelman rakenne. Toinen keskeinen käsite on mitta-asteikko, jolla tarkoitetaan mitattujen muuttujien yhdistelmiä ja joka edustaa teoreettisten käsitysten reaalisaatiota. Käytännössä arvioidaan juuri erilaisten mitta-asteikkojen reliabiliteetteja, jolloin saadaan selville mittauksen keskivirhe sekä mittarin erottelukyky.

Tilastollisessa tutkimuksessa on otettava kantaa myös otannasta johtuvaan virheeseen, sikäli kun kyseessä on otos. Monissa tilastollisissa malleissa oletetaan virheiden johtuvan yksinomaan otannasta, ja mittausvirheet samastetaan otantavirheisiin. Tällä ei ole merkitystä, mikäli oletetaan että mittausvirheet ovat vähäisiä. Oletuksen pitävyyttä on kuitenkin vaikea testata. Aina ei ole edes kyseessä otos, jolloin on väärin puhua otantavirheistä.

2. Historialliset lähtökohdat

Kysymys otantavirheistä ja mittausvirheistä juontaa juurensa 1900-luvun alkuun, jolloin tilastolliset menetelmät olivat vielä vähissä. Karl Pearson oli Bravais'n ja Galtonin esityöstä 1800-luvulla esittänyt menetelmän tulomomenttikorrelaation laskemiseksi. Lisäksi Pearson uurasti otantateorian alueella sekä mm. julkaisi vuonna 1901 artikkelin, joka loi perustan pääkomponenttianalyysille. Pearson oli jo omana aikanaan arvostettu tilastotieteilijä.

Toinen brittiläinen, psykologi Charles Spearman, pohti samoihin aikoihin ihmisen älykkyyden mittaamista. Tutkimukset johtivat faktorianalyysin syntyyn vuonna 1904. Useimmat muut monimuuttujamenetelmät luotiin vasta vuosikymmeniä myöhemmin. Spearman havaitsi, että satunnainen mittausvirhe alentaa mittausten välistä korrelaatiota. Tämä sai hänet laatimaan erityisen korjauskaavan sekä menetelmän reliabiliteetin arviointiin. Spearmanin työ loi pohjan psykometriikan menetelmäkehitykselle.

Spearmanille mittausvirheen ja otantavirheen ero oli selvä. Sen sijaan Pearson samasti mittausvirheet otantavirheisiin. Näiden kahden tiedemiehen värikäs argumentointi jatkui tieteellisten lehtien sivuilla vuosikausia. Yhteisymmärrystä he eivät saavuttaneet.

3. Cronbachin alfa

Sata vuotta sitten laskentamahdollisuudet olivat alkeellisia. Keskiarvot, hajonnat ja korrelaatiot piti laskea käsin, mikä vei todella paljon aikaa. Jotta laskut ylipäätään saatiin suoritettua, jouduttiin tekemään yksinkertaistuksia.

Reliabiliteettilaskelmissa Spearmanin metodien rinnalle nousi 1930-luvun lopulla kokoelma kaavoja, joista erityisesti yhden suosio kohosi yli muiden. Tästä, kehittäjiensä Kuderin ja Richardsonin mukaan nimetystä kaavasta nro 20 tuli pian psykometriikan keskeinen tutkimuskohde. Kaavaa alettiin myös soveltaa laajalti. Toisen maailmansodan aikana tehtiin valtavat määrät psykologisia testejä, joissa tarvittiin nopeita ja yksinkertaisia menetelmiä. Laskeminen oli edelleen työlästä, vaikka tieteellisissä julkaisuissa esiteltiinkin jo IBM-taulukointikoneen suomia keinoja. Tietokoneiden aika oli kuitenkin vasta edessäpäin.

Sodan jälkeen amerikkalainen psykologi Lee Cronbach antoi suosituksi tulleelle kaavalle lyhyemmän nimen alfa. Sen jälkeen tuo 30-luvun konsti onkin tunnettu Cronbachin alfana. Vastaavasta artikkelista on tullut mitä ilmeisimmin kaikkien aikojen eniten siteerattu lähde psykometriikan kirjallisuudessa.

Cronbach ei ollut halukas kyseenalaistamaan aiemmin tehtyjä yksinkertaistavia oletuksia. Sen sijaan huomio kääntyi alfan kulloinkin saamien arvojen tulkintaan. Vähitellen ajateltiin tämän yhden kaavan riittävän tilanteessa kuin tilanteessa. Kritiikkiäkin on esitetty, mutta se ei ole estänyt alfan käytön yleistymistä.

Cronbachin alfan taustalla olevat oletukset ovat ristiriidassa todellisuuden kanssa. Tyypillinen osoitus siitä on, että alfa voi saada negatiivisia arvoja (jotka ovat tietenkin järjettömiä, koska määritelmän mukaan reliabiliteetti vaihtelee nollan ja ykkösen välillä). Outoja alfan arvoja ihmetellään toistuvasti mm. tilastotieteen internet-uutisryhmissä.

Ristiriidat aiheuttaa liian ahtaasti määritelty mittausasetelma, jossa mitataan yhtä faktoria usealla keskenään yhtä hyvällä indikaattorilla. Tämä vastaa Spearmanin alkuperäistä faktorimallia tai niin sanottua klassista tosiarvomallia. Mitä enemmän indikaattorit korreloivat keskenään, sitä korkeampi on niistä lasketun summamuuttujan alfa-arvo. Alfa kuvaa siis summa-asteikon sisäistä yhtenäisyyttä yksiulotteisessa mittaustilanteessa.

Todellisuudessa mitattavat asiat vain harvoin ovat yksiulotteisia, ja vaikka olisivatkin niin on vaikeaa löytää niille tasaveroisia indikaattoreita. Käytännössä tämä on johtanut mm. siihen, että eräät tilasto-ohjelmat tulostavat muuttujakohtaisia arvioita sille, mitä Cronbachin alfa olisi, jos muuttuja poistettaisiin. Toisin sanoen vaivoin kerättyä tietoa heitetään menemään paremman reliabiliteetin toivossa, mutta samalla saattaa kadota validiteetti.

4. Mittaamisen mallintaminen

1980-luvun alussa psykologit David Weiss ja Mark Davison totesivatkin että reliabiliteetin arvioinnin todellinen tarkoitus oli jossakin vaiheessa kadonnut. Ongelma on siis tiedostettu myös psykometriikan puolella. Eräitä vaihtoehtoisia ehdotuksiakin on esitetty, mutta vasta Lauri Tarkkosen väitöskirjatyö vuodelta 1987 ratkaisee ongelman riittävän yleisesti todellisissa, moniulotteisissa mittaustilanteissa.

Ratkaisun avain on yleinen mittaamisen mallintamisen viitekehikko. Erikoistapauksinaan se sisältää valtaosan psykometriikan historiassa esitetyistä mittausmalleista, asteikoista ja reliabiliteettimitoista, mm. klassisen tosiarvomallin ja Cronbachin alfan. Kehikon ytimenä toimii mittausmalli, joka on tavallisen faktorimallin yleistys. Reliabiliteetin määritelmään perustuva reliabiliteettimitta antaa mahdollisuuden arvioida sekä mittausmallin rakennevaliditeettia että etenkin mielivaltaisten lineaaristen mitta-asteikkojen reliabiliteettia.

5. Tutkimuksen tavoitteet

Väitöskirjatyössäni olen vertaillut Cronbachin alfan ja Tarkkosen reliabiliteettimitan ominaisuuksia teoreettisin tarkasteluin ja empiiristen esimerkkien avulla. Laajan osan työstäni muodostavat Survo-ohjelmistolla toteuttamani Monte Carlo -simulointikokeet ja niiden analysointi.

Johtopäätökseni on, että Cronbachin alfan käytöstä tulisi luopua, koska Tarkkosen mitta on selvästi parempi vaihtoehto kaikissa sovellustilanteissa.

Etusivu | Opetus | Tutkimus | Uralla | Yhteys