[Yleistä]
[Yksisuuntainen varianssianalyysi]
[Esimerkki yksisuuntaisesta
varianssianalyysista]
[Varianssianalyysin laajennukset]
[Kaksisuuntainen varianssianalyysi]
[Monen muuttujan varianssianalyysi]
[Kalvot]
Varianssianalyysia
(analysis of variance tai ANOVA) käytetään tutkittaessa eroavatko
kahden tai useamman ryhmän keskiarvot tilastollisesti merkitsevästi toisistaan.
Varianssianalyysilla voidaan esimerkiksi tutkia eroavatko naisten ja miesten
keskipalkat toisistaan jossakin yrityksessä tai ovatko eri maahanmuuttajaryhmiin
kuuluvien koululaisten todistusten arvosanat keskiarvoiltaan toisistaan
poikkeavia. Varianssianalyysia on perinteisesti pidetty kokeellisen analyysin
perusmenetelmänä ja sen käyttö onkin ollut yleistä esimerkiksi lääketieteessä.
Sillä on kuitenkin useita sovellusmahdollisuuksia myös yhteiskuntatieteiden
aloilla.
Varianssianalyysin
käyttöön liittyy useita laajennusmahdollisuuksia. Tässä yhteydessä keskitytään
ns. yksisuuntaiseen varianssianalyysiin, joka on vaihtoehdoista yksinkertaisin.
Lopussa esitellään lyhyesti myös kaksisuuntainen varianssianalyysi,
kovarianssianalyysi ja monen muuttujan varianssianalyysi (MANOVA).
Yksisuuntainen
varianssianalyysi (one-way analysis
of variance) on varianssianalyysin muodoista yksinkertaisin. Koska
varianssianalyysissa tarkastellaan selitettävien muuttujien on
ryhmäkeskiarvoja, täytyy selitettävän muuttujan olla sellainen, että siitä on
järkevää laskea aritmeettinen keskiarvo (eli käytännössä välimatka- tai
suhdelukuasteikon muuttuja, ks. »muuttujien mittaustaso ja »keskiluvut). Yksisuuntaisessa
varianssianalyysissa on vain yksi selittävä muuttuja. Koska tämä muuttuja kuvaa
havaintoyksikköjen jakautumista luokkiin, on sen mittaustaso oltava joko
luokittelu- tai järjestysasteikko.
Varianssianalyysin
avulla tutkitaan sitä, ovatko selitettävän muuttujan keskiarvot tilastollisesti
merkitsevästi erisuuruisia selittävän muuttujan eri luokissa. Analyysin
lähtöoletuksena eli nollahypoteesina (ks. »hypoteesien testaus) on, että kiinnostuksen
kohteena olevien luokkien keskiarvot ovat yhtä suuret. Jos varianssianalyysin
tuloksena nollahypoteesi voidaan hylätä, selitettävän muuttujan keskiarvojen
välillä on eroja selittävän muuttujan eri luokissa.
Käytännössä
varianssianalyysi perustuu siihen, että selitettävän muuttujan varianssi (ks. »hajontaluvut) jaetaan
kahteen osaan. Näistä ensimmäinen mittaa luokkien sisäistä hajontaa ja toinen
luokkakeskiarvojen välistä hajontaa. Jos nämä kaksi varianssia eivät eroa
kovinkaan paljon toisistaan, on todennäköistä, että eri luokkien saamat
keskiarvot ovat peräisin samankaltaisesta jakaumasta. Tällöin niiden välillä ei
ole tilastollisesti merkitsevää eroa. Jos taas nämä kaksi varianssia eroavat
toisistaan tarpeeksi nollahypoteesi voidaan hylätä. Tilastollisena testinä
varianssianalyysissa käytetään ns. F-testiä, joka kertoo millä
todennäköisyydellä nollahypoteesi ryhmäkeskiarvojen yhtäläisyydestä voidaan
hylätä.
Seuraavassa
esimerkissä tutkitaan suomalaisten suhtautumista tuloerojen pienentämiseen tai
niiden kasvattamiseen. Aineistona käytetään vuoden 1996 World Values Survey
–tutkimuksen Suomen osa-aineistoa (ks. »aineistonkuvaus). Kyselyssä pyydettiin vastaajia
kertomaan mielipiteensä jatkumolla 1-10, jossa pienet arvot kuvastivat
vastaajan halua tasata tuloeroja pienemmäksi ja suuret arvot vastaajan halua
lisätä tuloeroja (kysymys V125). Asteikon ääripäitä kuvaavat tekstit olivat
”tulotaso pitäisi maassamme saada tasaisemmaksi” ja ”tarvitsemme suurempia
tuloeroja palkitaksemme enemmän kansalaisten yritteliäisyyttä”. Skaalan
keskimmäiset vaihtoehdot olivat 5 ja 6, jolloin kaikkien vastaajien keskiarvo
4,16 oli tuloerojen voimakkaampaa tasaamista kannattavalla puolella.
Selittävänä muuttujana
esimerkissä on vastaajien subjektiivinen luokka-asema eli tarkemmin ilmaistuna
heidän oma näkemyksensä siitä, mihin yhteiskuntaluokkaan he kuuluvat (V226).
Kysymyksessä annettiin vaihtoehdoksi viisi erilaista yhteiskuntaluokkaa:
”yläluokka”, ”ylempi keskiluokka”, ”alempi keskiluokka”, ”ylempi työväenluokka”
ja ”alempi työväenluokka”. Koska vastaajista vain neljä määritteli itsensä
yläluokkaan kuuluvaksi, on seuraavassa analyysissa vaihtoehdot ”yläluokka” ja
”ylempi keskiluokka” yhdistetty (ks. »muuttujien uudelleenkoodaus).
Varianssianalyysin
tulokset on esitetty taulukossa 1. Taulukon yläosa kuvaa tuloeromuuttujan
keskiarvoja selittävän muuttujan luokissa. Itsensä yläluokkaan tai ylempään
keskiluokkaan kuuluvaksi määrittelevät vastaajat suhtautuvat tuloerojen
kasvattamiseen suopeimmin (keskiarvo 5,33). Eniten tuloerojen pienentämisen
kannalla ovat alempaan työväenluokkaan kuuluvat vastaajat (keskiarvo 3,26).
Vastaajan
yhteiskuntaluokka |
Suhtautuminen tuloeroihin (ryhmäkeskiarvo) |
Yläluokka tai
ylempi keskiluokka |
5,33 |
Alempi
keskiluokka |
4,19 |
Ylempi
työväenluokka |
3,96 |
Alempi
työväenluokka |
3,26 |
|
|
F-testi |
122,6 |
p-arvo |
p<0,001 |
eta2 |
0,08 |
Taulukko 1. Eri
yhteiskuntaluokkiin itsensä sijoittaneiden vastaajien suhtautuminen
tuloeroihin. Varianssianalyysin tulokset.
Taulukon alaosan
F-testiluku ja siihen liittyvä p-arvo kuvaavat ryhmien välisten erojen
tilastollista merkitsevyyttä. Koska p-arvo on selvästi pienempi kuin yleisesti
raja-arvona pidetty 0,05, voidaan nollahypoteesi ryhmäkeskiarvojen
samansuuruisuudesta hylätä. Toisin sanoen eri yhteiskuntaluokkiin
subjektiivisesti kuuluvien välillä on eroja suhtautumisessa tuloeroihin.
Korkeimpiin yhteiskuntaluokkiin itsensä sijoittavat suomalaiset ovat valmiimpia
hyväksymään suuret tuloerot ja yritteliäisyyden palkitsemisen kuin alempiin
yhteiskuntaluokkiin kuuluvat.
Taulukon 1
alalaidassa esitetty ns. etan neliö kuvaa sitä, kuinka paljon selitettävän
muuttuja vaihtelusta pystytään selittämään selittävän muuttujan avulla. Eta2
on tunnuslukuna verrattavissa »regressioanalyysin yhteydessä käytettävään R2
-lukuun. Se voi saada arvoja nollan ja yhden väliltä ja suuret arvot kuvastavat
selittävän muuttujan parempaan selitysvoimaa. Taulukon 1 esimerkissä eta2
–luku saa arvon 0,08, joka on suhteellisen pieni luku. Luku voidaan tulkita
niin, että yhteiskuntaluokkiin sijoittumista kuvaavan muuttujan avulla voidaan
selittää 8% vastaajien suhtautumisen vaihtelusta tuloerojen kasvattamiseen tai
niiden pienentämiseen. Selitysosuus ja muut tulokset ovat tietenkin sidoksissa
aineistoon ja siinä käytettyihin operationalisointeihin.
Yksisuuntainen varianssianalyysi
sisältää vain yhden selittävän muuttujan. Menetelmää voidaan kuitenkin
laajentaa kattamaan myös useampia luokittelu- tai järjestysasteikon selittäviä
muuttujia. Kaksisuuntaisessa varianssianalyysissa (two-way analysis of
variance) selittäviä muuttujia on kaksi. Tällöin voidaan tutkia sitä,
vaikuttavatko molemmat selittävät muuttujat selitettävän muuttujan arvoihin
yksittäin sekä onko niillä yhteisvaikutusta (eli interaktiovaikutusta).
Kaksisuuntaisessa
varianssianalyysissa voisi esimerkkitutkimusongelmana olla, vaikuttaako
sukupuoli ja koulutus keskimääräiseen palkkatasoon tutkimuksen
kohdeyrityksessä. Tulokset kertovat, onko näillä kahdella selittävällä
muuttujalla tilastollisesti merkitsevää vaikutusta palkkatasoon sekä sen, onko
sukupuolella ja koulutuksella yhteisvaikutusta. Tässä esimerkissä
yhteisvaikutus voi tarkoittaa esimerkiksi sitä, että yliopistotutkinnon
suorittaneiden naisten keskimääräinen palkkataso on selvästi huonompi kuin
saman koulutustason miesten keskipalkka, mutta muissa koulutusluokissa
tällaista sukupuolten välistä eroa ei ole.
Periaatteessa
varianssianalyysissa voidaan käyttää useampaakin kuin kahta selittävää
muuttujaa. Silloin mahdollisten yhteisvaikutusten määrä kuitenkin kasvaa
suureksi, mikä tekee tulkinnan monimutkaisemmaksi.
Samoin kuin
kaksiulotteisessa varianssianalyysissa myös kovarianssianalyysissa (covariance
analysis) lisätään varianssianalyysiin yksi tai useampia selittäviä
muuttujia. Erona on kuitenkin se, että kovarianssianalyysissa lisättävä
muuttuja on mittaustasoltaan välimatka- tai suhdeasteikollinen.
Varianssianalyysin yhteydessä tällaista muuttujaa kutsutaan kovariaatiksi.
Oletetaan
edellisen esimerkin tapaan, että tutkija on kiinnostunut sukupuolten välisistä
palkkaeroista tutkimuksen kohteena olevassa yrityksessä. Hän kuitenkin epäilee,
että sukupuolen lisäksi työntekijöiden ikäerot voivat vaikuttaa keskimääräiseen
palkkatasoon. Ikämuuttujan vaikutus voidaan ottaa varianssianalyysissa huomioon
lisäämällä se kovariaattina analyysiin. Saadut tulokset osoittavat, vaikuttaako
sukupuoli tilastollisesti merkitsevästi keskimääräiseen palkkatasoon silloin,
kun miesten ja naisten keski-iän erot on otettu huomioon.
Kovarianssianalyysi
lähenee menetelmänä »regressioanalyysia,
jossa luokittelumuuttujat voidaan sisällyttää analyysiin ns. »dummy-muuttujien
avulla. Erona on, että
kovarianssianalyysissa (ja varianssianalyysissa yleensäkin) otetaan
automaattisesti huomioon selittävien muuttujien interaktiovaikutukset, kun taas
regressioanalyysissa tutkija voi erikseen lisätä analyysiin ns.
interaktiomuuttujat, jotta muuttujien mahdollinen yhteisvaikutus tulisi esille.
Monen muuttujan
varianssianalyysi eli MANOVA (multivariate analysis of variance) eroaa
edellisistä varianssianalyysin laajennuksista siinä, että MANOVAssa on useita
selitettäviä muuttujia. MANOVAA voidaan käyttää tilanteissa, joissa
selitettävät muuttujat ovat teoreettisesti ja empiirisesti toisiinsa
sidoksissa. Esimerkiksi työilmapiiritutkimuksissa voitaisiin kyselyn avulla
muodostaa useita toisiinsa liittyviä työpaikan ilmapiiriä kuvaavia »summamuuttujia ja tutkia
eroja näissä muuttujissa yhtäaikaisesti.
Yleisesti voidaan
todeta, että MANOVA on melko monimutkainen menetelmä ja ehkä siksi sen
sovellukset yhteiskuntatieteissä ovat jääneet verraten harvinaisiksi.
Suomeksi
varianssianalyysin perusteista voi lukea lisää esimerkiksi seuraavista
teoksista:
Laajemmin
varianssi- ja kovarianssianalyysiin sekä MANOVAan voi tutustua esimerkiksi
seuraavien kirjojen avulla:
Verkosta löytyy
suhteellisen paljon varianssianalyysia ja sen laajennuksia käsittelevää
materiaalia. Varianssianalyysin perusteita käsitellään mm. seuraavilla
sivuilla:
Kovarianssianalyysista
lisätietoa löytyy seuraavilta sivuilta:
Erityisesti
MANOVAa käsitteleviä sivustoja ovat:
o
Varianssianalyysia
käytetään tutkittaessa eroavatko kahden tai useamman ryhmän keskiarvot
toisistaan
o
Esimerkiksi:
o onko miesten ja naisten keskipalkoissa
eroja tutkittavassa yrityksessä?
o ovatko eri maahanmuuttajaryhmiin kuuluvien
koululaisten arvosanat keskiarvoiltaa toisistaan poikkeavia?
o
Yksisuuntainen
varianssianalyysi
o Yksisuuntaisessa varianssianalyysissa vain
yksi selitettävä ja yksi selittävä muuttuja
o Selitettävä muuttuja välimatka- tai
suhdelukuasteikon muuttuja
o Selittävä muuttuja luokittelu- tai
järjestysasteikon muuttuja
o
Yksisuuntainen
varianssianalyysi
o Nollahypoteesi: ryhmäkeskiarvot eivät eroa
tilastollisesti merkitsevästi toisistaan
o Tilastollisena testinä käytetään F-testiä
o Testitulos osoittaa, millä
todennäköisyydellä nollahypoteesi voidaan hylätä
o
Esimerkki
yksisuuntaisesta varianssianalyysista
o Vaikuttaako vastaajien subjektiivinen
luokka-asema heidän mielipiteisiinsä tulojen tasauksen tarpeellisuudesta?
o Taulukko 1
o
Varianssianalyysin
laajennukset
o Kaksisuuntainen varianssianalyysi
§
Kaksi
selittävää muuttujaa
§
Vaikuttavatko
molemmat muuttujat selitettävään muuttujaan ja on niillä yhteisvaikutusta?
o
Varianssianalyysin
laajennukset
o Kovarianssianalyysi
§
Lisätään
analyysiin yksi tai useampia mitta-asteikoltaan välimatka- tai suhdeasteikon
selittäviä muuttujia eli kovariaatteja
§
Ovatko
selitettävän muuttujan ryhmäkeskiarvot erisuuruiset silloin, kun ne on vakioitu
kovariaatin (esim. ikä) suhteen?
o
Varianssianalyysin
laajennukset
o MANOVA
§
Useita
selitettäviä muuttujia, jotka teoreettisesti ja/tai empiirisesti toisiinsa
sidoksissa
§
MANOVA on
monimutkainen menetelmä ja verraten harvoin käytetty yhteiskuntatieteissä