[»Yleistä]
[»Ristiintaulukon muodostaminen]
[»Ristiintaulukon merkitsevyyden
testaaminen]
[»Ristiintaulukon
riippumattomuustesti]
[»Ristiintaulukon elaboraatio]
[»Lisätietoja]
[»Kalvot]
Ristiintaulukoinnilla
tutkitaan muuttujien jakautumista ja niiden välisiä riippuvuuksia. Riippuvuus-
tai riippumattomuustarkastelussa tutkitaan,
onko tarkastelun kohteena olevan selitettävän muuttujan jakauma
erilainen selittävän muuttujan eri luokissa.
Tutkimuskysymyksenä
voi olla esimerkiksi se, eroavatko naiset ja miehet siinä, kuinka hyvänä tai
huonona asiana he pitävät Suomen EU-jäsenyyttä. Ristiintaulukointi kertoo
eroavatko nais- ja miesvastaajien vastausjakaumat toisistaan. Jos vastausskaala
on dikotominen kyllä/ei, lasketaan vaihtoehtojen osuudet sukupuolimuuttujan
kahdessa eri luokassa ja verrataan niiden suuruuksia. Tässä esimerkissä sekä
selittävässä että selitettävässä muuttujassa on vain kaksi luokkaa, mutta
niissä voisi olla myös useampia luokkia. Ristiitaulukoinnissa voidaan käyttää
myös välimatka- tai suhdeasteikolla mitattuja muuttujia, mutta ne on sitä ennen
»uudelleenkoodattava
luokitelluiksi muuttujiksi.
Suraavassa
esimerkissä tutkitaan miesten ja naisten välisiä eroja politiikasta
keskustelemisen aktiivisuudessa. Esimerkkiaineistossa (»aineiston kuvaus) on pyydetty vastausta
seuraavaan kysymykseen: ”Kun olette tekemisissä ystävienne kanssa, niin keskusteletteko heidän kanssaan
poliittisista asioista usein, silloin tällöin, vai ei koskaan?” (kysymys V37).
Ristiintaulukoinnin avulla pystytään vastaamaan siihen, kuinka aktiivisia naiset
ja miehet ovat ja onko aktiivisuus yhtä suuri verrattaessa sukupuolia
toisiinsa.
Taulukon 1
kuudessa solussa on esitetty ristiintaulukoinnin tuottamat vastaajien
lukumäärät.
Taulukko 1.
Aktiivisuus keskustella poliittisista asioista ystävien kanssa sukupuolen
mukaan (absoluuttiset luvut).
|
Mies |
Nainen |
Usein |
43 |
29 |
Silloin tällöin |
323 |
298 |
En koskaan |
108 |
174 |
Taulukko 1
osoittaa, miten vastaajat ovat jakautuneet sarake- (sukupuoli) ja rivimuuttujan (keskustelun aktiivisuus)
eri vaihtoehtoihin. Esimerkiksi 43 miesvastaajaa ilmoitti keskustelevansa
ystäviensä kanssa politiikasta usein. Naisvastaajissa heitä oli 29. Taulukosta on kuitenkin vaikea havaita
suoraan, eroavatko sukupuolet politiikasta keskustelun aktiviteetin suhteen
toisistaan. Luvuthan eivät ole suoraan vertailukelpoisia, koska nais- ja
miesvastaajien määrät otoksessa eroavat toisistaan. Tämän vuoksi on syytä
laskea uuteen ristiintaulukkoon prosenttijakaumat selitettävälle muuttujalle.
Tämä on tehty taulukossa 2.
Taulukko 2. Aktiivisuus keskustella poliittisista
asioita ystävien kanssa sukupuolen mukaan (%)
|
Mies |
Nainen |
Usein |
9 |
6 |
Silloin tällöin |
68 |
60 |
En koskaan |
23 |
35 |
Yhteensä (n) χ2=18,4;
vapausasteita=2; p<0,01 |
100 (474) |
100 (501) |
Ristiintaulukoinnissa
tarkastellaan siis ehdollisia jakaumia. Tämä tarkoittaa sitä, että
mielenkiinnon kohteena olevan selitettävän muuttujan jakaumaa tarkastellaan selittävän
muuttujan eri luokissa. Koska selitettävän muuttujan arvot jakautuvat vain
harvoin tasaisesti selittävän muuttujan luokkiin, on analyysissa selkeyden
vuoksi tarpeellista käyttää suhteellista jakaumaa eli laskea prosenttiosuudet.
Taulukon 2 esimerkki
selventää asiaa. Myös nyt sarakkeilla ovat selittävän muuttujan (sukupuoli)
luokat ja riveillä selitettävän muuttujan luokat. Taulukon prosenttijakaumat
osoittavat selkeästi naisten ja miesten erot keskusteluaktiviteetissa. Naisista
35% ei keskustele koskaan poliittisista asioista ystäviensä kanssa, kun taas
miesten osalta vastaava luku on 23%. Usein poliittisista asioista keskustelee
miehistä 9% ja naisista 6%. Voidaan tehdä johtopäätös, että otoksen perusteella
miehet puhuvat politiikasta ystäviensä kanssa useammin kuin naiset.
Ristiintaulukon
alimmalla prosenttirivillä on laskettu prosenttiosuudet yhteen. Pyöristys voi
joskus aiheuttaa pienen poikkeaman sadasta prosentista, mutta yleensä
yhteenlaskettu prosenttiosuus ilmoitetaan silti tasalukuna (100%).
Yhteenlaskettu prosentti on syytä lisätä taulukkoon, koska se kertoo lukijalle
heti mihin suuntaan taulukon prosenttijakaumat on laskettu. Lisäksi on tapana
ilmoittaa absoluuttiset määrät (n), joiden perustalta prosenttiluvut on
laskettu. Näin lukija pystyy arvioimaan myös tulosten luotettavuutta. Lisäksi
taulukossa 2 on esitetty merkitsevyystestin tulokset. Näiden tulosten tulkinta
ja niiden laskeminen käydään läpi kohta omassa osiossaan. Lisäksi taulukkojen
raportointia ja ulkoasua käsitellä toisaalla tarkemmin (ks. »tulosten raportointi)
Ristiintaulukoitaessa
on tarkkaan mietittävä mihin suuntaan prosenttijakaumat tulee laskea. Tämän
ratkaisee tutkimusongelma. Jos taulukossa 2 prosentit olisikin laskettu
vaakasuoraan, tulokset eivät olisi vastanneet esitettyyn kysymykseen siitä,
eroavatko miehet ja naiset keskusteluaktiviteettinsa suhteen. Prosentit
olisivat kertoneet esimerkiksi kuinka monta prosenttia ”usein” keskustelevan
ryhmän sukupuolirakenteen eli sen, kuinka suuri osuus heistä on miehiä tai naisia.
Jos otoksessa
olisi ollut jostakin syystä huomattavasti enemmän naisia kuin miehiä, olisi
naisten prosenttiosuus ollut luultavasti kaikissa keskusteluaktiviteetin
ryhmissä suurempi kuin miesten prosenttiosuus. Tämä tulos ei kuitenkaan olisi
kertonut mitään siitä, ovatko naiset enemmän tai vähemmän aktiivisia
keskustelemaan politiikasta ystäviensä kanssa kun heitä verrataan miehiin.
Selittävän ja
selitettävän muuttujan sijainnille ristiintaulukoinnissa ei ole olemassa yhtä yleispätevää
sääntöä. Jos ristiintaulukkoon sisältyy selkeä kausaalinen asetelma, on
tavanomaista asettaa selittävä muuttuja taulukon yläreunaan eli sarakkeille ja
selitettävä muuttuja taulukon sivulle eri riveille. Tällöin prosentit lasketaan
sarakkeiden sisällä siten, että yhteenlasketut prosenttiluvut ja lukumäärät
sijoittuvat taulukon alalaitaan. Joskus selittävässä muuttujassa voi kuitenkin
olla niin monta luokkaa, että käytännön syistä ne kannattaa sijoittaa riveille
ja selitettävän muuttujan luokat sarakkeille. Tässä tapauksessa
prosenttijakauma on tietenkin laskettava riveittäin.
Erityistapauksissa
voi olla tarpeellista laskea prosenttiosuudet koko aineistosta, eikä ainoastaan
selittävän muuttujan luokkien sisällä. Tutkija voi esimerkiksi haluta tietää,
kuinka suuri osuus koko aineistossa on tietyn ikäisiä naisia. Tämän tuloksen
hän saa ristiintaulukoimalla iän sukupuolen mukaan ja laskemalla solujen
lukumäärien prosenttiosuudet kaikkien havaintoyksikköjen määrästä.
Kuten »tilastollisen
päättelyn osiossa todetaan, otoksiin perustuvissa tutkimuksissa
mielenkiinnon kohteena on se, voidaanko otoksessa havaittujen erojen pätevän
myös perusjoukossa (eli tässä esimerkissä kaikki täysi-ikäiset suomalaiset).
Taulukon 2 prosenttiluvut osoittavat miesten ja naisten erot otoksessa, mutta
tärkeä kysymys on, voidaanko näistä tuloksista päätellä tarpeeksi varmasti,
että sukupuolten välinen ero säilyy myös tarkasteltaessa koko perusjoukkoa.
Tällaiset kysymykset kuuluvat tilastollisen päättelyn alaan. Ristiintaulukoille
soveltuva tilastollisen merkitsevyyden testausmenetelmä on ns. χ2-testi
(”khii-toiseen testi”; χ-merkki on yksi kreikkalaisista aakkosista).
χ2-testi
on ns. riippumattomuustesti. Sen lähtökohtaisena oletuksena eli
nollahypoteesina on muuttujien välinen riippumattomuus. Esimerkissämme tämä
edellyttää, että miehet ja naiset eivät eroa keskusteluaktiviteetissaan
toisistaan. Toisin sanoen sukupuoli ja politiikasta keskusteleminen olisivat
siis toisistaan riippumattomia muuttujia.
Testin perustana
on havaittujen frekvenssien ja odotettujen frekvenssien erotusten suuruus.
Odotetuilla frekvensseillä tarkoitetaan sitä havaintojen jakaumaa, joka syntyisi,
jos miehet ja naiset keskustelisivat politiikasta yhtä aktiivisesti.
Esimerkiksi taulukossa 2 tämä tarkoittaisi sitä, että miesten ja naisten
kohdalla prosenttiluvut olisivat täysin samat.
χ2-testissä
tarkastellaan sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat
toisistaan. Jos erot ovat tarpeeksi suuria, voidaan todeta, että havaitut erot
eivät todennäköisesti johdu ainoastaan sattumasta, vaan ne ovat löydettävissä
myös perusjoukossa.
Käytännössä
testin tulokset tiivistyvät p-lukuun. Se kertoo virhepäätelmän todennäköisyyden
silloin kun oletetaan, että otoksessa havaitut erot löytyvät myös
perusjoukosta. P:n arvon ollessa alle 0,05 todetaan, että erot ovat
tilastollisesti merkitseviä. Taulukossa 2 χ2-testin tulos on
p<0,01 eli päätelmänä on, että suomalaiset naiset ja miehet eroavat
toisistaan tavoissaan keskustella politiikasta ystäviensä kanssa (miehet
keskustelevat enemmän). Tämä päätelmä voi olla virheellinen, mutta virheen
todennäköisyys on alle yhden prosentin (eli p<0,01). Jos testin osoittama
p:n arvo olisi ollut suurempi kuin 0,05, olisi päätelmä ollut, että miehet ja
naiset eivät eroa tilastollisesti merkitsevästi toisistaan sen suhteen, kuinka
usein he keskustelevat politiikasta ystäviensä kanssa.
χ2-testin
periaatteet ja laskutapa on esitelty tarkemmin »täällä.
Ristiintaulukon
tilastollisen merkitsevyyden testaamisessa kannattaa huomioida, että testaus ei
kerro mitään ristiintaulukon sisältämien erojen sisällöllisestä
merkitsevyydestä. Testi kertoo vain kuinka todennäköistä on, että otoksessa
havaitut erot ovat olemassa myös perusjoukossa. Jos otoskoko on hyvin suuri, on
todennäköistä, että pienikin riippuvuus muuttujien välillä antaa tilastollisesti
merkitsevän χ2-testituloksen. Siksi on tärkeää muistaa, että
tilastollisen merkitsevyyden lisäksi täytyy aina pohtia myös erovaisuuksien
suuruuden sisällöllistä merkitystä. Vastuu johtopäätöksistä on loppujen lopuksi
aina tutkijalla.
Elaboraatiolla tarkoitetaan prosessia, jossa jo löytynyttä kausaalisuhdetta yritetään tarkentaa tuomalla analyysiin mukaan asiaan vaikuttavia lisätekijöitä. Seuraavassa esimerkissä tarkastellaan ristiintaulukoinnin avulla sitä, miten löytynyt yhteys sukupuolen ja keskusteluaktiviteetin välillä muuttuu, jos sitä tarkastellaan eri ikäryhmissä.
Kuten taulukko 2 osoitti, miehillä ja naisilla vaikuttaisi olevan eroavaisuuksia heidän aktiivisuudessaan keskustella poliittisista asioista ystäviensä kanssa. Seuraavassa esimerkissä tarkastellaan, miten näkemys sukupuolien välisestä erosta muuttuu, jos asiaa tarkastellaan eri ikäryhmissä. Tätä varten aineiston ikämuuttuja on luokiteltu kolmeen eri luokkaan (alle 35 vuotta, 35-59 vuotta ja 60 vuotta täyttäneet; ks. »uusien muuttujien luominen). Ristiintaulukointi tehdään nyt kaikille kolmelle ryhmälle erikseen. Tulokset ovat taulukossa 3.
Taulukko 3. Aktiivisuus keskustella poliittisista asioita ystävien kanssa sukupuolen mukaan ikäryhmittäin (%)
|
Alle 35 v. |
35-59 v. |
60 v. täyttäneet |
|||
|
Mies |
Nainen |
Mies |
Nainen |
Mies |
Nainen |
Usein |
4 |
2 |
10 |
8 |
17 |
9 |
Silloin tällöin |
64 |
58 |
71 |
62 |
72 |
59 |
En koskaan |
33 |
40 |
19 |
31 |
11 |
32 |
Yhteensä (n) |
100 (183) |
100 (184) |
100 (194) |
100 (199) |
100 (96) |
100 (118) |
|
χ2=2,8; vapausast.=2; p=0,24 |
χ2=7,8; vapausast.=2; p=0,02 |
χ2=14,4; vapausast.=2; p<0,01 |
Aiemmin havaittu näkemys sukupuolen ja poliittisen keskusteluaktiviteetin välisestä suhteesta tarkentuu, kun sitä tarkastellaan vastaajien ikäryhmän suhteen. Nuorimmat naiset keskustelevat politiikasta ystävien kesken kaikkien vähiten. Lisäksi taulukoiden merkitsevyystestien tulkinta tarkentaa kuvaa sukupuolien välisestä erosta. Alle 35-vuotiaiden osalta χ2-riippumattomuustestin p-arvo on selkeästi 0,05 suurempi. Tämä tarkoittaa, että näiden tulosten nojalla ei voida sanoa, että tässä ikäryhmässä miesten ja naisten keskusteluaktiivisuus politiikasta olisi erilainen. Yleispäätelmänä voisi olla, että nuorimmassa ikäryhmässä naiset keskustelevat politiikasta ystäviensä kanssa yhtä usein kuin miehet, mutta tätä vanhemmissa ikäryhmissä miehet ovat aktiivisempia politiikasta keskustelijoita kuin naiset.
Elaborointia voi suorittaa ristiintaulukoimalla monia muuttujia keskenään. Tällöin tulee kuitenkin kiinnittää huomiota siihen, että tarkasteltavissa osaryhmissä havaintoyksikköjen määrä ei laske niin pieneksi, että se estää pätevien yleistysten tekemisen. Lisäksi kannattaa ottaa huomioon, että monimutkaisista taulukoista tulee hyvin nopeasti hankalasti hahmotettavia. Käytännössä ristiintaulukointi sopii erityisesti kahden tai enintään kolmen yksittäisen muuttujan välisten yhteyksien tarkasteluun. Jos selittäviä muuttujia on useita ja niissä on kaikissa useita luokkia on syytä harkita muiden välineiden, kuten monimuuttujamenetelmien käyttöä. Käyttämässämme esimerkissä voitaisiin harkita ns. »loglineaarisien-mallien käyttöä.
Suomeksi ristiintaulukoista voi lukea lisää esimerkiksi kirjasta
· Alkula, Tapani & Pöntinen, Seppo & Ylöstalo, Pekka (1994): Sosiaalitutkimuksen kvantitatiiviset menetelmät. WSOY, Juva.
Englanninkielellä tietoja ristiintaulukoinnista löytyy lähes jokaisesta yhteiskuntatieteellisestä kvantitatiivisten menetelmien oppaasta. Seuraavassa muutama hyvä esimerkki:
·
Bohrnstedt,
George W. & Knoke, David (1988): Statistics for Social Data Analysis.
F.E. Peacock, Itasca.
·
Moore, David S.
(1995): The Basic Practice of Statistics. W.H. Freeman & co, New
York.
·
De Vaus, D.A.
(1994): Surveys in Social Research. Third edition. UCL Press, Guildford.
Verkosta löytyy lisätietoja ristiintaulukoinnista esimerkiksi Marion Joppen ”The Research Process” –sivustosta valitsemalla sieltä kohdat ”Cross tabulations” ja ”Calculating the chi-square”. Sivuston osoite on:
· http://www.ryerson.ca/~mjoppe/research/index.html
Toinen hyvä verkkolähde on ”Statistics resource center”, josta valitsemalla kohdan ”Cross tabulations” saa lisätietoja ristiintaulukoista. Osoite on:
· http://www.millsaps.edu/www/socio/statsresources.htm
o Ristiintaulukointia käytetään tutkittaessa kahden tai useamman muuttujan jakaumaa ja keskinäistä riippuvuutta
o Tutkitaan, onko tarkastelun kohteena olevan selitettävän muuttujan jakauma erilainen selittävän muuttujan eri luokissa
o Esimerkki: eroavatko miehet ja naiset toisistaan siinä, kuinka usein he keskustelevat politiikasta ystäviensä kanssa
o Taulukko 1
o Absoluuttisen lukumäärät eivät osoita suoraan sukupuolien välisiä eroja
o on laskettava prosenttijakaumat
o Taulukko 2
o Ristiintaulukkoa tehdessä on tärkeää laskea prosenttijakaumat oikeaan suuntaan
o Prosentit lasketaan selittävän muuttujan luokissa
o Viime kädessä tutkimusongelma ratkaisee suunnan
o Ristiintaulukon esittäminen
o Tavanomainen ratkaisu: selittävä muuttuja sarakkeille, selitettävä riveille
o Taulukkoon tulee liittää yhteenlasketut tiedot prosenteista, koska ne helpottavat tulkintaa
o Tapausten lukumäärät (n) ilmoitettava
o Ristiintaulukon merkitsevyyden testaus
o Voidaanko otoksen tulosten perusteella päätellä tarpeeksi luotettavasti, että havaitut erot pätevät myös perusjoukossa?
o Testausmenetelmänä χ2-riippumattomuustesti
o Perustuu havaittujen ja odotettujen frekvenssien erotukselle
o Nollahypoteesi: ei eroja selitettävän muuttujan eri luokissa
o Jos p-arvo on riittävän pieni, voidaan päätellä, että erot ovat tilastollisesti merkitsevät
o Huom.: tilastollinen merkitsevyys eri asia kuin sisällöllisesti tärkeä ero
o Ristiintaulukon elaborointi
o Löydettyä kausaalisuhdetta täsmennetään ja varmennetaan tuomalla analyysiin uusia muuttujia
o Taulukko 3