Kuten aiemmin
todettiin täytyy otokseen perustuvat ristiintaulukot alistaa ns. riippumattomuustestille,
joka kertoo kuinka todennäköistä on, että riippuvuus on syntynyt ainoastaan
otantasattuman vaikutuksesta niin, että muuttujat ovat perusjoukossa toisistaan
riippumattomia. Yleisimmin käytetty testi on ns. Pearsonin χ2-testi, joka perustuu havaittujen
ja odotettujen frekvenssien vertailuun.
Taulukko 1 on jo
aiemmin käytetty esimerkkiristiintaulukko sukupuolen ja poliittisista asioista
keskustelemisen aktiivisuuden suhteesta. Taulukkoon on kuitenkin lisätty
muutamia lukuja, joita tarvitaan χ2-testin laskemiseksi.
Normaalisti näitä tietoja ei tietenkään tarvitse raportoida, koska kaikki
tilasto-ohjelmistot laskevat testin automaattisesti tai ainakin pyydettäessä.
Taulukkoon on ensinnäkin lisätty ”yhteensä” sarake sen oikeaan laitaan. Näitä
lukuja tarvitaan odotettujen frekvenssien laskemiseen. Luvut osoittavat, että
72 vastaajaa ilmoitti keskustelevansa usein politiikasta ystäviensä kanssa, 621
silloin tällöin jne.
Taulukko 1.
Aktiivisuus keskustella poliittisista asioita ystävien kanssa sukupuolen mukaan
(havaitut frekvenssit, odotetut frekvenssit ja prosenttijakauma).
|
Mies |
Nainen |
Yhteensä |
Usein |
43 35,0 9 % |
29 37,0 6 % |
72 |
Silloin tällöin |
323 301,9 68 % |
298 319,1 60 % |
621 |
En koskaan |
108 137,1 23 % |
174 144,9 35 % |
282 |
Yhteensä n |
100 % 474 |
100 % 501 |
975 |
Jokaiseen
ristiintaulukon soluun on myös lisätty prosenttiluvun yläpuolelle kaksi lukua.
Ensimmäinen näistä on havaittu solufrekvenssi (observed frequency).
Esimerkiksi 43 naista ja 29 miestä vastasi keskustelevansa usein ystäviensä
kanssa politiikasta. Tämän luvun alla on solun odotettu frekvenssi (expected
frequency), eli luku, joka osoittaa kuinka monta vastaajaa solussa
todennäköisesti olisi, jos miehet ja naiset eivät eroaisi toisistaan
keskustelutapojensa suhteen. Jos keskusteluaktiivisuus todellakin olisi täysin
riippumaton sukupuolesta olisi todennäköisintä, että silloin 35,0 miestä ja
37,0 naista vastaisivat keskustelevansa politiikasta usein. Syy sille, että naisten
odotettu frekvenssi on hiukan miesten vastaavaa suurempi, johtuu siitä, että
otoksessa on hiukan enemmän naisia kuin miehiä.
Odotetut
frekvenssit voidaan laskea seuraavasta kaavasta:
jossa
= i:nnen rivin ja j:nnen sarakkeen odotettu
(Expected) frekvenssi
= i:nnen rivin reunajakauma (eli rivin
valinneiden vastaajien kokonaissumma)
= j:nnen sarakkeen reunajakauma
(eli sarakkeen valinneiden vastaajien kokonaissumma)
N = Havaintojen määrä taulukossa
Esimerkiksi ”En
koskaan” vastaavien miesten odotettu frekvenssi saadaan laskemalla
(282*474)/975=137,1. Vastaava luku naisten osalta on 144,9 (=(282*501)/975).
Kuten jo aiemmin
todettiin, χ2-testi perustuu havaittujen ja odotettujen
frekvenssien eroille. Käytännössä testissä lasketaan ns. χ2-luku,
joka kuvastaa sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat
toisistaan. Kun χ2-luku on suuri, eroavat nämä frekvenssit
paljon toisistaan ja kun se on pieni, ovat erot havaittujen ja odotettujen
frekvenssien välillä pienet. χ2-luku laskentaan seuraavan
kaavan avulla:
= i:nnen rivin ja j:nnen sarakkeen odotettu
frekvenssi
= i:nnen rivin ja
j:nnen sarakkeen havaittu frekvenssi
R = Rivien määrä
C= Sarakkeiden määrä.
Käytännössä em.
kaava tarkoittaa sitä, että jokainen ristiintaulukon solu käydään läpi ja
jokaisessa niissä lasketaan ensin odotetun ja havaitun frekvenssin erotus, joka
sen jälkeen korotetaan neliöön. Tämän jälkeen saatu tulos jaetaan odotetun
frekvenssin arvolla. Lopuksi nämä solukohtaiset arvot lasketaan kaikki yhteen
ja lopputuloksena on koko ristiintaulukon χ2-luku.
Esimerkiksi yllä
olevan taulukon χ2-luku saadaan kaavasta
(43-35,0)2/35,0+(29-37,0)2/37,0+(323-301,9)2/301,9+(298-319,1)2/319,1+(108-137,1)2/137,1+(174-144,9)2/144,9=18,4
Lopuksi
tarvittava p:n arvo saadaan χ2-jakaumasta, joka löytyy taulukkona
esimerkiksi useimpien metodioppaiden liitteenä. Käytännössä tietenkin
tilasto-ohjelmistot antavat tarvittavan p-arvon suoraan. Oikean p-arvon
saamiseen tarvitaan vielä vapausasteiden määrä. Ristiintaulukossa
vapausasteiden määrä saadaan kaavasta (rivien määrä-1)*(sarakkeiden määrä-1).
Koska esimerkkitaulukossa rivejä on kolme ja sarakkeita on kaksi, on
vapausasteiden määrä 2*1 eli 2. Näiden tietojen avulla oikea p-arvo voidaan
hakea taulukoista. Tässä tapauksessa se on selvästi pienempi kuin 0,01 eli χ2-testin
tulos on tilastollisesti erittäin merkitsevä ja näin ollen nollahypoteesi (eli
olettamus siitä, että otoksessa havaittu miesten ja naisten ero johtuu
pelkästään sattumasta) voidaan hylätä. Miehet todellakin keskustelevat
ystäviensä kanssa politiikasta enemmän kuin naiset.