[»Yleistä]
[»Vaihteluväli]
[»Keskihajonta]
[»Lisätietoja]
[»Kalvot]
»Keskilukujen lisäksi hajontaluvut ovat erittäin
yleisiä muuttujan jakaumaa kuvaavia mittalukuja. Hajontaluvut kertovat, kuinka
muuttujan arvot vaihtelevat käytetyn keskiluvun ”ympärillä”. Kahdella
muuttujalla voi olla sama keskiluku (esimerkiksi keskiarvo), mutta niiden
hajonta voi olla täysin erilainen. Siksi muuttujan jakaumaa kuvatessa on tapana
esittää sekä sopiva keskiluku että hajontaluku.
Samoin kuin
keskiluvuissa muuttujan »mittaustaso
vaikuttaa soveltuvan hajontaluvun valintaan. Taulukossa 1 on esitetty, mitkä
hajontaluvut sopivat millekin muuttujan mittaustasolle.
Taulukko 1.
Sopivan hajontaluvun valinta muuttujan mittaustason mukaan (X = voi käyttää, - = ei voi käyttää).
|
|
Muuttujan mittaustaso |
|||
|
|
Luokitteluasteikko |
Järjestysasteikko |
Välimatka-asteikko |
Suhdeasteikko |
|
Variaatiosuhde |
X |
X |
X |
X |
Hajontaluku |
Vaihteluväli |
- |
X |
X |
X |
Vaihteluvälin pituus |
- |
- |
X |
X |
|
Keskihajonta |
- |
- |
X |
X |
|
Variaatiokerroin |
- |
- |
X |
X |
Taulukossa 2 on esitetty
kuvitteellinen aineisto, jota käytetään erilaisten hajontalukujen
esittelemiseksi. Siinä on kolme eri mittaustason muuttujaa.
Taulukko 2.
Kuvitteellinen aineisto työpaikan kymmenestä työntekijästä.
Työntekijän
havaintonumero |
Sukupuoli |
Koulutus |
Lapsien määrä |
Työntekijä 1 |
Mies |
Peruskoulu |
0 |
Työntekijä 2 |
Nainen |
Keskiaste |
4 |
Työntekijä 3 |
Nainen |
Keskiaste |
1 |
Työntekijä 4 |
Mies |
Korkeakoulu |
1 |
Työntekijä 5 |
Nainen |
Keskiaste |
2 |
Työntekijä 6 |
Nainen |
Korkeakoulu |
1 |
Työntekijä 7 |
Nainen |
Korkeakoulu |
1 |
Työntekijä 8 |
Mies |
Peruskoulu |
0 |
Työntekijä 9 |
Mies |
Korkeakoulu |
0 |
Työntekijä 10 |
Nainen |
Keskiaste |
2 |
Variaatiosuhde (variation
ratio) on hajontaluku, jota voidaan käyttää luokitteluasteikollisen
muuttujan yhteydessä. Se on helppo laskea ja ymmärtää. Variaatiosuhde kertoo,
kuinka suuri osuus havainnoista on muuttujan »moodiluokassa. Variaatiosuhde (v) lasketaan
kaavasta:
v=1-(havaintojen
määrä moodiluokassa / havaintojen määrä)
Variaatiosuhde
vaihtelee nollan ja yhden välillä. Se saa arvon nolla, jos kaikki muuttujan
arvot ovat moodiluokassa. Tässä tapauksessa muuttujan arvot eivät tietenkään
vaihtele ollenkaan, joten on luontevaa, että hajontaluku saa arvon nolla. Mitä
lähempänä yhtä variaatiosuhde on, sitä enemmän aineistossa on hajontaa.
Taulukon 2
aineistossa lapsiluvun yleisin arvon on yksi (eli se on muuttujan moodiluokka)
ja aineistossa on neljä työntekijää, joilla on yksi lapsi perheessään. Näin
aineiston variaatiosuhde on 1-(4/10)=0,6.
Sukupuolimuuttujan
yleisin arvo on ’nainen’, joita on aineistossa kuusi. Näin variaatiosuhde on
tämän muuttujan osalta 1-(6/10)=0,4.
Koulutusmuuttujan
osalta aineistossa on kaksi moodia (’keskiaste’ ja ’korkeakoulu’).
Variaatiosuhde lasketaan siitä muuttujan luokasta, jossa on eniten havaintoja.
Koska tässä tapauksessa on kaksi tällaista luokkaa, ei ole väliä kummasta
variaatiosuhde lasketaan. Se on koulutuksen osalta 1-(4/10)=0,6.
Variaatiosuhdetta
käytetään yleensä vain luokitteluasteikollisten muuttujien yhteydessä.
Muuttujan ollessa välimatka- tai suhdeasteikollinen sen käyttö ei useimmiten
ole järkevää, vaan on luonnollista valita jokin hajontaluku, joka sopii
paremmin tähän tarkoitukseen. Välimatka- tai suhdeasteikon muuttuja voi saada
suuren määrän erilaisia arvoja jollain tietyllä välillä. Tällaisessa
tapauksessa variaatiosuhteen käyttäminen hajontalukuna ei ole mielekästä, koska
on epätodennäköistä, että moodiluokassa olisi kovinkaan monta havaintoa. Jos
tutkitaan esimerkiksi nettopalkkoja jollain tietyllä teollisuuden alalla, on
epätodennäköistä, että löytyisi suuri ryhmä työntekijöitä, joilla on täsmälleen
sama palkka.
Vaihteluväli (range)
on järjestys-, välimatka- ja suhdeasteikon muuttujille sopiva hajontaluku. Se
ilmoittaa yksinkertaisesti pienimmän ja suurimman muuttujan arvon välin.
Määritelmän mukaan vaihteluväli on W=[x1, xn] silloin kun
havaintojen arvon on sijoitettu suuruusjärjestykseen aloittaen pienimmästä
muuttujan arvosta. x1 viittaa edellisessä kaavassa aineiston
pienimpään arvoon ja xn sen suurimpaan arvoon.
Esimerkiksi
taulukon 2 aineistossa lapsien lukumäärän pienin arvo on nolla ja suurin arvo
neljä. Näin vaihteluväli on W=[0,4]. Koulutuksen osalta vaihteluväli on
W=[”peruskoulu”, ”korkeakoulu”]. Koska sukupuolimuuttuja on
luokitteluasteikollinen, siitä ei ole järkevää tarkastella vaihteluväliä.
Kun muuttuja on
mitattu välimatka- tai suhdeasteikolla, voidaan puhua vaihteluvälin pituudesta.
Se on yksinkertaisesti muuttujan suurimman ja pienimmän arvon erotus. Kaavana
se voidaan ilmaista seuraavasti:
w=xn-x1
Kaavassa w on
vaihteluvälin pituus, xn muuttujan suurin arvo ja x1
muuttujan pienin arvo.
Esimerkiksi
taulukon 2 aineistossa lapsilukumuuttujan vaihteluvälin pituus on 4-0=4.
Keskihajonta (standard
deviation) on hajontaluku välimatka- tai suhdeasteikon muuttujille.
Keskihajonta on ehkä kaikkein yleisimmin käytetty hajontaluku. Keskihajonta
kuvaa sitä, kuinka kaukana yksittäiset muuttujan arvot ovat keskimäärin
muuttujan »aritmeettisesta
keskiarvosta. Keskihajonta (s) lasketaan kaavasta
Kaavassa xi
viittaa i:nnen havainnon arvoon ja tarkoittaa aineiston aritmeettista
keskiarvoa. Sigma -merkki (Σ) tarkoittaa yhteenlaskua. Esitetyssä kaavassa
lasketaan jokaisen havainnon arvon erotus koko aineiston keskiarvosta. Tämän
jälkeen erotus korotetaan neliöön. Tämän jälkeen kaikki saadut arvot lasketaan
yhteen. Tämä saatu summa jaetaan havaintojen määrällä (n) ja saadusta
tuloksesta otetaan vielä neliöjuuri keskihajonnan saamiseksi. Mitä suurempi
saatu arvo on, sitä enemmän muuttujan arvoissa on hajontaa ja päinvastoin.
Edellä mainittu
keskihajonnan kaava on tarkoitettu tilanteisiin, jossa on tarkasteltavana koko »perusjoukko. Jos kyse on
»otoksesta
käytetään usein termiä otoskeskihajonta ja silloin täytyy käyttää hieman
erilaista kaavaa. Tällöin kaava on
Tässä kaavassa
jakajana on havaintojen määrä vähennettynä yhdellä. Etenkin suurissa
aineistoissa ero näiden kahden kaavan antamilla keskihajontaluvuilla on pieni.
Jos oletetaan,
että taulukon 2 aineisto on koko perusjoukko (eli kaikki työpaikan työntekijät)
saadaan lapsiluvun keskihajonnaksi (ensimmäisen kaavan mukaan) 1,17. Jos taas
oletetaan, että kyseessä on iso työpaikka ja aineisto on vain kymmenen hengen
otos koko perusjoukosta, saadaan keskihajonnaksi (jälkimmäisen kaavan mukaan)
1,23. Ero on pieni, vaikka aineisto koostuikin vain kymmenestä havainnosta.
Keskihajonnan
käsitteeseen liittyy usein myös varianssin käsite. Varianssilla tarkoitetaan
keskihajonnan neliötä (s2). Varianssia käytetään monessa »tilastolliseen
päättelyyn liittyvässä yhteydessä.
Kahden eri
otoksen keskihajontojen keskinäinen vertailu on joskus ongelmallista, koska
keskihajonta vaihtelee aineiston keskiarvon myötä. Variaatiokerroin (coefficient
of variation) on hajontaluku, joka suhteuttaa keskihajonnan aineiston
keskiarvoon. Se lasketaan kaavasta
V=s/
Kaavassa s on
muuttujan keskihajonta ja on muuttujan
keskiarvo. Käytännössä siis keskihajonta suhteutetaan muuttujan keskiarvoon.
Näin kahden ryhmän hajonnan vertailu on mielekkäämpää.
Keskeisimmät
hajontaluvut on esitelty kaikissa tilastotieteiden ja kvantitatiivisten
menetelmien perusoppaissa. Hyvä suomenkielinen opastus on esimerkiksi:
Englannin
kielellä hajontaluvuista ja niiden sovelluksista yhteiskuntatieteellisessä
tutkimuksessa voi lukea esimerkiksi seuraavista teoksista:
Verkosta
lisätietoa keskiluvuista löytyy mm. Hyperstat Online palvelusta. Siellä
kerrotaan mm. sellaisista jakauman tunnusluvuista, joita ei tässä yhteydessä
käsitelty. Hyperstat Onlinen osoite on:
Ja hajontaluvuista
kerrotaan erityisesti sivulla:
Toinen hyvä
verkkoresurssi on Gene V. Glassiin pitämän ”Intro to Quant Methods” –kurssin
sivut osoitteessa:
Jakauman
tunnuslukuja käsitellään erityisesti sivulla: