[»Yleistä]

[»Variaatiosuhde]

[»Vaihteluväli]

[»Vaihteluvälin pituus]

[»Keskihajonta]

[»Variaatiokerroin]

[»Lisätietoja]

[»Kalvot]

 

Hajontaluvut

 

»Keskilukujen lisäksi hajontaluvut ovat erittäin yleisiä muuttujan jakaumaa kuvaavia mittalukuja. Hajontaluvut kertovat, kuinka muuttujan arvot vaihtelevat käytetyn keskiluvun ”ympärillä”. Kahdella muuttujalla voi olla sama keskiluku (esimerkiksi keskiarvo), mutta niiden hajonta voi olla täysin erilainen. Siksi muuttujan jakaumaa kuvatessa on tapana esittää sekä sopiva keskiluku että hajontaluku.

 

Samoin kuin keskiluvuissa muuttujan »mittaustaso vaikuttaa soveltuvan hajontaluvun valintaan. Taulukossa 1 on esitetty, mitkä hajontaluvut sopivat millekin muuttujan mittaustasolle.

 

Taulukko 1. Sopivan hajontaluvun valinta muuttujan mittaustason mukaan (X =  voi käyttää, - = ei voi käyttää).

 

 

Muuttujan mittaustaso

 

 

Luokittelu­asteikko

Järjestys­asteikko

Välimatka-asteikko

Suhde­asteikko

 

Variaatiosuhde

X

X

X

X

 

Hajontaluku

Vaihteluväli

-

X

X

X

Vaihteluvälin pituus

-

-

X

X

Keskihajonta

-

-

X

X

Variaatiokerroin

-

-

X

X

 

Taulukossa 2 on esitetty kuvitteellinen aineisto, jota käytetään erilaisten hajontalukujen esittelemiseksi. Siinä on kolme eri mittaustason muuttujaa.

 

Taulukko 2. Kuvitteellinen aineisto työpaikan kymmenestä työntekijästä.

Työntekijän havaintonumero

Sukupuoli

Koulutus

Lapsien määrä

Työntekijä 1

Mies

Peruskoulu

0

Työntekijä 2

Nainen

Keskiaste

4

Työntekijä 3

Nainen

Keskiaste

1

Työntekijä 4

Mies

Korkeakoulu

1

Työntekijä 5

Nainen

Keskiaste

2

Työntekijä 6

Nainen

Korkeakoulu

1

Työntekijä 7

Nainen

Korkeakoulu

1

Työntekijä 8

Mies

Peruskoulu

0

Työntekijä 9

Mies

Korkeakoulu

0

Työntekijä 10

Nainen

Keskiaste

2

 

Variaatiosuhde

Variaatiosuhde (variation ratio) on hajontaluku, jota voidaan käyttää luokitteluasteikollisen muuttujan yhteydessä. Se on helppo laskea ja ymmärtää. Variaatiosuhde kertoo, kuinka suuri osuus havainnoista on muuttujan »moodiluokassa. Variaatiosuhde (v) lasketaan kaavasta:

v=1-(havaintojen määrä moodiluokassa / havaintojen määrä)

 

Variaatiosuhde vaihtelee nollan ja yhden välillä. Se saa arvon nolla, jos kaikki muuttujan arvot ovat moodiluokassa. Tässä tapauksessa muuttujan arvot eivät tietenkään vaihtele ollenkaan, joten on luontevaa, että hajontaluku saa arvon nolla. Mitä lähempänä yhtä variaatiosuhde on, sitä enemmän aineistossa on hajontaa.

 

Taulukon 2 aineistossa lapsiluvun yleisin arvon on yksi (eli se on muuttujan moodiluokka) ja aineistossa on neljä työntekijää, joilla on yksi lapsi perheessään. Näin aineiston variaatiosuhde on 1-(4/10)=0,6.

 

Sukupuolimuuttujan yleisin arvo on ’nainen’, joita on aineistossa kuusi. Näin variaatiosuhde on tämän muuttujan osalta 1-(6/10)=0,4.

 

Koulutusmuuttujan osalta aineistossa on kaksi moodia (’keskiaste’ ja ’korkeakoulu’). Variaatiosuhde lasketaan siitä muuttujan luokasta, jossa on eniten havaintoja. Koska tässä tapauksessa on kaksi tällaista luokkaa, ei ole väliä kummasta variaatiosuhde lasketaan. Se on koulutuksen osalta 1-(4/10)=0,6.

 

Variaatiosuhdetta käytetään yleensä vain luokitteluasteikollisten muuttujien yhteydessä. Muuttujan ollessa välimatka- tai suhdeasteikollinen sen käyttö ei useimmiten ole järkevää, vaan on luonnollista valita jokin hajontaluku, joka sopii paremmin tähän tarkoitukseen. Välimatka- tai suhdeasteikon muuttuja voi saada suuren määrän erilaisia arvoja jollain tietyllä välillä. Tällaisessa tapauksessa variaatiosuhteen käyttäminen hajontalukuna ei ole mielekästä, koska on epätodennäköistä, että moodiluokassa olisi kovinkaan monta havaintoa. Jos tutkitaan esimerkiksi nettopalkkoja jollain tietyllä teollisuuden alalla, on epätodennäköistä, että löytyisi suuri ryhmä työntekijöitä, joilla on täsmälleen sama palkka.

 

Vaihteluväli

Vaihteluväli (range) on järjestys-, välimatka- ja suhdeasteikon muuttujille sopiva hajontaluku. Se ilmoittaa yksinkertaisesti pienimmän ja suurimman muuttujan arvon välin. Määritelmän mukaan vaihteluväli on W=[x1, xn] silloin kun havaintojen arvon on sijoitettu suuruusjärjestykseen aloittaen pienimmästä muuttujan arvosta. x1 viittaa edellisessä kaavassa aineiston pienimpään arvoon ja xn sen suurimpaan arvoon.

 

Esimerkiksi taulukon 2 aineistossa lapsien lukumäärän pienin arvo on nolla ja suurin arvo neljä. Näin vaihteluväli on W=[0,4]. Koulutuksen osalta vaihteluväli on W=[”peruskoulu”, ”korkeakoulu”]. Koska sukupuolimuuttuja on luokitteluasteikollinen, siitä ei ole järkevää tarkastella vaihteluväliä.

 

Vaihteluvälin pituus

Kun muuttuja on mitattu välimatka- tai suhdeasteikolla, voidaan puhua vaihteluvälin pituudesta. Se on yksinkertaisesti muuttujan suurimman ja pienimmän arvon erotus. Kaavana se voidaan ilmaista seuraavasti:

w=xn-x1

Kaavassa w on vaihteluvälin pituus, xn muuttujan suurin arvo ja x1 muuttujan pienin arvo.

 

Esimerkiksi taulukon 2 aineistossa lapsilukumuuttujan vaihteluvälin pituus on 4-0=4.

 

Keskihajonta

Keskihajonta (standard deviation) on hajontaluku välimatka- tai suhdeasteikon muuttujille. Keskihajonta on ehkä kaikkein yleisimmin käytetty hajontaluku. Keskihajonta kuvaa sitä, kuinka kaukana yksittäiset muuttujan arvot ovat keskimäärin muuttujan »aritmeettisesta keskiarvosta. Keskihajonta (s) lasketaan kaavasta

Kaavassa xi viittaa i:nnen havainnon arvoon ja  tarkoittaa aineiston aritmeettista keskiarvoa. Sigma -merkki (Σ) tarkoittaa yhteenlaskua. Esitetyssä kaavassa lasketaan jokaisen havainnon arvon erotus koko aineiston keskiarvosta. Tämän jälkeen erotus korotetaan neliöön. Tämän jälkeen kaikki saadut arvot lasketaan yhteen. Tämä saatu summa jaetaan havaintojen määrällä (n) ja saadusta tuloksesta otetaan vielä neliöjuuri keskihajonnan saamiseksi. Mitä suurempi saatu arvo on, sitä enemmän muuttujan arvoissa on hajontaa ja päinvastoin.

 

Edellä mainittu keskihajonnan kaava on tarkoitettu tilanteisiin, jossa on tarkasteltavana koko »perusjoukko. Jos kyse on »otoksesta käytetään usein termiä otoskeskihajonta ja silloin täytyy käyttää hieman erilaista kaavaa. Tällöin kaava on

Tässä kaavassa jakajana on havaintojen määrä vähennettynä yhdellä. Etenkin suurissa aineistoissa ero näiden kahden kaavan antamilla keskihajontaluvuilla on pieni.

 

Jos oletetaan, että taulukon 2 aineisto on koko perusjoukko (eli kaikki työpaikan työntekijät) saadaan lapsiluvun keskihajonnaksi (ensimmäisen kaavan mukaan) 1,17. Jos taas oletetaan, että kyseessä on iso työpaikka ja aineisto on vain kymmenen hengen otos koko perusjoukosta, saadaan keskihajonnaksi (jälkimmäisen kaavan mukaan) 1,23. Ero on pieni, vaikka aineisto koostuikin vain kymmenestä havainnosta.

 

Keskihajonnan käsitteeseen liittyy usein myös varianssin käsite. Varianssilla tarkoitetaan keskihajonnan neliötä (s2). Varianssia käytetään monessa »tilastolliseen päättelyyn liittyvässä yhteydessä.

 

Variaatiokerroin

Kahden eri otoksen keskihajontojen keskinäinen vertailu on joskus ongelmallista, koska keskihajonta vaihtelee aineiston keskiarvon myötä. Variaatiokerroin (coefficient of variation) on hajontaluku, joka suhteuttaa keskihajonnan aineiston keskiarvoon. Se lasketaan kaavasta

V=s/

Kaavassa s on muuttujan keskihajonta ja  on muuttujan keskiarvo. Käytännössä siis keskihajonta suhteutetaan muuttujan keskiarvoon. Näin kahden ryhmän hajonnan vertailu on mielekkäämpää.

 

 

Lisätietoja

 

Keskeisimmät hajontaluvut on esitelty kaikissa tilastotieteiden ja kvantitatiivisten menetelmien perusoppaissa. Hyvä suomenkielinen opastus on esimerkiksi:

 

Englannin kielellä hajontaluvuista ja niiden sovelluksista yhteiskuntatieteellisessä tutkimuksessa voi lukea esimerkiksi seuraavista teoksista:

 

Verkosta lisätietoa keskiluvuista löytyy mm. Hyperstat Online palvelusta. Siellä kerrotaan mm. sellaisista jakauman tunnusluvuista, joita ei tässä yhteydessä käsitelty. Hyperstat Onlinen osoite on:

Ja hajontaluvuista kerrotaan erityisesti sivulla:

Toinen hyvä verkkoresurssi on Gene V. Glassiin pitämän ”Intro to Quant Methods” –kurssin sivut osoitteessa:

Jakauman tunnuslukuja käsitellään erityisesti sivulla:

 

 

Kalvot

 

 

o       Variaatiosuhde

 

 

o       Sopii välimatka- ja suhdeasteikon muuttujille