TILASTOLLISEN KUVAUKSEN PERUSTEET

(OSA 1)

 
1. Johdanto
2. Mitta-asteikkotyyppejä
3. Aineistonkeruumenetelmiä ja havaintoaineiston järjestäminen
4. Havaintoaineisto
5. Yksiulotteiset frekvenssijakaumat

6. Frekvenssijakauman graaffinen esitys

7. Harjoitustehtäviä

 

1. Johdanto

Määritelmiä:

Tilastotiede = yksikköjen muodostamaa joukkoon liittyvää numeerisen tietoaineiston keräämistä, analysointia ja tulkintaa koskeva tiede

Tilastoyksikkö = konkreettisia (esim. ihminen) tai abstrakteja yksiköitä, objektekteja tai tapahtumia (vuorokausi).

Perusjoukko (populaatio) = kaikki tutkimuksen kohteena olevat tilastoyksiköt. Kun tutkitaan oppilaita on perusjoukkona kaikki Suomen oppilaat. Jos todella tutkitaan koko perusjoukko (mikä ihmistieteissä on harvinaista) puhutaan kokonaistutkimuksesta.

Näyte = perusjoukon osajoukko.

Otos = perusjoukon osajoukko, jonka yksiköt on poimittu satunnaisesti.

Koska on lähes mahdotonta toteuttaa kokonaistutkimusta, valitaan siitä yleensä pienempi tutkittavissa oleva otos. Tämän jälkeen tehdään tulosten perusteella johtopäätöksiä koskemaan koko perusjoukkoa (induktiivinen yleistys).

Esim. Tutkimuksen peruskoulun vuosiluokkien 1-2. 2000 oppilaan otosjoukosta joka kymmenellä havaittiin olevan vähintään lieviä oppimisvaikeuksia. Voidaan yleistää, että 10% kaikista 1-2.-luokkien oppilaista on lieviä oppimisvaikeuksia.

Muuttuja (variaabeli) = Tilastoyksiköiden tarkastelu tietyn ominaisuuden tai tekijän suhteen. Esimerkiksi ihmisen tarkastelua iän, sukupuolen, pituuden, painon, koulutuksen, syömistottumusten, vammaisiin kohdistuvien asenteiden jne. suhteen

HUOM: Kun tilastoyksiköihin liitetään havaintoihin perustuvia realilukuja jonkin muuttujan tapauksessa (ja mahdollisesti myös mittayksikkö), on kyse mittaamisesta.

Mittaamalla saatuja lukuja kutsutaan muuttujan arvoiksi tai mittaluvuiksi. Esim Heikki, 76kg, 176cm

Eräiden muuttujien (kuten sukupuoli) tapauksissa voidaan päätyä yksinkertaiseen tilastoyksiköiden luokittelemiseen:

Esim. Miehet - Naiset, Tilastollisen kuvauksen helppous - Tilastollisen kuvauksen vaikeus

Havaintoarvot (havainnot) = mittalukuja, joita saamme tutkimustilanteessa. Esimerkiksi 30 ihmisen paino voidaan ilmoittaa kilon tarkkuudella. Tällöin mahdolliset arvot saattavat sattua seuraavaan väliin [48kg, 119kg]. Havaintoarvoihin kuuluu tällöin kaikki 30 mittalukua (ihminen 1: 48kg, ihminen 2: 50kg, ..., ihminen 30: 119kg)

Kato = se osa aineistoa, jota ei saatu jostain syystä tutkimukseen tai tutkimuksen otokseen mukaan. Ilmoitetaan yleensä prosentteina.

 

 

2. Mitta-asteikkotyyppejä

Asteikkotyyppien tunnistaminen auttaa hahmottamaan millaisia tilastollisia operaatioita voidaan kyseisellä aineistolla suorittaa. Mittaustason perusteella muodostettuja mitta-asteikoiden luokitteluja:

a) Luokitteluasteikko (laatueroasteikko, nominaaliasteikko) = kehittymättömin tai yksinkertaisin asteikkotyyppi. Esimerkiksi sukupuoli (0 ja 1), lapsien lukumäärä (0,1, 2...), syntymäkuukausi (1, 2, 3,..., 12) ja sivilisääty (0 ja 1). Luvut ovat lähinnä luokkien tunnuksia eivätkä laskutoimitukset luvuilla ole kovinkaan järkeviä (esim. mikä lapsien lukumäärän ka, tai sukupuolen ka....jne).

b) Järjestysasteikko (ordinaaliasteikko) = muuttujan arvot voidaan asettaa tiettyy järjestykseen luokittelun lisäksi. Esimerkiksi miehet ja naiset pituus- ja painojärjestykseen.

Kun käytetään numeerisia koodeja, eivät laskutoimitukset ole mielekkäitä kuin silloin kun halutaan ilmaista sijalukua. Esimerkiksi muuttujan, joka selvittää yksilön "Asennetta vammaisiin" luokkien tunnukset voidaan muodostaa seuraavasti:

Taulukko 1.

Koodaus 1

Koodaus 2

Koodaus 3

Erittäin kielteinen
1
 -2
 -150
Melko keilteinen
2
-
-50
En osaa sanoa
3
0
Melko myönteinen
4
+
+50 
Erittäin myönteinen
5
+2 
+150 

 Kaikki koodaukset toimivat samalla tavalla, joskin koodaustapa 3 on harvemmin käytetty.

c) Välimatka-asteikko (intervalliasteikko) = luokkittelun ja järjestykseen asettamisen lisäksi voidaan mittalukuja antaa tietyltä väliltä (esimerkiksi koulussa annettava arvosana). Välimatka-asteikon muuttujia (esim. lämpötila) voidaan laskea yhteen ja vähentää --> matematiikan arvosana edellisessä ja viimeisessä kokeessa, eilisen ja tämän päivän lämpötilojen ero jne.

d) Suhdeasteikko = asteikolta löytyy yksikäsitteinen 0-kohta (vrt. pituus, paino, ikä).

e) Absoluuttinen asteikko = kehittynein asteikko. Mittayksikön voi käsittää vain yhdellä tavalla (esim. lukumäärä).

 

 

3. Aineistonkeruu menetelmiä ja havaintoaineiston järjestäminen

Ennen kuin lähdet keräämään tilastotietoa, ota selvää niistä tietolähteistä, jotka kenties tarjoavat valmista tietoa Erilaisia tilastoja pitävät esimerkiksi väestötilastot, terveydenhuoltotilastot, tilastokeskus, taloustilastot jne. Jos tarvitse uutta tietoa tutkimustasi varten, kertätään tarvittavat tiedot yleensä otannan avulla, jos kokonaistutkimus (eli perusjoukon kaikki yksilöt) ei ole mahdollinen, tilastoyksiköiltä (ihminen) ennalta laaditun suunnitelman mukaan. Tavallisimpia tiedonkeruumuotoja ovat erilaiset kyselyt, haastattelut ja havainnoinnin eri muodot.

Kun käytetään otantaa, pyritään käyttämään apuna satunnaislukuja, joiden avulla arvotaan otokseen osallistuvat tilastoyksiköt. Erilaisia otantamenetelmiä ovat esimerkiksi:

Yksinkertainen satunnaisotanta = tilastoyksiköt (ihmiset) poimitaan satunnaislukujen mukaisesti perusjoukosta

Ositettu otanta = perusjoukko jaetaan osajoukkoihin ja jokaisesta osajoukosta poimitaan oma otos

Tavoitteena kaikilla otantamenetelmillä on, että tutkittava otos olisi ns. edustava, jolloin otokseen tulisi mahdollisimman samanlaisia tapauksia samassa suhteessa kuin perusjoukossakin on (vrt. erityisopettajat, luokanopettajat, aineenopettajat).

Sivun alkuun

 

4. Havaintoaineisto

Tutkimusongelma määrää tilastoyksikön. Jos halutaan tutkia opettajien asenteita on tilastoyksikkö luultavasti opettaja. Jos taas tutkitaan esimerkiksi koiria (nopeus, voima, paino) on tilastoyksikkönä koira, tai kivien rapautumisastetta on havaintoyksikkö kivi jne. Tilastoyksiköt merkitään yleensä vaakariville allekkain esimerkiksi: Opettaja 1, Opettaja 2, Opettaja 3,... (tietenkin tässä tulee käyttää opettajien tai oppilaiden oikeita nimiä, jotta tieto yhdistyy oikeaan henkilöön)

Tilastoyksikön valinnan jälkeen valitaan muuttujat eli mitä aiotaan tutkia. Esimerkiksi jos halutaan tietää eri opettajien asenteita maahanmuuttajaoppilaisiin valitaan muuttujiksi opettajien mitattujen asenteiden ja ammattinimikkeen lisäksi esimerkiksi sukupuoli ja ikä. Muuttujat sijoitetaan sarakkeisiin vierekkäin ja vastaavasti tapaukset allekkain.

Aineiston keruun jälkeen muuttujien arvoista muodostetaan havaintomatriisi (esim. Taulukko 2.), joka sisältää eri tilastoyksiköihin liittyvien muuttujien havaintoarvot taulukoituna tilastoyksiköittäin.

Taulukko 2.

Havaintoyksiköt "Opettajien asenteet maahanmuuttajiin"
Nimi Sukupuoli Ikä Opettajan amm Asenne
Opettaja 1 1 42 2 2
Opettaja 2 1 35 3 4
Opettaja 3 1 54 1 2
Opettaja 4 2 39 1 2
Opettaja 5 2 60 1 1
Opettaja 6 1 44 3 4
Opettaja 7 2 31 2 3
Opettaja 8 1 27 2 4
Opettaja 9 1 25 3 3
Opettaja 10 2 51 1 2

Vrt. myös osa "todellinen havaintomatriisista eräästä tutkimuksesta"

 

 

5. Yksiulotteiset frekvenssijakaumat

Tutkimusaineiston kuvaaminen tarkoittaa lähinnä erilaisten jakautumien esittämistä sekä tunnuslukujen laskemista. Seuraavassa esitetään kuinka muuttujan arvoista voidaan muodostaa yksiulotteinen frekvenssijakauma ja miten se voidaan esittää graaffisesti.

Yksiulotteisen frekvenssijakauman muodostaminen

Havaintomatriisin sisältyvät tiedot voidaan esittää tiivistetysti suorien jakaumien avulla. Tällöin kyse on havaintomatriisin yhden sarakkeen tarkastelu (kunka monta havaintoa on kyseisen muuttujan osalta).

Esimerkiksi edellistä taulukkoa tarkastelemalla voitaisiin sukupuolen mukaan kirjata seuraavanlaiset frekvenssit:

Taulukko 3.

Sukupuoli Frekvenssi
Naisia (1)
6
Miehiä (2)
4
Yhteensä
10

Sukupuolen ollessa kyseessä on frekvenssien muodostaminen varsin selvää, koska kyseessä voi olla vain kaksi luokkaa. Sen sijaan esimerkiksi iän ollessa kyseessä vastaavanlainen jaoettelu tuottaisi esimerkkitaulukon perusteella taulukon, jossa kaikki ikävuodet saisivat oman frekvenssinsä (n=1) eli jokaista ikää esiintyisi vain yhden kerran. Saadaksemme tiivistettyä tietoa voidaan (ja usein tuleekin) aineistoa luokitella (Taulukko 2.)

Seuraavassa on tutkimukseen osallistuneiden opettajien iät asetettu suuruusjärjestykseen:

25, 27, 31, 35, 39, 42, 44, 51, 54, 60. Kun tietoa luokitellaan voidaan edellämainitusta ikäjaottelusta muodostaa kolme samankokoista ikäluokkaa (voidaan ajatella, että aineisto jakaantuu yleensäkin tällä tavoin kentällä).

Taulukko 4.

Ikä Frekvenssi %
21-35
4
40.0
36-50
3
30.0
51-65
3
30.0
Yht.
10
100.0

Taulukosta voidaan havaita, että tutkimukseen osallistuneista opettajista suurin osa (n=4) sijoittuu nuorimpaan ikäryhmään [21, 35]. Muut opettajat sijoittuvat tasaisesti kahteen seuraavaan ikäluokkaan: [36, 50] ja [51, 65].

Usein frekvenssitaulukkoon liitetään prosentit. Prosentit kertovat suhteellisista frekvensseistä. prosenttisarakkeen summa on aina 100%. Merkintä 100.0 ja 40.0 tarkoittaa, että ko. sarakkeen luvut ovat pyöristettyjä (tässä tapauksessa pyöristyksiä ei välttämättä tarvita).

Jos kahden peräkkäisen luokan väliin jää tyhjää, niin kyseessa ovat pyröistetyt eli suhteelliset luokkarajat. Suhteelliset luokkarajat perustuvat ns. todellisiin luokkarajoihin. Tarvittaessa voidaan sopia, kumpaan luokkaan kyseinen piste kuuluu mm. määrittämällä luokat puoliaviomien tai suljettujen välien avulla. Suhteellinen luokkaraja [21, 35] voi tarkoittaa todellista luokkarajaa [21.0, 35.364 [. HUOM:Iän ollessa kysymyksessä voitaisiin tarkka jako voidaan tehdä esim. päivien perusteella, joskin yleensä käytetään aina kymmenlukujärjestelmää.

Luokkavälin pituus = luokan todellisen ylärajan ja luokan todellisen alarajan erotus. Esimerkiksi taulokossa 2. luokan luokkavälin pituus on 35.364 = 14.364 .

Tasavälinen luokitus = kaikkien luokkien luokkavälin pituus on sama (kuten esimerkkitaulukossa).

Luokkakeskus = todellisen alarajan ja todellisen ylä puolivälissä. Se lasketaan luokkarajojen summa puolikkaana eli esimerkiksi 21+35.99/2 = 28.495.

Frekvenssijakauman muodostamisen periaatteet voidaan esittää seuraavasti:

- Määritä vaihteluväli. Vaihteluväli on aineiston pinimmän ja suurimman havainnon määräämä väli. Esimerkiksi em. aineiston pienin havainto on 25 ja suurin 60. Tällöin vaihteluväli on [25, 60].

- Jaa vaihteluväli tai tarvittaessa vaihteluvälin sisältämä hieman leveämpi väli (mielellään tasavälisiin) luokkiin ja pyri siihen, että frekvenssit ovat suurimpia luokkakeskusten lähellä.

- Määritä jokaiseen luokkaan sattuvien havaintojen lukumäärät eli luokkafrekvenssit.

- Suhteellisiksi luokkarjoiksi valitaan havaintojen mittaustarkkuuden mukaiset pyöristetyt luvut (esim. [21, 35].

- Luokkalukumäärälle ei varsinaista suositusta, joskin kuutiojuuri numeruksesta on hyvä "haarukointimitta" luokkien määrästä. Tärkeämpää on luokkien käyttökelpoisuus tutkimukselle.

 

 

6. Frekvenssijakauman graafinen esitys

Numeerisen frekvenssijakaumataulukon lisäksi/sijaan voidaan jakauma esittää myös graafisesti. Usein graafinen esitys kertoo aineistosta oleellisen yhdellä silmäyksellä. Frekvenssijakaumien avulla voidaan käsiteltävä aineisto tiivistää muuttujien eri arvojen ja luokkien absoluuttisiin ja prosenttisiin frekvensseihin (prosenttiset frekvenssit esitetään osassa II).

Graafisia esitystapoja on useita, esim. pylväsdiagramma, frekvenssihistogramma, frekvenssimonikulmio, janadiagramma, sektoridiagramma eli piirakkakuvio. Pylväs- ja janadiagrammaa käytetään silloin, kun muuttuja on diskreetti eli epäjatkuva (luokittelu- tai järjestysasteikko).

Hyvän yleiskuvan tilaskuvioiden käytöstä antaa seuraava artikkeli: Hyvä tilastokuva ei valehtele 1 . 2 ja 3.

 

7. Harjoitustehtäviä

Tehtäviä aiheesta: Frekvenssijakauman kertausta:

1. Tarkastele taulukoita 2 ja 4. Muodosta uusi taulukko taulukon 4 perusteella ja lisää taulukkoon kaksi uutta saraketta, joista ilmenee opettajien ammatti- ja sukupuolifrekvenssit

2. Tarkastele seuraavaa opettajien ikäjakaumataulukkoa: Ikäjaukauma

a) Ota taulukon avulla selvää kuinka monta henkilöä osallistui tutkimukseen?

b) Mikä alle 30-vuotiaiden prosentuaalinen osuus koko tutkimusjoukosta?

3. Eräässä mittauksessa saatiin 60 henkilölle (tilastotieteen opiskelijoita) seuraavat painoarvot:

50, 91, 72, 83, 69, 86, 81, 95, 59, 78

82, 80, 91, 64, 49, 82, 75, 51, 83, 74

55, 62, 68, 96, 80, 59, 96, 68, 59, 62

52, 72, 71, 65, 95, 70, 72, 72, 63, 50

53, 72, 61, 49, 90, 75, 51, 62, 54, 68

83, 65, 70, 80, 82, 60, 79, 75, 88, 71

a) Taulukoi aineisto suuruusjärjestykseen ja ilmoita havaintoyksiköiden frekvenssit

b) Muodosta vaihteluväliä [53, 97] mukaillen sopivasti esimerkiksi 5-6 luokkaa ja laske luokkien todelliset luokkarajat sekä luokkavälin pituus ja luokkakeskus.

c) Määrittele kyseisen aineiston suhteelliset luokkarajat. Laske muodostamiesi luokkien frekvenssit ja prosenttiosuudet.

d) Muodosta taulukko luokkafrekvensseistäsi.

VRT Taulukko: Ikäjaukauma

 

 

Sivun alkuun