[Yleistä]
[Yksinkertainen satunnaisotanta]
[Systemaattinen satunnaisotanta]
Määrällinen
yhteiskuntatieteellinen tutkimus pyrkii kuvailemaan ja selittämään tutkimuksen
kohteena olevia ilmiöitä järjestelmällisten havaintojen avulla. Empiirisen
havainnoinnin eli mittauksen kohteita voidaan kutsua havaintoyksiköiksi
(unit of observation). Havaintoyksikkö määräytyy tutkimusongelman
perusteella. Esimerkiksi jos tutkimuksella halutaan tietoa suomalaisen
aikuisväestön mielipiteistä, havaintoyksikköinä ovat siihen kuuluvat henkilöt.
Jos tutkija haluaa tietoa suomalaisista kunnista, havaintoyksikköinä ovat
Suomen kunnat jne.
Havaintoyksikön
valinnan jälkeen tutkijan tulee ratkaista, kuinka monesta havaintoyksiköstä hän
kerää tietoa. Kaikkien havaintoyksiköiden muodostamaa kokonaisuutta kutsutaan
tutkimuksen perusjoukoksi (population). Varmin tapa saada
määrällistä tietoa tutkimuskohteesta on mitata halutut ominaisuudet jokaisesta
tutkimuksen perusjoukkoon kuuluvasta havaintoyksiköstä. Käytännön syistä tämä
on kuitenkin usein mahdotonta. Esimerkiksi kaikkien suomalaisten
haastatteleminen olisi lähes mahdoton tehtävä muun muassa sen vaatimien
resurssien takia. Tämän vuoksi tutkimuksessa useimmiten keskitytään
perusjoukkoa pienemmän, satunnaisesti valitun havaintoyksikköjoukon eli otoksen
tutkimiseen. »Tilastollisen
päättelyn avulla otoksesta saatuja tietoja voidaan käyttää hyväksi
tehtäessä päätelmiä koko perusjoukosta. Tilastollisten päätelmien pätevyys
riippuu muun muassa siitä, kuinka hyvin otoksen valinta eli otanta on suoritettu.
Tämän vuoksi on tärkeää ymmärtää otannan perusperiaatteet ja erilaisten
otantamenetelmien luonne
Tutkimuksen
kohteena olevat perusjoukkoa pienemmät havaintoyksikköjoukot voidaan jakaa
otoksiin ja näytteisiin (probability sample ja non-probability sample).
Otos on sellainen havaintoyksikköjen joukko, johon kaikilla havaintoyksiköillä
on tiedossa oleva nollaa suurempi todennäköisyys tulla valituksi. Näytteessä
havaintoyksikköjen valinta on usein harkinnanvarainen, eikä havaintoyksikköjen
todennäköisyyttä tulla valituksi tiedetä. Yleensä määrällisessä tutkimuksessa
suositaan otosaineistoja, koska niiden avulla pystytään tekemään paremmin
tilastollisia yleistyksiä perusjoukkoon.
Tarkasti
perusjoukon ominaisuuksia kuvastavaa otosta kutsutaan edustavaksi otokseksi
(representative sample). Edustavan otoksen saamiseksi täytyy varmistaa,
että mitään havaintoyksikköjen ryhmää ei systemaattisesti suosita tai suljeta
otoksen ulkopuolelle. Jos käyntikysely tehtäisiin niin, että haastattelijat pyrkisivät
tavoittamaan haastateltavat kotiosoitteista vain keskellä päivää, ei tuloksena
olisi edustava otos, koska työssäkäyvien osuus otoksesta olisi huomattavasti
pienempi kuin heidän osuutensa perusjoukosta. Varmin tapa saada otoksesta
edustava on käyttää satunnaisuutta hyväksi otosta valittaessa. Käytännössä tämä
tarkoittaa sitä, että otokseen valikoidut havaintoyksiköt ”arvotaan”
satunnaisesti.
Joissakin
tapauksissa satunnaisotoksen saaminen perusjoukosta on mahdotonta. Varsin usein
tutkijalla ei ole käytettävissään tietoja kaikista havaintoyksiköistä, jolloin
niiden satunnainen valinta koko perusjoukosta on mahdotonta. Tällöin tutkijan
on tyydyttävä harkinnanvaraiseen näytteeseen. Tällaiseen tilanteeseen
joudutaan usein esimerkiksi sosiologian alalla tutkittaessa erilaisten
alakulttuurien jäseniä kuten huumeiden käyttäjiä tai prostituoituja. Huumeiden
käyttäjistä ei ole saatavilla minkäänlaista listaa, josta otanta voitaisiin
suorittaa. Itse asiassa edes perusjoukon koosta ei ole kovinkaan tarkkoja tietoja.
Tässä tapauksessa tutkija saattaa aloittaa tutkimuksensa muutamasta
tuntemastaan huumeiden käyttäjästä, haastatella heitä ja sen jälkeen pyytää
heiltä vinkkejä uusista haastateltavista. Toinen vaihtoehto voisi olla
huumevieroitusklinikan asiakkaiden haastattelu. Kumpaakin menetelmää käyttäen
tuloksena olisi näyte, koska valittujen havaintoyksiköiden edustavuudesta
suhteessa perusjoukkoon ei olisi mitään taetta.
Perustavanlaatuinen
otantamenetelmä on ns. yksinkertainen satunnaisotanta (simple random
sampling). Siinä kaikilla perusjoukon havaintoyksiköillä on samansuuruinen
todennäköisyys tulla valituksi otokseen.
Käytännössä
yksikertainen satunnaisotanta etenee vaiheittain. Ensimmäisessä vaiheessa tutkijalla
täytyy olla käytettävänään lista kaikista perusjoukon havaintoyksiköistä (eli
ns. otantakehikko). Oletetaan, että tutkija haluaa tehdä otokseen perustuvan
tutkimuksen Suomen kuntien taloudellisesta tilasta vuonna 2000 ja hänellä on
aakkosellinen lista kaikista Suomen kunnista. Vuonna 2000 Suomessa oli 452
kuntaa. Otannan toteuttamisen helpottamiseksi
tutkija numeroi havaintoyksikkönsä alkaen numerosta yksi, jonka saa
Alahärmän kunta. Sen jälkeen Alajärvi saa numeron kaksi, Alastaro numeron kolme
jne. Aakkosissa viimeinen kunta (Äänekoski) saa numeron 452. Kannattaa huomata,
että näitä numeroita ei pidä sekoittaa yleisesti käytettyyn viralliseen
kuntanumerointiin, jota kannattaa käyttää kuntien tunnuksena aineistossa.
Seuraavaksi
tutkijan täytyy päättää haluamansa otoksen koko. Tätä varten on olemassa
erilaisia sääntöjä, jotka liittyvät siihen, kuinka tarkasti otoksesta saadut
tulokset voidaan yleistää perusjoukkoa koskevaksi. Suomalaisissa
valtakunnallisissa tutkimuksissa käytetään yleensä vähintään tuhannen hengen
otoksia, jolloin tulosten luottamusväli on muutaman prosenttiyksikön luokkaa
(ks. tarkemmin »tilastollinen
päättely). Yleisesti ottaen otoskoko on suhteutettava tutkimustarpeisiin
ja käytettävissä oleviin resursseihin. Jos perusjoukko on pieni, kannattaa
tehdä niin sanottu kokonaistutkimus eli kerätä tiedot kaikista perusjoukon
jäsenistä
Oletetaan, että
kuntatutkija haluaa otokseensa 50 kuntaa. Otoksen valintaa varten tutkija
tarvitsee 50 satunnaislukua välillä 1-452. Nämä satunnaisluvut voidaan poimia
esimerkiksi tilastollisten taulukkokirjojen satunnaislukutaulukoista. Kätevä
tapa on aloittaa satunnaisesti jostain taulukon osasta ja katsoa, minkä luvun
kolme seuraavaa taulukon numeroa muodostavat. Jos tämä luku on välillä 001-452,
kirjoitetaan se muistiin ja siirrytään seuraavaan kolmen satunnaisluvun
muodostamaan lukuun. Jos luku on suurempi kuin 452, siirrytään suoraan
seuraavaan lukuun. Tätä prosessia toistetaan, kunnes tutkijalla on lista 50
satunnaisesta luvusta väliltä 1-452. Satunnaislukujen valinnassa voidaan
käyttää hyväksi myös tarkoitukseen soveltuvia tietokoneohjelmia. Otoksen
muodostamisen lopuksi kuntalistasta valitaan 50 satunnaislukujen osoittamaa
kuntaa, jotka näin muodostavat tutkimuksen otoksen.
Yksinkertainen
satunnaisotos on periaatteiltaan helppo ymmärtää ja on usein myös helppo
toteuttaa. Monissa tapauksissa ei kuitenkaan ole helppo saada listaa kaikista
perusjoukon havaintoyksiköistä, jolloin menetelmän käyttö on mahdotonta.
Kyselytutkimuksissa perusjoukko on usein suuri ja laajalle alueelle
hajaantunut. Näin on esimerkiksi tilanteessa, jossa tutkitaan henkilökohtaisten
haastattelujen avulla suomalaisten kulutustottumuksia. Jos haastateltavien
valinta perustuisi yksinkertaiseen satunnaisotantaan, henkilökohtaisten haastattelujen
tekeminen vaatisi suuria määriä resursseja, koska haastattelijat joutuisivat
matkustamaan ympäri Suomea satunnaisotokseen valikoituneiden henkilöiden
asuinpaikkojen mukaan. Tällaisissa tutkimustilanteissa käytetäänkin usein
muunlaisia otantamenetelmiä, esimerkiksi ryväsotantaa.
Systemaattinen
eli tasavälinen otanta (systematic sample) on tavallaan pelkistetty
versio yksinkertaisesta satunnaisotannasta. Myös systemaattista otantaa varten
tutkija tarvitsee listan perusjoukon havaintoyksiköistä. Poimintavälin
määrittelemiseksi on laskettava otoksen suhteellinen koko perusjoukosta. Jos
esimerkiksi oletetaan, että perusjoukkoon kuuluu 500 havaintoyksikköä ja
otoskoko on 100, saadaan suhteelliseksi otoskooksi 1/5 (=100/500). Näin ollen
havaintoyksikkölistasta poimitaan joka viides havainto otokseen.
Ennen otoksen
poiminnan aloittamista täytyy päättää, mistä kohdasta havaintoyksikköjen listaa
otoksen valinta aloitetaan. Tässä voidaan käyttää hyväksi satunnaislukutaulukoita.
Systemaattinen otanta etenee tämän jälkeen niin, että listasta poimitaan
otokseen joka viides havaintoyksikkö aloittaen satunnaisesti valitusta
lähtökohdasta. Jos lista loppuu ennen kuin havaintoyksikköjä on saatu poimittua
tarpeellinen määrä, jatketaan prosessia taulukon alusta.
Systemaattinen
satunnaisotanta on teknisesti erittäin helppo toteuttaa, mutta siihen liittyvät
samat ongelmat kuin yksinkertaiseen satunnaisotantaan. Tämän lisäksi ongelmia
aiheutuu, jos havaintoyksikkölista noudattaa jotain säännöllistä
jaksollisuutta. Jos esimerkiksi tiedot perusjoukosta koostuvat pariskunnista ja
poimintaintervalli on parillinen luku, seurauksena voi olla, että otokseen
saattaisi valikoitua ainoastaan joko miehiä tai naisia.
Ositetun otannan
avulla pyritään varmistamaan, että otos on mahdollisimman edustava tutkimuksen
kannalta merkittävien ryhmien osalta. Edustavassa otoksessa tärkeät ryhmät ovat
edustettuina otoksessa samassa suhteessa kuin perusjoukossa. Joskus jokin ryhmä
voi olla niin pieni, että yksinkertainen satunnaisotanta ei pysty varmistamaan,
että ryhmän edustus toteutuisi otoksessa. Esimerkkinä voidaan käyttää jo edellä
mainittua kuntatutkijaa, joka haluaa tutkia suomalaisia kuntia otoksen
perusteella. Tutkijaa kiinnostaa erityisesti asukasluvultaan suurten
kaupunkikuntien ja asukasluvultaan pienten maalaiskuntien erot ja hän haluaa
varmistaa, että näiden kaupunkien osuus otoksessa on yhtä suuri kuin niiden
osuus kaikkien kuntien joukosta. Suhteellisesti oikean kokoisen edustuksen
otoksessa voi varmistaa käyttämällä ositettua otantaa (stratified
sampling).
Ositetussa
otannassa käytetään hyväksi etukäteistietoja perusjoukon jakautumisesta
ryhmiin. Esimerkiksi vuonna 2000 Suomessa oli Tilastokeskuksen luokittelun
mukaan 67 kaupunkimaista kuntaa. Suhteellisesti näitä kaupunkikuntia oli siis
noin 15 prosenttia perusjoukosta. Koska tutkija haluaa varmistaa, että
kuntaotokseen sisältyy yhtä suuri osuus kaupunkimaisia kuntia kuin muita
kuntia, hän jakaa ensin kunnat näihin kahteen ryhmään. Oletetaan lisäksi, että
hän haluaa otokseensa yhteensä 100 kuntaa. Varmistaakseen erityyppisten kuntien
edustavuuden hän poimii otokseen 15 kuntaa kaupunkikuntalistalta ja 85 kuntaa
maalaiskuntalistalta. Tämä menetelmä varmistaa, että lopullisessa otoksessa
kaupunkimaisten ja muiden kuntien suhteellinen osuus on sama kuin
perusjoukossa. Yksittäisten kuntien poiminta kahdelta listalta voidaan tehdä
esimerkiksi käyttäen yksikertaista satunnaisotantaa.
Edellinen
esimerkki ositetusta otannasta on hyvin yksinkertainen. Käytännössä
luokittelevia muuttujia voi olla useita, jolloin perusjoukko täytyy jakaa
useampaan ryhmään ennen otannan suorittamista. Kuntatutkija voisi esimerkiksi
haluta, että otoksessa toteutuu myös kuntien maantieteellinen jakauma edustavasti.
Tämä varmistuu jakamalla kunnat kuntamuodon lisäksi läänien mukaan ja
poimimalla näistä ryhmistä oikea määrä kaupunkimaisia ja muita kuntia.
Ositetun otannan
käyttöön suurissa kyselytutkimuksissa liittyy samoja ongelma kuin
yksinkertaiseen ja systemaattiseen satunnaisotantaan. Otokseen valikoituneet
vastaajat voivat olla levittäytyneinä suurella maantieteelliselle alueella ja
näin heidän haastattelemisensa vaatii paljon matkustamista ja siihen liittyviä
kuluja.
Ryväsotantaa (cluster sampling) käytetään
yleensä suuria haastattelututkimuksia tehtäessä. Tavoitteena on vähentää
tietojen keruun aiheuttamia kustannuksia samalla varmistaen, että otos on
kuitenkin mahdollisimman edustava. Ryväsotantaa voidaan hyödyntää myös silloin,
kun tutkijalla ei ole käytettävissään kattavaa listaa kaikista
havaintoyksiköistä.
Ryväsotanta
koostuu useasta eri otoksesta. Ajatuksena on, että ensin tehdään otanta
havaintoyksikköjä suuremmista kokonaisuuksista, jonka jälkeen valitaan näistä
kokonaisuuksista varsinaiseen otokseen tulevat havaintoyksiköt. Oletetaan, että
tutkimustehtävänä on selvittää sairaalapotilaiden tyytyväisyyttä heidän
saamansa hoitoon. Kaikilla sairaaloilla on omat potilasrekisterit, mutta
tutkijalla ei ole käytettävissään kattavaa tietoa kaikista maan potilaista.
Hänellä on kuitenkin apunaan lista kaikista Suomen sairaaloista.
Ryväsotanta
etenee niin, että ensin tutkija ottaa haluamansa kokoisen otoksen sairaaloista.
Tässä vaiheessa voidaan käyttää muita edellä esitettyjä otantamenetelmiä,
esimerkiksi yksinkertaista satunnaisotantaa. Tämän jälkeen tutkija voi pyytä
valituista sairaaloista listat heidän potilaistaan ja poimia varsinaisen
otoksen näistä listoista. Menetelmän ilmeisenä etuna on se, että
potilashaastattelut voidaan rajoittaa valittuun määrään sairaaloita, mikä
vähentää tiedonkeruun kustannuksia. Samaa menetelmää voidaan käyttää
esimerkiksi tutkittaessa jonkin kaupungin asukkaiden mielipiteitä.
Ensimmäisessä vaiheessa valitaan otos kaupungin alueista, ja sen jälkeen varsinainen
otos poimitaan näistä valituista alueista.
Yhteiskuntatieteelliseltä
kannalta otantamenetelmiä sekä niihin liittyviä mahdollisuuksia ja ongelmia
käsitellään muun muassa seuraavissa kirjoissa. Otantamenetelmien lisäksi De
Vausin kirjassa käsitellään myös sopivan otoskoon valintaan vaikuttavia
tekijöitä.
Tilastotieteelliseltä
kannalta otantamenetelmiä ja –teoriaa käsitellään Pahkisen ja Lehtosen
kirjassa:
Soveltuvan
kokoisen otoskoon määrääminen riippuu monista asioista. Yksi otoskoon valintaan
vaikuttava tekijä on se, millä tarkkuudella saadut tuloksen halutaan yleistää
koko perusjoukkoa koskeviksi (katso »tilastollinen päättely). Verkosta löytyy useita laskureita,
jotka voivat auttaa otoskoon määräämisessä. Laskureita löytyy muun muassa
seuraavista osoitteista: