[»Yleistä]
[»Muuttujien uudelleenkoodaus]
[»Lisätietoja]
[»Kalvot]
Tutkimusaineiston
analyysin yhteydessä tulee usein vastaan tilanne, jossa olemassa olevia
muuttujia on tarpeellista jotenkin muuttaa tai niiden pohjalta on tarve luoda
kokonaan uusia muuttujia. Esimerkiksi kyselyaineiston yksi muuttuja voi kuvata
vastaajan syntymävuotta. Tutkimusraportissa on kuitenkin havainnollisempaa
käyttää muuttujana vastaajan ikää vastaushetkellä kuin hänen syntymävuottaan.
Näin syntymävuosimuuttuja on muunnettava niin, että se kuvaa vastaajan ikää.
Toinen tyypillinen esimerkki tarpeesta muuttaa alkuperäisen muuttujan koodausta
on tilanne, jossa muuttujaa pitää luokitella ennen »ristiintaulukointia.
Tällöin ikämuuttuja (tai syntymävuosimuuttuja) on muunnettava valittuja
ikäryhmiä kuvaavaksi muuttujaksi. Tällaista toimenpidettä kutsutaan muuttujan
uudelleenkoodaukseksi (recode).
Uuden muuttujan
luomisessa otetaan lähtökohdaksi yksi tai useampi olemassa oleva muuttuja.
Uuden muuttuja luontitavat vaihtelevat hiukan eri tilasto-ohjelmistoilla.
Yleinen periaate on kuitenkin, että luotava muuttuja esitetään matemaattisen
kaavan muodossa. Kaava voi sisältää erilaisia matemaattisia operaatiota, kuten
yhteen-, vähennys-, kerto- tai jakolaskuja. Myös monimutkaisemmat matemaattiset
operaatiot kuten logaritmin tai neliöjuuren ottaminen muuttujista ovat
mahdollisia.
Oletetaan, että
kunta-aineistoa käyttävä tutkia haluaa lisätä analyysiinsa kunnan
asukastiheyttä kuvaavan muuttujan. Aineistossa ei kuitenkaan ole tällaista
muuttujaa, mutta tutkijan onneksi siitä löytyvät kunnan väkilukua ja pinta-alaa
kuvaavat muuttujat. Uusi kunnan asukastiheyttä kuvaava muuttuja voidaan luoda
yksinkertaisesti suorittamalla seuraavanlainen laskuoperaatio:
TIHEYS = ASUKASLUKU / PINTA-ALA
Yllä olevassa
kaavassa ’TIHEYS’ on uusi kunnan asukastiheyttä kuvaava muuttuja ja se luodaan
jakamalla ’ASUKASLUKU’ -muuttujan arvo ’PINTA-ALA’ -muuttujan arvolla.
»Summamuuttujia luodessa täytyy myös ymmärtää käytännön tasolla, miten uusia muuttujia
luodaan. Summamuuttuja luodaan yhdistämällä useita samaa ilmiötä eri tavoin
mittaavia muuttujia. Kuten nimikin antaa ymmärtää, yleisin tapa luoda
summamuuttuja on laskea sen pohjana olevat muuttujien arvot yhteen.
Esimerkiksi, jos tutkija haluaa muodostaa summamuuttujan viiteen eri
kysymykseen saaduista vastauksista (KYS1, KYS2, KYS3, KYS4, KYS5), tapahtuu se
seuraavasti:
SUMMA = KYS1 + KYS2 + KYS3 + KYS4 + KYS5
Kaavassa ’SUMMA’
on uuden summamuuttujan nimi. Tässä esimerkissä uusi summamuuttuja ei ole
samalla asteikolla kuin alkuperäiset kysymykset. Joskus voi olla
havainnollisempaa, että luotu summamuuttuja vaihtelisi samalla välillä kuin ne
alkuperäiset osiot, josta summamuuttuja muodostettiin. Jos oletetaan, että
esimerkin kysymykset KYS1-5 saavat jokainen arvoja välillä 1-5, on
summamuuttujan mahdollinen vaihteluväli 5-25. Vaihtoehtoinen tapa muodostaa
summamuuttuja on
SUMMA = (KYS1 + KYS2 + KYS3 + KYS4 + KYS5)/5
Näin muodostettu
summamuuttuja sisältää periaatteessa saman informaation kuin aikaisempi
summamuuttuja, mutta sen vaihteluväli on sama kuin alkuperäisillä kysymyksillä.
Tämä helpottaa summamuuttujan arvojen tulkintaa, koska nämä arvot voi suoraan
suhteuttaa alkuperäisten kysymysten vastausvaihtoehtoihin.
Kolmas esimerkki
tilanteesta, jossa uuden muuttujan luominen on tarpeen on jo edellä mainittu
vastaajan syntymävuoden muunnos vastaajan vastaushetken iäksi. 1990-luvun
puolenvälin kansainvälisen World Values Surveyn kyselyn Suomen osa-aineisto
kerättiin vuonna 1996 (ks. »aineiston
kuvaus). Kyselyssä kysyttiin vastaajan syntymävuotta (muuttuja V215) tai
tarkalleen ottaen syntymävuoden kahta viimeistä numeroa (oletuksena oli, että
kukaan vastaajista ei ole syntynyt 1800-luvulla). Vastaajan ikä saadaan
selville luomalla uusi muuttuja seuraavalla tavalla:
IKÄ = 96- SYNTYMÄVUOSI
Jos vastaaja on
ilmoittanut syntymävuodekseen vuoden 70 saa oheisen kaavan mukaan ikämuuttujan
arvoksi 26 jne. Oheisella laskukaavalla tulee vastaajien ikään tietysti pieniä
virheitä riippuen siitä, mihin vuodenaikaan kysely tehtiin. Suurimmillaankin
nämä virheet ovat alle vuoden, joten niillä tuskin on suurta vaikutusta
tulosten kannalta.
Lisäksi uusien
muuttujien luomista tarvitaan tilanteissa, joissa alkuperäisen muuttujan
jakauma on sellainen, että muuttujan käyttö sellaisenaan ei ole järkevää empiirisessä
analyysissa. Tällaisessa tapauksessa muuttujalle voidaan tehdä muunnos, jonka
jälkeen sen jakauma noudattaa lähemmin normaalijakaumaa. Usein käytettyjä
muunnoksia tällaisessa yhteydessä ovat esimerkiksi logaritmin tai neliöjuuren
ottaminen alkuperäisestä muuttujasta.
Muuttujien
uudelleenkoodaus tarkoittaa sitä, että alkuperäisen muuttujan arvot vaihdetaan
uusiin arvoihin. Esimerkiksi aineistossa voi vastaajan sukupuoli olla koodattu
niin, että mies saa arvon yksi ja nainen arvon kaksi. Joissain tapauksissa
(esimerkiksi »regressioanalyysin
yhteydessä) on kuitenkin järkevää muuttaa muuttujan koodausta niin, että toinen
sukupuoli saa arvon nolla ja toinen arvon yksi. Tällaista muutosta kutsutaan
uudelleenkoodaukseksi.
Uudelleenkoodaus
on mahdollista tehdä tilasto-ohjelmistojen avulla kahdella eri tavalla.
Ensimmäinen vaihtoehto on, että alkuperäisen muuttujan koodaus muutetaan
uudeksi (recode into same variable). Tällöin kuitenkin menetetään
muuttujan alkuperäiset arvon. Toinen vaihtoehto on muodostaa uusi muuttuja,
joka sisältää uudet muuttujan arvot (recode into different variable).
Käytännössä jälkimmäinen menettely on turvallisempi, koska virheen sattuessa
alkuperäinen muuttuja on vielä tallessa, ja virhe voidaan korjata.
Uudelleenkoodausta
tarvitaan esimerkiksi silloin, kun halutaan muuttaa alkuperäisen muuttujan
”suuntaa” (eli pieneksi arvoksi koodatut vastausvaihtoehdot halutaan muuttaa
suuriksi arvoiksi ja päinvastoin). Tämä on erityisen tärkeää »summamuuttujien luomisen
yhteydessä. Summamuuttujaa tehtäessä täytyy kaikki käytettävät muuttujat
koodata siten, että suuret muuttujan arvot kuvaavat jokaisen muuttujan osalta
samansuuntaisesti mitattavaa asiaa. Muutoin summamuuttuja on virheellinen.
Joskus muuttujan ’suunta’
kannattaa muuttaa jo pelkästään havainnollisuuden vuoksi. Esimerkiksi yhdessä
World Values (ks. »aineiston
kuvaus) kyselyn osassa tiedustellaan vastaajan terveydentilaa (muuttuja
V11). Vastaajat saavat kuvailla omaa terveyttään seuraavin vaihtoehdoin:
”erittäin hyvä”, ”melko hyvä”, ”kohtalainen”, ”melko huono” ja ”erittäin
huono”. Vastaukset on koodattu niin, että ne jotka pitävät terveyttään erittäin
hyvänä saavat arvon 1, melko hyvänä arvon 2, kohtalaisena arvon 3, melko
huonona arvon 4 ja erittäin huonona arvon 5. Muuttujaa voisi kuvata nimellä
’terveysmuuttuja’, mutta tämä nimi
olisi harhaanjohtava, koska muuttujan suuret arvot kuvaavat itse asiassa huonoa
terveydentilaa. Uudelleenkodaus tekisi muuttujasta havainnollisemman. Tällöin
suuret arvot kuvastaisivat hyvää terveydentilaa. Tämä tapahtuu niin, että
tilasto-ohjelmiston avulla luodaan uusi ’terveys’ -muuttuja, jossa alkuperäisen
muuttujan arvo 1 korvataan arvolla 5, arvo 2 korvataan arvolla 4 jne.
Uudelleenkoodauksen
käyttö on myös erittäin yleistä silloin, kun välimatka- tai suhdeasteikolla
mitattu muuttuja (katso »muuttujien
mittaustaso) halutaan muuttaa luokitelluksi järjestelyasteikolliseksi
muuttujaksi. Esimerkiksi luokittelematonta ikämuuttujaa ei useinkaan voi
käyttää »ristiintaulukoinnissa
käytännön syistä. Ikämuuttuja voidaan kuitenkin uudelleenkoodauksen avulla
muuntaa ikäluokkamuuttujaksi, jonka arvot kuvastavat vastaajan kuulumista
tiettyyn ikäryhmään. Esimerkiksi vastaajan ikä voidaan uudelleenkoodata kolmeen
luokkaan seuraavalla tavalla: kaikki alle 35-vuotiaat vastaajat saavat arvon 1,
35-59-vuotiaat saavat arvon 2 ja kaikki yli 59-vuotiaat arvon 3. Tätä
uudelleenluokiteltua muuttujaa voidaan käyttää ristiintaulukoinnissa (ks. esimerkki
»ristiintaulukon
elaboroinnista).
Suomeksi
lisätietoja muuttujien koodauksesta ja muunnoksista voi katsoa Alkulan ym.
teoksesta:
Englanniksi
kannattaa katsoa:
Joskus muuttujien
jakauma voi olla sellainen, että analyysin parantamiseksi sen muunnos jollain
tavalla on tarpeellinen. Muunnostapoja on erilaisia riippuen käytetyn
menetelmän vaatimuksista ja teoreettisista olettamuksista. Tällaisista
muunnoksista voi lukea lisää seuraavasta kirjasta: