Pikaohjeita SPSS:lle (Reunamo)
Muuttujien määrittäminen ja
aineiston syöttö
|
|
Hyviä käytännön oppaita SPSS:n käyttöön löytyy esimerkiksi YouTubesta, kvantiblogista ja Kvantitatiivisten menetelmien tietovarannosta. |
Muuttujien määrittäminen
|
Muuttujien määrittely
tapahtuu Variable View-ikkunassa (ohjelmaikkunan vasemmassa
alareunassa oleva välilehti). Vasempaan sarakkeeseen Name anna muuttujan nimi
(lyhyt nimi, ehdoton yläraja 64 merkkiä, ei välilyöntejä tai erikoismerkkejä,
pitää alkaa kirjaimella). Type sarake:
Muuttujan tyyppi valitaan klikkaamalla Type -sarakkeen oikeata reunaa
hiirellä. Avautuvasta valikosta valitaan joko Numeric (numeroille,
joissa voi olla desimaaleja tai String (nimille, määritelmille ym.
sanoille ja lauseille). Usein kannattaa valita vaihtoehto Numeric ja
sitten myöhemmin määritellä eri numeroilden määreet Values-sarakkeessa.
Tekstimuotoisten muuttujien käyttö voi olla järkevää jos aineistossa tulee
tarvetta käsitellä yksittäisiä tapauksia esimerkiksi tutkimalla muista
runsaasti poikkeavia havaintoja (outliers). Tekstimuotoiset muuttujat ovat
myös käyttökelpoisia jos halutaan sirontakuvioon kunkin tapauksen nimi (esim.
kaupunki) tai esimerkiksi ryhmittelyanalyysissa
halutaan tutkia ryhmiä yksityiskohtaisemmin. Huomaa että esimerkiksi
postinumerot ja puhelinnumerot ovat String-muuttujia. Nyrkkisääntönä
voi pitää, että jos erisnimillä on merkitystä analyysissä, valitse String,
jos taas kysymyksessä on luokkaa kuvaava attribuuttimuuttuja, määritä
muuttujien arvot Values-sarakkeessa. Jos muuttuja saa erittäin pieniä
(esim. 0,00000003) arvoja tai erittäin suuria arvoja (esim. miljoonia),
kannattaa käyttää vaihtoehtoa Scientific Notation, sillä silloin
desimaalipilkun paikan kertoo muuttujan arvon eksponentti, joten
pilkkuvirheitä ei satu niin helposti. Width-sarake: Määritetään string (kirjaimia) muuttujan
merkkien maksimimäärä, voi joutua lisäämään jos muuttujan arvot tekstiä,
esimerkiksi avoimia vastauksia. Decimals- sarake: Klikkaa saraketta,
määritä desimaalien määrä nuolinäppäimillä. Jos muuttuja on esim.
nominaaliasteikon muuttuja, ei desimaaleja yleensä tarvita. Desimaalien määrä
voi vaikuttaa tulosteisiin. Esimerkiksi Output -ikkunaan tulostuu
keskiarvoihin kaksi desimaalia enemmän kuin on määritelty muuttujan
desimaaleiksi Variable View -ikkunassa. Custom Tables -toiminnossa
desimaaleja tulostuu niin monta kuin Variable View -ikkunassa on
määritelty. Label-sarake: Muuttujan kuvaus, joka tulee outputin
taulukoihin, joten varo niin pitkiä tekstejä että taulukot tulevat
vaikealukuisiksi. Values-sarake: Käytetään muuttujan ryhmien tai arvojen määrittämiseen. Napsauta
hiirellä Values-sarakkeen oikeaan reunaan ja anna tarvittavat arvot
(esim. Value: 1, Value Label: Kissa
> Add >Value: 2 > Value Label: Koira > Add > OK.) Missing-sarakkeessa voidaan määrätä puuttuvien tietojen koodit,
jos halutaan erotella
puuttuvien tietojen syyt (esim. väärä vastaus tai puuttuva vastaus). Kun
puuttuvien tietojen symbolit on määritelty erikseen (esim. 99 = väärin
ymmärretty kysymys), SPSS ei ota Missing -sarakkeeseen määriteltyjä
arvoja mukaan tilastollisiin analyyseihin. Columns-sarake: Määrittää Data
View -ikkunassa näkyvän sarakkeen leveyden. Joskus on esim. mukava
kapeuttaa sarakkeita jotta kaikki muuttujat näkyvät tai leventää sarakkeita
jotta teksti näkyy. Align-sarake: Määrittää reunan tasauksen: tuleeko arvo sarakkeen vasempaan
reunaan, keskelle vai oikeaan reunaan, tämä ei yleensä ole tärkeää. Scale-sarake: Valitse nominal laatueroasteikolliselle
(esim. sukupuoli), ordinal järestysasteikolliselle (esim.
paremmuusjärjestys) tai scale suhdeasteikon (esim. matkan pituus)
muuttujalle. Tässä kannattaa olla huolellinen, sillä SPSS ei esimerkiksi
suostu laskemaan aina keskiarvoja nominaaliasteikollisille tai SPSS ei osaa tehdä
lukumäärätaulukoita aina oikein, jos asteikkoina on virheellisesti
suhdeasteikko. Asteikot vaikuttavat myös joissakin tilastollisissa
analyyseissa. Aineiston syöttö tapahtuu Data View-ikkunassa (Data View-välilehti
vasemmassa
alareunassa). Napsauta ensimmäisen sarakkeen ensimmäistä solua, liiku
eteenpäin nuolinäppäimillä. Kukin tapaus tulee omalle rivilleen, kukin
muuttuja omaan sarakkeeseensa. Voit myös kopioida aineiston Excelistä tai
avata Excel-tiedoston File > Olen > Data > Files of type >
Excel > etsi tiedosto > Open. |
Virheiden
tarkistaminen
|
Aineiston virheettömyys pitäisi aina tarkistaa. Jos olet nopea
aineistön syöttäjä, nopein tapa tarkastaa virheet on syöttää aineisto kaksi
kertaa ja tarkistaa
tunnuslukujen ja lukumäärien avulla aineistojen yhtenevyys. Ala- ja ylärajan
ylittävät virhelyönnit kannattaa katsoa nominaaliasteikon muuttujilla Analyze
> Descriptive statistics > Frequencies... toiminnolla ja jatkuvilla muuttujilla Analyze
> Descriptive statistics > Explore... toiminnolla. Taulukosta löytyvä virhearvo löytyy tämän
jälkeen isostakin aineistosta esimerkiksi Sort Cases toiminnon avulla. On kuitenkin huomattava, ettei tällä menettelyllä löydy
esimerkiksi virheitä, joissa esimerkiksi poika (1) on vahingossa koodattu tytöksi (2), vaan vain virheet
jotka koskevat määritelyjä lukuja tai ääriarvoja voivat löytyä. Sen vuoksi
tarvitaan lisäksi aineiston syötön tarkistaminen. Jos olet nopea ja hyvä
koodaaja, tarkistus on kätevintä tehdä koodaamalla aineisto kahteen kertaan
ja katsomalla aineiston erot. Muuten käy aineisto läpi tapaus tapaukselta. Puuttuvien tietojen vaikutusta kuvauksiin ja analyysiin
voi arvioida erityisesti Explorer-toiminnolla (Analyze > Descriptive
Statistics > Explore. Ristiintaulukoimalla muuttujia voidaan saada
selville ovatko puuttuvat vastaukset kasaantuneet tietyn tyyppisille
tapauksille. Valitsemalla Options-painikkeen alta vuorotellen listwise
(jolloin mukaan otetaan vain tapaukset, joissa ei ole puuttuvia tietoja) ja
pairwise (jolloin mukaan otetaan kaikista tapauksista jokaisen muuttujan
ei-puuttuvat arvot) saadaan esiin vaikutuksia, joita aiheutuu muuttujissa
olevista puuttuvista arvoista. Jos Listwise ja Pairwise eroavat huomattavasti toisistaan, se viittaa
siihen että esimerkiksi korrelaatioita laskettaessa tai vaikkapa
faktorianalyysissä muuttujien puuttuvilla arvoilla saattaa olla vaikutusta
tuloksiin. Esimerkiksi korrelaatioita laskettaessa Listwise poistaa useita
korrelaatioita laskettaessa kaikki tapaukset, joissa on yhdessäkin
analyysissä mukana olevassa muuttujassa puuttuva arvo. Näin esimerkiksi yksi
runsaasti puuttuvia tietoja sisältävä muuttuja vaikuttaa kaikkiin muihinkin
korrelaatioihin vinouttaen tuloksia ja usein vähentäen tulosten
merkitsevyyttä. |
Tapausten valitseminen
|
Joskus voit haluta analysoida esimerkiksi vain tiettyyn kuntaan liittyviä tuloksia, jolloin voit jättää muut kunnat huomiotta. Data > Select cases > If condition is statisfied > If > siirrä muuttuja oikeaan ikkunaan > esim: kunta =1 | kunta = 4 (kunta saa arvon 1 tai 4)> continue > ok. |
Reliabiliteetti
|
Reliabiliteettianalyysin avulla voit määrätä esim. kyselyn kysymysten liittymistä toisiinsa, saat reliabiliteettikertoimen, joka kuvaa muuttujien sisäistä samankaltaisuutta. Reliabiliteettikertoimen avulla voit löytää esim. kysymyksen, joka ei mittaakaan samaa asiaa kuin muut ilmiön mittaamiseen tarkoitetut kysymykset. Ennen analyysia kaikki asteikot on käännettävä samansuuntaisiksi, esimerkiksi kielteiset myönteiseksi. (Kääntämisen voi tehdä esimerkiksi Transform > Compute Variable > Kirjoita Target Variable -kenttään uuden muuttujan nimi > siirrä käännettävä muuttuja Numeric Expression -ikkunaan > kirjoita ikkunaan 6 - käännettävän muuttujan nimi (jos asteikko on 1-5). Reliabiliteetti otetaan Analyze-valikosta > Scale > Reliability analysis > Siirrä oikeaan ikkunaan samaa asiaa mittaavat muuttujat > Paina statistics-painiketta > Valitse scale if item deleted > continue > OK. Kun alphan arvo (ylempi taulukko Cronbach's Alpha) > ,60, mittaria pidetään usein luotettavana. Jos alemman taulukon sarakkeessa ”Alpha If item deleted” alfa saa suuremman arvon kuin ylemmän taulukon Alphan arvo, on syytä harkita muuttujan poistamista samaa asiaa mittaavasta mittarista. Jos poistamisen jälkeen tehtävässä löytyy lisää reliabiliteettia laskevia muuttujia, eniten reliabiliteettia laskeva muuttuja voidaan taas poistaa jne. Poistoja tehdessä pitää kuitenkin myös miettiä, onko mukana teoreettisesti tarpeellisia muuttujia. Lisäksi usean muuttujan pitäminen mukana summamuuttujassa lisää summamuuttujan stabiilisuutta, koska useampi muuttuja vähentää satunnaishajontaa. |
Summamuuttujan teko
|
Summamuuttujia muodostetaan yleensä samalla asteikolla mitatut väitelauseet yhteenlaskemalla tai muuten samaa asiaa mittaavat muuttujat yhteenlaskemalla. Se mittaavatko muuttujat todella samaa asiaa, voidaan tarkistaa reliabiliteettianalyysilla. Transform-valikosta > Compute > target variable ikkunaan kirjoita summamuuttujan nimi > Vasemmasta ikkunasta siirrä nuolipainikkeen avulla muuttuja oikeaan ikkunaan > paina painiketta + > lisää muut summamuuttujaan kuuluvat muuttujat samalla tavalla (+ merkki väliin) > ok > dataikkunan viimeiseen sarakkeeseen ilmestyy uusi tekemäsi summamuuttuja. |
Huom! Jos yhteenlaskettavissa muuttujissa on puuttuvia tietoja, ne pienentävät summaa, joten kannattaa käyttää muuttujien keskiarvoa: Transform > Compute > target variable ikkunaan kirjoita summamuuttujan nimi > Functions-ikkunasta rullaa esiin mean(numexpr,numexpr), kaksoisnapsauta > kirjoita sulkeiden sisään summamuuttujaan kuuluvat muuttujat, erota muuttujat pilkulla > OK. |
Tunnusluvut
|
Usein nominaaliasteikon muuttujia kannattaa arvioida Frequencies - toiminnolla (Analyze > Descriptive statistics > Frequencies...), jossa siirrät haluamasi muuttujat Variables -ikkunaan. Näin saat esiin kunkin luokan lukumäärät. Jatkuvien muuttujien tunnuslukuja varten on tarkoitettu Descriptives toiminto (Analyze > Descriptive statistics > Descriptives...) > siirrä muuttuja(t) oikeaan ikkunaan > paina painiketta Options > Valitse tarpeen mukaan mean (keskiarvo: datan arvojen summa jaettun arvojen lukumäärällä), median (mediaani: keskimmäinen arvo), mode (moodi: yleisin arvo), sum (datan arvojen summa), std. deviation (standard deviation, keskihajonta: kuvaa normaalisti jakautuneen muuttujan hajontaa keskiarvon ympärillä), variance (varianssi: keskihajonta toiseen), range (vaihteluväli: maksimi miinus minimi), S.E. mean (standard error of mean: kuvaa otoksen keskiarvon oletettua hajontaa), skewness (vinous: ks. jakauman normaalisuus), kurtosis (huipukkuus: ks. jakauman normaalisuus). |
Ristiintaulukointi
(Crosstabs)
|
Ristiintaulukointi on mainio tapa
arvioida nominaaliasteikollisten muuttujien keskinäisiä suhteita niiden
kuhunkin luokkaan tulevien luokkien lukumääriä arvioimalla (Analyze >
Descriptive statistics > Crosstabs). Siirrä toinen nominaaliasteikon
muuttuja Row -ikkunaan ja toinen Column -ikkunaan. Usein
ristiintaulukoinnin analyysissä tärkeätä on verrata ylemmällä rivillä (tai
sarakkeessa) olevien lukumäärien erojen suhdetta alemmilla riveillä (tai
sarakkeissa) olevien lukumäärien suhteisiin. Tämä arviointi on yleensä
helpompaa jos vertailuun käyttää prosentteja, jotka saa esiin Cells -painikkeen
alta valitsemalla Row (tai Column) ja poistamalli valinta Observed
-valinnasta. Paina sen jälkeen Continue
> OK. Ristiintaulukoinnissa havaittuja lukumäärien suhteissa havaittujen erojen merkitsevyyttä voi testata Chi-neliön testillä. |
Usean muuttujan luokkien
tunnuslukujen kuvaus
|
Usean muuttujan keskiarvot ym. tunnusluvut saa Analyze > Tables > Custom Tables > siirrä nominaaliasteikon muuttuja hiirellä Columns-palkin päälle. Variable View -näkymässä tulee olla määritelty muuttuja nominaaliasteikolliseksi, jotta muuttujaa voi käyttää luokitteluun. Vedä ensimmäinen jatkuva muuttuja Rows palkin päälle. Siirrä sen jälkeen muut jatkuvat muuttujat hiirellä syntyneen taulukon alareunaan. Summary Statistics -painikkeen alta voi vaihtaa tunnuslukuja. Nominaaliasteikon muuttujia Rows palkkiin vietäessä voidaan tehdä koosteita ja vertailuja useiden muuttujien luokkien lukumääristä. Jotta keskiarvoja voisi laskea on muuttujan oltava määritelty suhdeasteikon muuttujaksi (scale). Keskiarvojen desimaalien määrää taulukoissa voi säätää Variable View -ikkunan Decimals -sarakkeesta. Desimaaleja voi määrittää myös suoraan Output-ikkunassa: kaksoisnapsauta taulukkoa > maalaa haluamasi tunnusluvut > napsauta lukuja hiiren oikealla painikkeella > avautuvasta valikosta voit määrittää solujen ominaisuudet, järjestää tulokset suuruusjärjestykseen tehdä taulukosta kuvioita Raportoinnin esimerkki |
Jakauman normaalisuus
|
Parametriset menetelmät edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää. Havainnollisen kuvan jakauman normaalisuutta voi tutkia esimerkiksi histogrammilla: Graphs > Histogram > Siirrä muuttuja oikeaan pikkuikkunaan > rastita Display normal curve > Ok. Jakauman tulisi muistuttaa Gaussin käyrää. Tunnusluvut skewness ja kurtosis kuvaavat myös jakauman normaalisuutta: Analyze > Descriptive statistics > Frequencies > siirrä muuttuja oikeaan ikkunaan > Paina painiketta Statistics > Valitse Skewness ja Kurtosis > Continue > Ok. Skewnessin ja kurtosiksen arvo ei nyrkkisäännön mukaan saisi olla yli kaksi kertaa niin suuri kuin niiden standard error, jotka aina myös ilmoitetaan outputissa. Oikeastaan huipukkuus kuvaa jakauman "häntien" paksuutta. Koska Skewness ja Kurtosis kuvaavat yleensä otoksen jakaumaa, varsinkin pienissä otoksissa (esim. alle 30 tapausta) niissä on paljon satunnaista vaihtelua, että nämä tunnusluvut eivät ole luotettavia. Yleensä kannattaa luottaa enemmän histogrammiin kuin jakauman tunnuslukuihin. Normaalisuutta voi testata Kolmogorov-Smirnovin testillä. analyze > Nonparametric Tests > 1-Sample K-S... > Siirrä muuttuja Test Variable List -ikkunaan > Valitse Exact.. painikkeen alta Exact > continue > OK. Jos arvo Exact Sig. (2-tailed) rivillä < ,05, jakauma ei liene normaali. Suurilla tapausten määrillä testitulos on kuitenkin lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn. Joillakin muuttujilla, esimerkiksi koulumatkalla muuttuja on lähes aina ei-normaalisti jakautunut (useimmat asuvat lähellä koulua, mutta muutama asuu kaukana). Tehtäessä parametrisiä testejä (esim. t-testi), jotka edellyttävät normaalisti jakautunutta riippuvaa muuttujaa, voidaan tarvittaessa kokeilla jakauman "suoristamista" muuttujamuunnoksilla. |
Normaalisuuden arviointi Explore -toiminnolla
|
Hyvän yhteenvedon muuttujan normaalisuudesta saa Explore-toiminnolla: Analyze > Descriptive Statistics > Explore. Siirrä arvioitava muuttuja Dependent List –ikkunaan > Statistics –painikkeen alta valitse Descriptives ja Outliers > Paina Plots –painiketta, valitse Histogram ja Normality plots with tests > Continue > Paina Options –painikkeen alta Exclude cases pairwise > Continue > OK. Output-ikkunassa taulukossa Descriptives huomioi seuraavat seikat: Poikkeavatko keskiarvo (Mean) ja 5 % trimmed mean (josta on otettu 5 % ylimmistä ja alimmista arvoista pois) toisistaan? Skewness ja kurtosis -arvo ei nyrkkisäännön mukaan saisi olla yli kaksi kertaa niin suuri kuin niiden standard error, jotka aina myös ilmoitetaan outputissa. Suuremmilla aineistoilla (N > 200) vinous ei enää helposti vaaranna testin tulosta. Extreme values –taulukossa näkyy viisi suurinta ja viisi pienintä arvoa. Tests of Normality on Kolmogorov-Smirnov-testi (ks. yllä). Histogram –kuvion pitäisi muistuttaa kellokäyrää. Normal Q-Q Plotin arvojen pitäisi olla suurin piirtein samalla suoralla. Detrended Normal Q-Q Plots pitäisi hajaantua satunnaisesti nolla-viivan ympärille. Siirtämällä ryhmittelevä muuttuja (esim. sukupuoli) Factor List -ikkunaan voidaan normaalisuutta tarkastella osapopulaatioiden osalta erikseen. Esimerkiksi tyttöjen ja poikien ryhmissä pitäisi kummankin ryhmän olla normaalisti jakautunut, jotta analyysissä voi käyttää parametrisiä menetelmiä, esim. varianssianalyysia. |
Luottamusväli
|
Luottamusväli kuvaa jakaumaa, jonka alueella populaation keskiarvo tietyllä uskottavuudella sijaitsee. Se kuvaa otoskeskiarvon jakaumaa. Usein tämä uskottavuuden raja määritetään 95% todennäköisyydeksi (SPSS:n oletusarvo, voi olla myös esim. 99% tai 99,9%). Riski, että keskiarvo ei sijaitse alueella, on tällöin 5%. Tarvitsemme sitä laajemman alueen, mitä varmempia haluamme otoksemme keskiarvon ja hajonnan perusteella arvioidun koko populaation (esim. suomalaiset 4-vuotiaat pojat) keskiarvosta olla. Analyze > Descriptive statistics > Explore > Siirrä muuttuja Dependent List ikkunaan > OK. Lower Bound kertoo luottamusvälin alarajan, Upper Bound ylärajan. Luottamusvälin arvioi on luotettava vain normaalisti jakautuneilla muuttujilla, käytännössä mielellään aidolla suhdeasteikolla mitatuilla muuttujilla. Järjestysasteikot (esim. väitelauseet joita arvioidaan yhdestä viiteen) antavat usein järjettömiä luottamusvälejä. Luottamusvälin raportoinnin esimerkki. |
Yhden otoksen Khii-neliö-testi (chi-square)
|
Voidaan käyttää verrattaessa muuttujan ryhmien suuruuksia.
Jos esimerkiksi oletetaan että kummassakin ryhmässä pitäisi tulla 50 %
tapauksista, voidaan todellista jakaumaa verrata tähän odotusjakaumaan.
Toinen vaihtoehto on, että aikaisemman tutkimuksen perusteella oletetaan
ryhmäkoot tietynlaisiksi. Esimerkissä katsomme onko tyttöjä
ja poikia tapauksina yhtä paljon: Analyze
> Nonparametric tests > Legacy dialogs > Chi-Square > Siirrä
Sukupuoli-muuttuja Test Variable List
-ikkunaan > Expected Values
-kohdassa oletusarvo on All categories
Equal. Jos sinulla muu lukumäärien suhde tai ryhmiä on useampia, sinun
täytyy valita Values ja kirjata jokaiselle ryhmälle oma odotusarvo (esim. ,3
ja ,7) > OK. Ensimmäinen taulukko näyttää havaitut ja odotusarvot.
Toinen taulukko kertoo havaittujen ja odotusarvojen eron merkitsevyyden, joka
katsotaan Asymp Sig. riviltä >
jos merkitsevyys on pienempi kuin ,05, lukumäärien erot ovat merkitseviä.
Näin ollen esimerkkiotoksessa ei ollut tilastollisesti merkitsevästi enemmän
tyttöjä tai poikia. Katso raportoinnin esimerkki. |
Riippumattomien otosten Khii-neliö-testi (chi-square)
|
Tutkitaan lukumäärien eron merkitsevyyttä, eli kuinka suuri on riski, ettei ryhmien välillä olekaan eroa. Mitä suurempi odotusarvojen ja havaittujen arvojen ero, sitä pienempi on riski, että ero johtuu sattumasta. Analyze > Descriptive > Crosstabs> valitse 2 muuttujaa > Paina statistics > valitse chi-square > ruksaa Phii and Cramers V > >continue > OK Riskitason oltava alle ,05, jotta lukumäärien ero olisi merkitsevä (eli riski että ero johtuu sattumasta on oltava alle 5%). Merkitsevyys katsotaan yleensä kohdasta Pearson Chi-square. Symmetric measures -ikkunassa Cramer's V kuvaa muuttujien keskinäisen vaikutuksen määrää (Effect size), kahden kategorian tapauksessa alle ,01 on pieni vaikutus (,30 kohtalainen, ,50 suuri), kolmen kategorian tapauksessa alle ,07 on pieni vaikutus (.21 kohtalainen, .35 suuri) ja neljän kategorian tapauksessa alle ,06 on pieni vaikutus (,17 kohtalainen, ,29 suuri). Enintään 20 % odotusarvoista saa olla alle viiden. Kaikkien odotusarvojen tulee olla vähintään yksi. Jos odotusarvojen vaatimukset eivät täyty, 2x2 taulukossa luotettavampi merkitsevyysarvo löytyy sarakkeesta Exact Sig. (2-sided) riviltä Fischer's exact test. Metsämuuronen suosittaa käyttämään aina tarkkaa testiä, sillä aineiston pienuus, taulukoiden vajaus tai jakautuminen ei aiheuta tarkassa (Exact..) testissä harhaisia tuloksia. Suuremmista taulukoista Crosstabs-ikkunasta valitse painikkeen Exact... alta Exact > Continue > OK. Katso merkitsevyys sarakkeesta Exact Sig. (2-sided). Jos SPSS ei pysty tekemään eksaktia testiä (esim. jos aineistossa on satoja tapauksia ja useita luokkia, ei tarkka testi useinkaan onnistu) , voi SPSS:n laskemista helpottaa esim. vähentämällä solujen määrää Recode-komennolla: Transform > Recode- Into different variables > siirrä muuttuja oikeaan ikkunaan > anna muuttujalle uusi nimi> paina painiketta Old and new values >Range > määritä uudet arvot (esim. 1 vasempaan ikkunaan, 9 oikeaan > New value ikkunaan esim. 1 uusi arvo on 1 > paina add > Vasempaan ikkunaan 10, oikeaan 1000 > New value ikkunaan arvo 2 > paina add > continue > Anna uudelleen luokitellulle muuttujalle nimi Output variable -ikkunaan (esim pktyo2) > change > OK. Luokituksia valitsemalla (select cases) voi myös vähentää solujen määrää ja saada tarkasteluun vain haluamansa luokitukset. Raportoinnin esimerkki. |
Korrelaatio
|
Mittaa kahden muuttujan välistä yhteyttä. Korrelaation arvo vaihtelee miinus yhden ja plus yhden välillä. Mitä lähemmäs plus ykköstä korrelaatio kasvaa, sitä vahvempi yhteys muuttujilla on (kun toisen muuttujan arvo kasvaa, toisenkin muuttujan arvo kasvaa.) Jos korrelaatio lähenee nolla, muuttujien välillä ei ole yhteyttä. Jos korrelaatio on miinusmerkkinen toisen muuttujan arvojen vähetessä, toisen muuttujan arvoilla on taipumus kasvaa ja lähetessään miinus ykköstä yhteys vain vahvenee. Analyze > Correlate > Bivariate > Siirrä muuttujat oikeaan ikkunaan > Ok. Tulos katsotaan Correlations -taulukosta, jossa korrelaatiot ja niiden merkitsevyydet on ristiintaulukoitu. Riviltä Pearson Correlation katsotaan siis yhteyden voimakkuus. Riviltä Sig. (2-tailed) katsotaan korrelaation tilastollinen merkitsevyys. Huomaa puuttuvien tietojen tai ei-normaalisuuden vaikutus korrelaatioon. Kun korrelaation arvo kasvaa (Outputissa rivillä Correlation), riskitaso (riski ettei korrelaatiota todellisuudessa olekaan) pienenee (rivillä Sig. (2-tailed), eli mitä suurempi korrelaatio, sitä harvemmin se johtuu sattumasta. Kasvatustieteessä riskitaso on usein ,05 (viisi prosenttia). Korrelaatiokerroin siis kertoo yhteyden voimakkuudesta, Sig. sattuman mahdollisuudesta. Laatueroasteikollisia muuttujia, varsinkaan jos luokkia on enemmän kuin kaksi, ei voi käyttää korrelaatioiden laskemiseen, elleivät sitten ryhmät ole järjestetty esimerkiksi ominaisuuden suuruuden mukaan. Muuttujien keskinäistä vaikutusta voi kuvata kertomalla korrelaation itsellään: Esimerkiksi ,300:n korrelaatio antaa muuttujien keskinäiseksi vaikutukseksi ,300 * ,300 = ,090, eli vaikutus on yhdeksän prosenttia. Jos muuttujat eivät ole normaalisti jakautuneet, ruksaa Analyze > Correlate > Bivariate> Bivariate Correlations -ikkunassa Spearman. Spearmanin järjestyskorrelaatiokerroin ei ole niin herkkä muuttujan ei-normaalisuudelle tai poikkeaville arvoille kuin Pearsonin korrelaatiokerroin. Lisäksi normaalisti jakautuneissa muuttujissa Spearman antaa saman tuloksen kuin Pearson, joten ei ole mitään syytä olla käyttämättä Spearmania. Spearmanin korrelaatiokerroinkaan ei kuitenkaan estä puuttuvien tietojen vinouttavaa vaikutusta. Se ei myöskään pysty löytämään ei-lineaarisia yhteyksiä. Korrelaation arvo on rivillä Spearman's rho. Katso raportoinnin esimerkki. |
T-testi
|
Mittaa kahden ryhmän keskiarvojen erojen merkitsevyyttä. Analyze > compare means > Independent samples t-test > siirrä testimuuttuja (jossa keskiarvot eroavat) ikkunaan test variable > siirrä ryhmittelevä muuttuja (esim. asuinkunta) kohtaan grouping variable > valitse ryhmittelevä muuttuja hiirellä > paina painiketta Define groups > kirjoita ryhmät määrittelevät luvut (esim. 1 ja 2, jotka kuvaavat Helsinkiä ja Espoota)> paina continue > Ok. Ensimmäisessä taulukossa näkyy keskiarvojen ero. Toisessa testataan eron merkitsevyttä. Jos Levenen testin mukaan (jos arvo < ,05) ryhmien varianssit ovat erisuuret, luetaan merkitysevyys alariviltä, muuten yläriviltä (kohdasta sig.). Jos riski on alle ,05, niin keskiarvojen ero on tilastollisesti merkitsevä. Katso raportoinnin esimerkki. |
Mann-Whitneyn
testi
|
Keskiarvojen eron merkitsevyyttä tutkittaessa muuttujan täytyy olla normaalisti jakautunut. Jos näin ei ole, voit usein käyttää Mann-Whitneyn testiä. Analyze > Nonparametric Tests > Independent Samples.. > Objective-välilehdeltä valitse Customize analysis > Fields-välilehdeltä siirrä luokitteleva nominaaliasteikollinen muuttuja Groups-ikkunaan (pitää olla kaksi luokkainen) > Siirrä vertailtava muuttuja Test Fields -ikkunaan > Settings-välilehdeltä ruksaa Mann-Whitney U (2 samples) > Paina Run > Kaksoisnapsauta Hypothesis Test Summary -taulukkoa > Katso tilastollinen merkitsevyys kohdasta Asymptotic Sig. (2-sided test). Jos luku on pienempi kuin ,05, ryhmien ero on tilastollisesti merkitsevä. Katso raportoinnin esimerkki. |
Yksisuuntainen
varianssianalyysi (ANOVA)
|
Verrattaessa yhden ryhmittelymuuttujan (esim. asuinpaikka)
vaikutusta jatkuvan muuttujan vaihteluun (esim. bruttotulot) käytetään
yksisuuntaista varianssianalyysiä. Se tutkii sekä havaintojen vaihtelua ryhmien
sisällä että ryhmäkeskiarvojen vaihtelua koko tutkittavassa joukossa.
Varianssianalyysia käytetään ryhmäkeskiarvojen väliseen vertailuun silloin,
kun ryhmiä on enemmän kuin kaksi (jolloin käytetään usein t-testiä). Jos ei
haluta kaikkia luokkia analyysiin, käytä select cases -valintaa. Ennen
varianssianalyysin suorittamista on tarkasteltava muuttujan normaalisuutta ja
mahdollisia ääriarvoja. Analyze > General Linear Model >
Univariate... > Siirrä riippuva muuttuja (esim. bruttotulot) Dependent
Variable -ikkunaan > Siirrä ryhmittelevä muuttuja Fixed
Factor(s) ikkunaan > Jos haluat tietää minkä ryhmien välillä
mahdolliset erot ovat paina Post Hoc... > Siirrä ryhmittelevä
muuttuja (esim. kunta) Post Hoc Tests for: -ikkunaan > Valitse
testiksi Tukey > Continue > Options -painikkeen alta
valitse Descriptive statistics, Estimates of effect size ja Homogeneity
tests. > Continue > OK. Descriptive Statistics -taulukosta nähdään keskiarvot eri ryhmissä. Levene's
test of Equality of Error Variances -taulukosta nähdään varianssien
yhtäsuuruus, Sig. -sarakkeen arvon oltava >,05. Tests of
Between-Subjects Effects -taulukosta katsotaan merkitsevyys sarakkeesta Sig.
riviltä ryhmittelevä muuttuja (esim. kunta), todennäköisyyden oltava <,05,
jotta ryhmien välisen keskiarvon erot olisivat tilastollisesti merkittäviä.
Minkä ryhmien välillä mahdolliset erot ovat, näkyy taulukosta Multiple
Comparisons. Sig. -sarakkeesta (jos arvo < ,05, ryhmien erot
merkitseviä). Jos ryhmien varianssit ovat eri suuria tai jakaumat ovat kovin
vinoja, käytä ei-parametristä Kruskal-Wallisin
testiä, jossa ei oleteta jakauman olevan normaaleja. Katso raportoinnin esimerkki |
Yksisuuntainen
toistettujen mittausten varianssianalyysi
|
Jokainen tapaus (esim. lapsi) on arvioitu tai testattu kaksi tai
useampia kertoja samalla arviointiasteikolla. Analyysia varten on yksi
riippumaton variaabeli (ryhmittelevä muuttuja) ja arviointikertoja vastaava
määrä muuttujia (jatkuvia muuttujia, esim. testiarvoja kullakin
testauskerralla) kuvaamaan riippuvaa muuttujaa. Analyze > General Linear Model > Repeated measures
> Number of Levels-laatikkoon
kirjoita mittausten lukumäärä (esim. 2 tai 3) > Paina Add >
Paina Define > Valitse testimuuttujat ja siirrä nuolipainikkeella
Within Subjects Variables -laatikkoon > Siirrä ryhmittelevä (t)
muuttuja (t) Between-Subjects Factor(s). Napsauta Options > Ruksaa
Descriptive statistics ja Estimates of effect size >
Post-hoc testiä
(kertoo useamman ryhmän tapauksessa, minkä ryhmien välillä erot ovat) varten
valitse riippumattoman kuvaus Factor and Factor Interactions -ikkunasta
Display means for -ikkunaan > ruksaa Compare main effects
> valinnassa Confidence interval adjustment valitse
Bonferroni > Continue > Ok. Descriptive Statistics -taulukosta nähdään ryhmien välisten keskiarvojen erot,
hajonnat ja tapausten lukumäärä. Multivariate tests -taulukosta
keskity riviin Wilks' Lambda > Sig. -sarake kertoo eron
merkitsevyyden, jos arvo on pienempi kuin ,05, testitulokset poikkeavat
mittauskertojen välillä toisistaan. Sarake Partial Eta Squared kertoo
vaikutuksen suuruuden (,01 = pieni, ,06 = kohtuullinen, ,14 = suuri). Pairwise
Comparisons -taulukko kertoo minkä ryhmien välillä erot ovat (jos ovat),
kukin testi on omalla rivillään ja yhden testikerran (muuttujan) keskiarvoja
verrataan aina kaikkien muiden testausten keskiarvoihin, merkitsevät erot on
merkitty tähdellä ja eron merkitsevyys löytyy Sig. -sarakkeesta.
Raportoinnin esimerkki. |
Kruskal-Wallisin
testi
|
Käytetään varianssianalyysin sijasta ei- normaalien jakaumien ja
järjestysasteikollisten muuttujien ryhmien välisiä eroja arvioitaessa. Analyze
> Nonparametric Tests > Independent Samples > Objective-välilehdeltä valitse Customize analysis > Fields-välilehdellä siirrä
ryhmittelevä muuttuja Groups-ikkunaan
ja vertailtava muuttuja Test Fields-ikkunaan
> Settings-välilehdeltä valitse Customize tests ja Kruskal-Wallis 1-way ANOVA (k samples)
> Run. Kaksoisklikkaa taulukkoa Hypothesis Test Summary > Ylhäällä
olevasta Boxplot-kuviosta voi verrata ryhmien eroja. Tilastollinen
merkitsevyys on rivillä Asymptotic Sig.
(2-sided test). Ryhmien eron merkitsevyys näkyy Test Statistics -taulukon
Asymp. Sig. -riviltä (kasvatustieteessä melkein merkitsevän eron
rajana on usein luku, joka on pienempi kuin ,05). Voit myös kokeilla muuttujamuunnosta saadaksesi jakauman
normaaliksi ja kelvolliseksi analysoitavaksi parametrisilla menetelmillä,
siis esim varianssianalyysilla
tai regressioanalyysilla. Raportoinnin esimerkki. |
Kaksisuuntainen
varianssianalyysi
|
Analyysissä on kaksi riippumatonta muuttujaa (esim.
sukupuoli ja koulutustaso) sekä riippuva muuttuja (vähintään hyvän
järjestysasteikon muuttuja,
esim. palkka). Tällöin verrataan ryhmien välisiä eroja. Kaksisuuntainen
varianssianalyysi voidaan tehdä myös toistettujen mittausten
varianssianalyysilla (ks. yllä). Testillä voidaan arvioida riippumattomien
muuttujien vaikutusta esim. palkan suuruuteen ja niiden yhdysvaikutusta
(esim. vaikuttaako koulutus enemmän miehillä vai naisilla). Analyze > General Linear Model > Univariate > Siirrä riippuva muuttuja
(esim. palkka) Dependent variable -ikkunaan ja kaksi riippumatonta muuttujaa (esim. sukupuoli ja
koulutustaso) Fixed Factors -ikkunaan > Paina Options > Ruksaa
Descriptive Statistics, Estimates of effect size ja Homogeneity
tests > Continue > Paina Post Hoc > Factors -ikkunasta
siirrä yksi tai kaksi muuttujaa oikeaan ikkunaan > valitse Tukey >
Continue > Paina Plots > Horizontal - laatikkoon siirrä
eniten ryhmiä sisältävä ryhmittelevä muuttuja > Separate Lines -laatikkoon
toinen riippumaton muuttuja > Add > Continue > Ok. Descriptive statistics -taulukossa on keskiarvojen erot, hajonnat ja lukumäärät. Levene's
test of Equality of Error Variances -taulukon Sig. -arvon
tulisi olla yli ,05, muuten ryhmien varianssien ero on liian suuri ja testin
luotettavuus kärsii. Voit varmuuden vuoksi nostaa merkitsevyysrajaksi esim. ,01. Tests of Between-Subjects Effects -taulukosta
näkyy kummankin muuttujan
merkitsevyys Sig. -sarakkeesta sekä muuttujien yhteisvaikutus heti
näiden muuttujien alapuolelta (esim. riviltä sukup*ika). Jos
muuttujien yhdysvaikutus on merkitsevä, on näiden muuttujien yksittäisten
vaikutusten merkitsevyys epävarma, sillä yhdysvaikutus vaikuttaa
merkitsevyyksiin. Jos yhdysvaikutus on merkitsevä, kannattaa kokeilla
erillistä varianssianalyysia kullekin ryhmälle (esim. miesten ja naisten
koulutustason yhteys palkkaan). Usein merkitsevyyden rajana on ,05, eli jos
merkitsevyys on tätä pienempi, on keskiarvojen ero tilastollisesti
merkitsevä. Partial Eta Squared -sarakkeesta näkyy vaikutuksen
suuruus. Multiple Comparisons -taulukossa on eriteltynä kunkin
ryhmän väliset erot ryhmä kerrallaan. Raportoinnin esimerkki. |
Regressioanalyysi
|
Reggressioanalyysin avulla voidaan tutkia kuinka paljon yksi tai useampi muuttuja (Independent) selittää tai ennustaa jotakin toista muuttujaa (Dependent). Muuttujien on oltava jatkuvia ja normaalisti jakautuneita. Analyze-valikosta valitaan Regression > Linear…. Siirretään riippuva muuttuja Dependent-ikkunaan ja yksi tai useampi riippumaton muuttuja Independent-ikkunaan. Painetaan OK. Model summary –taulukossa R Square –sarake kertoo miten monta prosenttia muuttuja selittää riippuvasta muuttujasta. Anova-taulukossa sarake F antaa F-testiarvon, sarake df vapausasteet (sekä rivin Regression että rivin Residual vapausasteet tarvitaan raportointiin), sarakkeesta Sig. selviää muuttujien välisen yhteyden tilastollinen merkitsevyys (kun arvo <.05, ero merkitsevä). Regressioanalyysiä voi käyttää riippuvan muuttujan ennustamiseen, Coefficients -taulukosta sarakkeesta B otetaan tekijät yhtälöön: (Constant) on yhtälön vakio ja muuttujien kertoimet saadaan saman sarakkeen alemmilta riveiltä, esim. riippuvan muuttujan arvo voi olla (y) = 1,134 + 0.213*x1 +0,186*x2 (x1 ja x2 ovat muuttujan arvot, esimerkiksi harjoituskerrat x1 = 10 ja harjoitusten kesto x2 = 10 minuuttia). Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method. Useimmin käytetty metodi on Enter, jossa ennustemuuttujat liitetään malliin yhtä aikaa ja niiden merkitsevyys ilmoitetaan vain siltä osin kuin ne selittävät riippuvan muuttujan muutosta muiden muuttujien lisäksi, siis muutosta joka johtuu vain tästä nimenomaisesta muuttujasta. Enter mallissa pitäisi olla vähintään 15 tapausta per ennustemuuttuja. Hierarkkisessa mallissa analysoidaan muuttujien vaikutus tietyssä järjestyksessä, jolloin voidaan poistaa esimerkiksi iän vaikutus jatkoanalyysista. Esimerkiksi kun Ikä-muuttuja on sijoitettu Independent(s) -ikkunaan painetaan Next ja tehdään jatkoanalyysi, jolloin iän vaikutus on eliminoitu tuloksista. Askeltavassa mallissa SPSS lisää ja poistaa ennustemuuttujia niiden tilastollisen merkitsevyyden perusteella kunnes mallin tilastollisesti merkitsevien muuttujat eivät enää vaihdu. Näin saadaan tiivis ja ehkä runsaita vaikutuksia kuvaava malli, mutta mallin käytössä on oltava varovainen, sillä SPSS ei tee valintoja sisällöllisin perustein, vaan ainoastaan mekaanisesti tilastollisen merkitsevyyden perusteella. Askeltavassa mallissa riippumatonta muuttujaa kohden tulisi olla vähintään 40 tapausta. Raportoinnin esimerkki. |
Reggressioanalyysin muuttujien oletukset
|
Reggressioanalyysin on täytettävä runsaasti oletuksia. Analyysiin tarvitaan noin 15 tapausta per muuttuja. Muuttujat eivät saa olla singulaarisia (muuttujat eivät saa olla osia jostakin isommasta kokonaisuudesta, esim. kahdesta muuttujasta tehdystä summamuuttujasta). Riippumattomat muuttujat eivät saa olla multikollineaarisia (ne eivät saa korreloida liian voimakkaasti). Multikollineaarisuutta voi testata korrelaatiokertoimilla. Linear Regression –analyysissa Statistics –painikkeen alta ruksaa Part and partial correlations sekä Collinearity diagnostics. Reggressioanalyysissa oletetaan että muuttujien residuaalit (selittymättä jäänyt vaihtelu) ovat normaalisti jakautumisen lisäksi myös lineaarisia (suoraviivaisia), homoskedanttisia (selittymättä jääneen vaihtelun hajonta pitäisi olla yhtä suurta eri mittauskerroilla tai ryhmissä, esimerkiksi tuloerojen pitäisi olla yhtä suuria pieni- ja suurituloisilla) sekä toisistaan riippumattomia. Statistics –painikkeen alta ruksaa Casewise diagnostics > Continue. Plots –painikkeen alta valitse SDRESID> Y-laatikkoon ja ZPRED > X-laatikkoon (versiossa SPSS 16 paina Next), sekä ZPRED y-laatikkoon ja DEPENDNT x-laatikkoon, ruksaa Normal probability plot (SPSS 16 versiossa ruksaa molemmissa vaiheissa) > Continue. Save –painikkeen alta voidaan vielä ruksata Cook’s > Continue (residuaalit tallennetaan uusiksi muuttujiksi muuttujalistan loppuun) > OK. Correlate –taulukossa riippumattomien muuttujien tulisi korreloida jonkin verran muttei mielellään yli ,7. Coefficients –taulukossa Tolerance –arvon ei tulisi olla alle ,10 eikä VIF –arvon yli 10. Taulukossa Casewise Diagnostics voidaan arvioida suuresti havainnoista poikkeavien ennustearvojen (outliers) merkitystä mallissa. Taulukossa Residual Statistics tulisi Cook’s Distance –arvon olla alle yhden, muuten pitäisi tutkia datasta yli yhden menevät arvot (muuttuja COO_1) Normal P-P Plot –kuviossa pisteiden tulisi olla melko suorassa linjassa lävistäjän kanssa. Scatterplot –kuviossa soikion muotoinen pistepilvi pitäisi olla ryhmittynyt nollakohdan ympärille. |
Logistinen regressioanalyysi |
Kun tavallisessa regressioanalyysissä riippuvan muuttujan pitää olla suhdeasteikollinen, logistisessa regressiossa se voi olla nominaaliasteikollinen muuttuja, jossa on kaksi tai useampia luokkia. Riippumattomat muuttujat voivat olla nominaaliasteikollisia tai jatkuvia. Esimerkin riippuva muuttuja (Ei/on erityisen tuen tarvetta) on dikotominen, jolloin käytetään SPSS:ssä toimintoa Binary Logistic. Jos luokkia on useampi, käytetään vaihtoehtoa Multinomial Logistic. Otoskoko on vaikea määritettävä. Yleisesti ottaen usealuokkaiset muuttujat, vähän tapauksia sisältävät luokat ja selittävien muuttujien suurempi määrä lisäävät tarvetta suuremmalle otoskoolle. Minimimäärä tapauksia per riippumaton muuttuja on 10. Hierarkinen logistinen regressio edellyttää vähintään 20 tapausta ja askeltava (stepwise) logistinen regressio 50 tapausta per riippumaton muuttuja. Logistinen regressio ei tee varsinaisia oletuksia normaalisuudelle, lineaarisuudelle tai varianssien yhtäsuuruudelle, mutta vahvoja korrelaatioita ja poikkeavia arvoja täytyy pitää silmällä. Ensin riippuva muuttuja pitää muuttaa dikotomiseksi, esimerkiksi 0 = Ei erityisen tuen tarvetta ja 1 = On erityisen tuen tarve. Tämä tehdään Transform > Recode-toiminnolla . Selkeyden vuoksi myös kategoriset riippumattomat muuttujat on hyvä koodata dikotomiseksi ja jatkuvien riippumattomien muuttujien numeroiden kasvun pitää kuvata ominaisuuden lisääntymistä. Seuraavassa logistisessa regressiossa tutkitaan, mitkä lasten taidot eniten ennustavat lapsen erityisen tuen tarvetta. Analyze
> Regression > Binary Logistic > Siirrä riippuva muuttuja (Ei/on
erityisen tuen tarve) Dependent-laatikkoon
> Siirrä sukupuoli ja motoriset, oppimisen, leikkimisen, sosiaaliset ja
osallistumistaidot Covariates-laatikkoon
> Klikkaa Categorical-laatikkoa
> Siirrä kategorinen riippumaton muuttuja (sukupuoli) Categorical Covariates –ikkunaan > Valitse First >Klikkaa Change > Continue >Options > Valitse Classification plots, Hosmer-Lemeshow
Goodness of Fit, Casewise listing of Residuals ja CI for Exp(B) > Continue > OK. Tarkista että Case processing Summary, Dependent Variable Encoding ja Categorical Variable Coding -taulukot ovat oikein. Otsikon Block 0 alla on analyysi ilman riippumattomien muuttujien vaikutusta. Otsikon Block 1 alla on regressiomallin testaus. Omnibus Tests of Model Coefficients antaa mallin tilastollisen merkityksen (arvon tulisi olla < ,05 ollakseen merkitsevä). Model Summary –taulukko kertoo mallin vaikutuksen, joka kuvaa kuinka monta prosenttia muuttujan vaihtelusta selittyy mallilla. Esimerkiksi Nagelkerke R Square arvo .371 tarkoittaa, että malli selittää 37,1 % muuttujan vaihtelusta. Hosmer-Lemeshow Goodness of Fit –taulukon Sig.-arvon tulisi olla yli ,05, jotta testi tukisi mallia. Classification Table kuvaa mallin ennusteen osuvuutta. Variables in the Equation –taulukko kuvaa yksittäisten riippumattomien muuttujien vaikutusta. Testiarvo on Wald-sarakkeessa ja til. merkitsevyys Sig.-sarakkeessa. Mitä pienempi Sig.arvo, sitä merkitsevämpi on sen vaikutus. B-sarakkeessa on tavallista regressioanalyysia vastaava regressiokerroin. Positiivinen kerroin lisää riippuvan muuttujan todennäköisyyttä, negatiivinen vähentää.Exp(B) sarake kertoo todennäköisyyden, jolla riippuva muuttuja saa arvon 1 (On erit.tuen tarve. Esimerkiksi Kielellisen tuen tarpeen (asteikko 1-5) arvon noustessa yhdellä, lapsen erityisen tarpeen todennäköisyys lisääntyy 2,149 kertaiseksi. Viimeinen Casewise List –taulukko kuvaa muuttujia, jotka eivät sovi malliin. Sarakkeen Zresid yli +2,5 tai alle -2,5 olevia tapauksia voi tarkastella lähemmin. Voit poistaa tapaukset, joilla on suurin ZResid-arvo ja tehdä Logistisen regression uudestaan. Raportoinnin esimerkki. |
Faktorianalyysi
(pääkomponenttianalyysi)
|
Faktorianalyysin tarkoituksena on usein liittää useita muuttujia muutamaksi kokoavaksi faktoriksi. Analyze > Data reduction > Factor analysis > Siirrä tarvittavat muuttujat oikeaan ikkunaan > Paina painiketta Descriptives > Valitse KMO and Bartlett’s test of spherity > Painikkeen extraction alla määritä eigenvaluen raja-arvo (usein 1) tai faktorien lukumäärä > Paina painiketta Rotation > Valitse rotatointi (esim. varimax) > paina painiketta options > Valitse sorted by size ja suppress absolute values less than (voit laittaa arvoksi esim. ,30) > continue > OK. KMO and Bartlett’s testin arvon on oltava riittävä (esim. yli .60). Communalities taulukosta nähdään, minkä verran faktorit selittävät kustakin muuttujasta. Total variance explained kertoo minkä verran faktorit selittävät koko aineiston hajonnasta. Component matrix -taulukko on rotatoimaton faktoritaulukko (usein vaikealukuinen). Rotated component matrix taulukko on usein varsinainen tulos. Faktoreille voi antaa nimet, johon vaikuttaa ainakin faktorilataus ja muuttujien ryhmittyminen (viimeisen taulukon voi yleensä jättää huomiotta). Faktorianalyysejä kannattaa yleensä tehdä useita, jotta löytyy helposti tulkittava tai teoreettisesti pätevä faktorointi. Muuttujien yhdistelmiä voi vaihdella, faktorien määrää voi vaihdella tai rotaatiomenetelmiä voi vaihdella. Faktoreista voi tehdä uusia muuttujia painikkeen Scores > Save as variables avulla. |
Diskriminanttianalyysi
(DA)
|
Erottelu- eli diskriminanttianalyysiä kannattaa käyttää kun on olemassa jokin ryhmittelevä (laatueroasteikollinen) muuttuja, esimerkiksi opiskelijan kuvaama opiskelutyyli, ja halutaan selvittää miten muiden muuttujien (esim. opintomenestys, pääsykokeen pistemäärä) perusteella voidaan luokitella ihmisiä tietyn opiskelutyylin omaavaksi. Olemme siis kiinnostuneita siitä, mitkä tekijät vaikuttavat ihmisten kuulumiseen tiettyyn ryhmään. Diskriminanttianalyysi antaa myös kuvauksen siitä, miten hyvin ennustaminen onnistuu kyseessä olevassa aineistossa oikein luokiteltujen tapausten prosenttiosuuksina. |
Ryhmittelyanalyysi
(klusterianalyysi, Cluster analysis, CA)
|
Ryhmittelyanalyysissä ei ole etukäteen olemassa valmista ryhmittelyä kuten diskriminanttianalyysissa, vaan tarkoituksena on etsiä ryhmiä, joita voidaan kuvata muiden muuttujien avulla. Ryhmille voidaan myöhemmin tuloksia tulkitessa antaa niitä kuvaavat nimet. Klusterianalyysi muistuttaa eksploratiivista faktorianalyysia, mutta sen etuna faktorianalyysiin verrattuna on, että sitä voi käyttää myös tapausten (henkilöiden) luokittamiseen ja analyysin mukana saadaan dendogrammi, jolla saadaan esiin luokkien hierarkinen rakenne, joka faktorianalyysissa jää piiloon. |
Muuttujamuunnokset
|
Jos jakauma ei ole normaali, voidaan testaamiseen käyttää ei-parametrisiä menetelmiä (esim. Mann-Whitney tai Kruskal-Wallis). Jos kuitenkin halutaan käyttää parametristen testien edistyneitä ominaisuuksia tai monimuuttujamenetelmiä, voidaan kokeilla muuttuja-muunnoksia. Valitse Transform > Compute Variable. Pikkuikkunaan Target Variable luo uusi muuttuja esim. SqrDistance (jos otat neliöjuuren muuttujasta Distance). Ikkunasta Function Group valitse Arithmetic. Ikkunasta Functions and Special Variables valitse sopiva muuttujamuunnos: Jos muuttuja on oikealle vino (vasemmalla paljon arvoja ja oikealla pitkä häntä), muuttujaa voi suoristaa SQRT(Distance), LN(Distance), LG10(Distance), 1/(Distance) -valinnoilla (sitä enemmän muuttuja painottuu oikealle mitä myöhemmin funktio on yllä olevassa listassa mainittu). Jos muuttuja on vasemmalle vino, käytetään samoja funktioita, mutta kaava on SQRT(K - SqrDistance), LN(K - Distance), LG10(K - Distance), 1/(K - Distance), K on suurin arvo + 1. Nuolinäppäimellä funktio siirtyy Numeric Expression –ikkunaan. Muuttuja josta uudet arvot lasketaan, tulee sulkeiden sisään samoin kuin tarvittaessa K. Arvioi uudestaan jakauman normaalisuus. Jos muuttuja on liian huipukas, voi kokeilla muuttujan arvojen korottamista toiseen potenssiin. Muuttuja voidaan myös luokitella käsin uudestaan. Tällöin esimerkiksi kuusiluokkaisessa jakaumassa muuttujan arvot järjestetään suuruusjärjestykseen. Tällöin luokat koodataan uudelleen Transform > Recode –komennolla siten että luokkien lukumäärät ovat 2,5%, 13,5 %, 34 %, 34 %, 13,5 %, 2,5 %. |
Tulosten
raportoinnin esimerkkejä
|
APAn (2009) ohjeiden mukaan tulosten raportoinnissa tulee
ilmetä tilastollisten merkitsevyyksien lisäksi efektikoko (effect size) sekä suhdeasteikollisissa muuttujissa luottamusväli.
Englanninkielisissä raporteissa käytetään desimaalipilkun sijasta
desimalipistettä. APA suosittelee että tilastolliset symbolit kursivoidaan
(esim. N, M), paitsi kreikkalaiset aakkoset ja lyhennykset (esim.α,
β, GLM). Usean muuttujan luokkien
tunnusluvut: Keskiarvoja
raportoidessa raportoidaan aina myös keskihajonnat. Esimerkki: Lasten
läsnäolokuukausien keskiarvot (keskihajonnat suluissa) epäselvän orientaation
lapsilla olivat 16,53 (11,63), vetäytyvän orientaation lapsilla 21,31 (11,86)
ja mukautuvan orientaation lapsilla 25,71 (16,71) kuukautta. Luottamusväli: APAn ohjeiden mukaan
luottamusvälin raportoinnissa käytetään hakasulkeita: Lasten päiväkodissa
viettämien kuukausien keskiarvo oli 23,9 kuukautta, 95% CI [22,9, 25,0]. Yhden otoksen Khii-neliön
testi: Poikia
oli aineistossa 438 ja tyttöjä 415. Khii-neliön yhden otoksen testin mukaan
tyttöjen ja poikien osuuden lukumäärien yhtäsuuruus aineistossa ei poikennut
tilastollisesti merkitsevästi toisistaan, Χ2(1, n = 853) = ,620, p = ,451. Lukumäärät saadaan ylemmästä
taulukosta sarakkeesta Observed N.
Chi-toiseen jälkeen tuleva sulkeissa oleva 1 eli vapausasteet saa Test Statistics –taulukosta riviltä Chi-Square. Luvun 853 saa ensimmäisen
taulukon Total-riviltä.
Merkitsevyden (p) saa Test Statistics –taulukon Asymp. Sig –riviltä. Khii-neliön testi: Khii-neliön muuttujien riippumattomuustestin (Exact
test) mukaan
opiskelijan asuinpaikan ja sukupuolen välillä on tilastollisesti merkitsevä
yhteys, Χ2 (3, N = 316) = 7,807, p = ,050,
Cramer’s V = ,176. (Vapausasteet (3) löytyvät
Chi-Square tests taulukon Exact Sig. (2-sided) sarakkeen
ylimmältä riviltä. N (316) löytyy alariviltä N of Valid Cases.
Testiarvo (7,807) löytyy Value-sarakkeen ylimmältä riviltä.
Vaikutusta kuvaava Cramer’s V löytyy Symmetric Measures –taulukon Value-sarakkeesta
riviltä Cramer’s V.) Korrelaatio: Opiskelijoiden arviot taidoistaan tiedon jakajana ja
tapojen opettajana korreloivat positiivisesti, r = ,31, n = 320, p
< ,0005. (Eli jos opiskelijat kokevat olevansa päteviä tiedon
jakajina, heillä on myös lievä taipumus kokea olevansa hyviä tapojen
opettajia. Yhteys on tilastollisesti erittäin merkitsevä, eli riski että HO
hylätään aiheetta, on alle 0,1 %.) Korrelaation arvo (r) saadaan riviltä Correlation Coefficient, tapausten
lukumäärä (N) saadaan riviltä N, ja tilastollinen
merkitsevyys riviltä Sig. (2-sided). Jos SPSS antaa erittäin
merkitsevän arvon ,000, suositellaan merkitsevyyttä merkittäväksi < ,0005,
koska SPSS pyöristää merkitsevyyden kolmen desimaalin tarkkuudella. Pearsonin
tulomomenttikertoimen symboliksi APA (2009) suosittaa r- symbolia ja
Spearmanin järjestyskorrelaation symboliksi rs.)
T-testi: Espoolaiset asuvat keskimäärin hiukan kauempana
yliopistolta (M = 19,6 km, SD = 6,6 km) kuin Vantaalaiset (M
= 17,8 km, SD = 3,9 km). Keskiarvojen erojen merkitsevyyden testaamiseksi
suoritettiin riippumattomien ryhmien t-testi, jonka mukaan matkojen
keskiarvojenero ei ole kuitenkaan tilastollisesti merkitsevä, t
=.1,47, df = 65,8, ja p =,146, 95% CI [-1,36, 3,08]. Myös
paikkakunnan vaikutus oli pieni, ?2 = ,002.
On kuitenkin huomattava että espoolaisten matkan hajonta on suurempi kuin
vantaalaisten, eli espoolaisten matka vaihtelee vantaalaisia enemmän. Levenen
testin mukaan espoolaisten ja vantaalaisten matkan varianssien ero on
tilastollisesti merkitsevä ( F = 8,2, df = 76, p =
,005). (Keskiarvot ja hajonnat saadaan Group Statistics –taulukosta,
t-arvo Indepenedent Samples t-test –taulukosta sarakkeesta t,
tilastollinen merkitsevyys Sig.(2-tailed)
–sarakkeesta. Luottamusväli 95% CI saadaan sarakkeista 95%
Confidence Interval of the Difference. Efektikoon määrittämiseen ei SPSS
tarjoa t-testin osalta tunnuslukua. Efektikoko (Eta squared, symboli η2)
voidaan laskea kaavalla (t^2)/ (t^2 + (n1 + n2 -2)), esimerkissä lasku on
1,47^2/(1,47^2 + (57 + 44 – 2)) = 0,02, joten vaikutus on hyvin pieni.
Vaikutuksen suuruuden rajoiksi kuvataan toisinaan ,01 (pieni), ,06
(kohtuullinen) ja ,14 (suuri). Mann-Whitneyn testi (esimerkissä on käytetty samaa aineistoa kuin t-testissä.
Itse asiassa, koska opiskelijoiden matka on ei-normaalisti jakautunut,
Mann-Whitneyn testi on luotettavampi): Espoolaiset asuvat keskimäärin hiukan
kauempana yliopistolta (Md = 20 km, n = 41) kuin
vantaalaiset (Md = 18 km, n = 37). Mann-Whitney mukaan erot
espoolaisten ja vantaalaisten välillä eivät ole kuitenkaan tilastollisesti
merkitseviä, U(68) = 666, Z =
-1,23, p = ,341 r = ,014. (Raportoitavat luvut saadaan Model
Viewer-ikkunan taulukosta riveiltä Mann-Whitney U (U), Standized
Test Statistic (Z) ja Asymptotic Sig. (2-sided test. Esimerkin
luku 68 on vapausasteet, joka on molempien ryhmien tapausten yhteenlaskettu
määrä vähennettynä kahdella (n1 +n2 - 2). SPSS antaa kuviossa
ryhmien välisen eron kuvauksena järjestysten keskiarvon. Mediaani on
kuitenkin havainnollisempi tunnusluku kuvaamaan kahden ryhmän eroa. Ryhmien
mediaanit saa esim Analyze > Descriptive statistics > Explore -toiminnolla,
jolloin ryhmittelevä muuttuja tulee siirtää Factor List -ikkunaan.
SPSS ei anna myöskään suoraan tunnuslukua efektikokoa (r) kuvaamaan.
Model viewerin taulukon Standarized Test Statistic -riviltä
saadaan Z-arvo. Z-arvoa voidaan käyttää r-arvon
laskemiseen kaavalla r = Z / neliöjuuri N, joka esimerkissä on 1,23 / SQRT (78)
= 0,14. Efekti on pieni käytettäessä rajoja ,1 pieni vaikutus, ,3 kohtalainen
vaikutus ja ,5 suuri vaikutus.) Kruskal-Wallisin testi: Kruskal-Wallis -testin mukaan ryhmien välillä oli
tilastollisesti merkitsevä ero musiikin käytössä kasvatuksen apuna, Χ2(1,
79) = 4,805, p = ,028, η2= 0.06, siten että järjestysten keskiarvo
päiväkodeilla oli 37 (mediaani = 4) ja perhepäivähoitajilla 49,47 (mediaani =
5) . Χ2arvon jälkeen suluissa olevat
vapausasteet saadaan Model Viewer
-ikkunan taulukosta riviltä Degrees of
freedom (ryhmien lkm – 1, luku 79 on tapausten lukumäärä, joka saadaan
taulukon riviltä Total N).
Testiarvo 4,805 saadaan riviltä Test
Statistic. p-arvo saadaan riviltä Asymptotic
Sig. (2-sided test). Efektikokoa ei valitettavasti saa suoraan SPSS-taulukosta,
mutta ryhmien järjestysten keskiarvon raportointi usein riittää. Järjestysten
keskiarvon (Mean Rank) saa
siirtämällä hiiren kohdistin Model Viewer –ikkunan kuvion boxplot kuvioiden
päälle. Mediaani on boxplot-kuvion keskellä oleva musta viiva. Yksisuuntainen varianssianalyysi: Pyrittäessä selvittämään
opiskelijoiden asuinpaikan yhteyttä opiskelijoiden alan työkokemukseen
tehtiin yksisuuntainen riippumattomien ryhmien varianssianalyysi. Opiskelijat
oli jaettu neljään ryhmään asuinpaikan mukaan: helsinkiläiset (M =
25, SD = 52,9), espoolaiset (M = 37,5, SD = 63,7),
vantaalaiset (M = 48,4, SD = 67,8) ja muualla asuvat (M
= 53, SD = 76,4). Ryhmät erosivat tilastollisesti merkitsevästi
toisistaan, F (3, 316) = 3,84, p = ,01.
Asuinpaikan vaikutus oli kuitenkin pieni, η2 = ,036.
Post-hoc testi käyttäen Tukey HSD-korjausta osoitti, että ryhmien välinen ero
liittyi erityisesti eroihin helsinkiläisten ja muualla asuvien opiskelijoiden
työkokemukseen, p = ,017, 95 % CI (-52,4, -3,69). (Ryhmien
keskiarvot ja hajonnat saa Descriptive Statistics taulukosta.
Kaikkien ryhmien eroa kuvaava merkitsevyys saadaan Tests of
Between-Subjects Effects -taulukosta muuttuja-riviltä (esim. riviltä kunta).
Vapausasteet (3, 316) löytyvät sarakkeesta Df, riveiltä kunta
ja Error. Ryhmittelevän muuttujan vaikutus (η2) saadaan
sarakkeesta Partial Eta Squared. Kahden ryhmän eroja kuvaavat
merkitsevyydet saadaan Multiple Comparisons -taulukosta Sig.
-sarakkeesta.). Yksisuuntainen toistettujen mittausten varianssianalyysi: Kortisoliarvojen
muuttumista testattiin toistettujen mittausten varianssianalyysilla.
Kortisoliarvot pienenivät ensimmäisestä testistä (M =5,26, SD = 2,87)
toiseen testiin (M = 3,47, SD = 7,35). Ajalla oli tilastollisesti
merkitsevä vaikutus kortisoliarvoihin, Wilksin Lambda =,927, F (2, 53) = 4,16, p = ,046, osittainen η2 (partial eta squared) = ,073. Wilksin lambdan saa Multivariate Tests –taulukon Wilk’s
Lambda –riviltä sarakkeesta Value,
F-arvon sarakkeesta F,
vapausasteet (tässä 2)
sarakkeesta Error of, F:n arvon
4,16 sarakkeesta F, p-arvon sarakkeesta Sig., eta-arvon sarakkeesta Partial Eta Squared. Kaksisuuntainen varianssianalyysi: Pyrittäessä selvittämään
asuinpaikan ja iän yhteyttä opiskelijoiden alan työkokemukseen tehtiin
kaksisuuntainen varianssianalyysi. Iän osalta opiskelijat oli jaettu kahteen
ryhmään, 19-22 vuotiaat (M = 5.25, SD = 5,77) sekä
23-55-vuotiaat (M = 56,62, SD = 73,7). Ryhmien väliset
matkojen erot olivat tilastollisesti merkitseviä, F (1, 303) =
48,29, p = .002. Iän vaikutus oli myös
suuri, η2 = .918. Opiskelijat oli jaettu
neljään ryhmään asuinpaikan mukaan: helsinkiläisten (M = 25, SD
= 52,9), espoolaisten (M = 37,5, SD = 63,7), vantaalaisten
(M = 48,4, SD = 67,8) ja muualla asuvien (M = 53, SD
= 76,4) työkokemuksen keskiarvot eivät poikenneet tilastollisesti
merkitsevästi toisistaan, F (3, 303) = ,97, p = ,510. Muuttujien yhdysvaikutus ei ollut tilastollisesti
merkitsevä, F (3, 303) = 1,07, p = ,363.
(Keskiarvot ja hajonnat saa Descriptive Statistics -taulukosta. Iän
eron merkitsevyys saadaan Tests of Between-Subjects Effects -taulukosta
riviltä ikä sarakkeesta Sig.. Vaikutusta kuvaava Partial
Eta Squared on taulukon viimeisessä sarakkeessa rivillä ikä.
Yhdysvaikutusta kuvaava merkitsevyys on sarakkeessa Sig. rivillä ikä
* kunta ja yhdysvaikutuksen vapausasteet löytyvät Df-sarakkeesta
riviltä ikä*kunta ja Error. Tuloksessa ilmenee selitys
yksisuuntaisen varianssianalyysin tulokseen, jossa eri kuntalaisilla oli
eripituinen työkokemus. Kunta ei niinkään määritä ensisijaisesti työkokemusta,
vaan eri-ikäisillä opiskelijoilla on ennemminkin taipumus asua eri
paikkakunnalla. Regressioanalyysi: Työkokemuksen keston (M = 24.9 kk, SD =
51,6 kk) ja opiskelijan sosiaalisten taitojen opetustaidon (M = 4,0,
SD = .74) vaikutusta opiskelijan osallistuvaan harjoittelijan
rooliin (M = 3,3, SD = 1,1,) testattiin lineaarisella
regressioanalyysilla. Työkokemus ja sosiaalisten taitojen opetustaito
selittivät yhteensä 21,2 % osallistujan roolista, F (2, 525) =
70,67, p < ,0005. Työkokemuksen
beta-arvo oli korkeampi (beta = .400, p < .0005) kuin
sosiaalisten taitojen opetustaidon (beta = .178, p < .0005). On
kuitenkin huomattava, että muuttuja työkokemus ei täyttänyt testin oletuksia:
jakauma oli vahvasti vasemmalle vino ja se sisälsi useita ääriarvoja
(joillakin opiskelijoilla oli yli 300 kuukautta työkokemusta). Myöskään
residuaalit eivät olleet normaalisti jakautuneet. Tapausten suuren määrän
takia (n = 527) muuttujien ei-normaalisuus ei liene ratkaiseva asia.
Tuloksen varmistamiseksi tarkastettiin tulos vielä ei-parametrisellä
Spearmanin järjestyskorrelaatiolla, r = .426, p < ,0005,
jonka selitysaste oli myös 18,1 %, eli sama kuin ANOVA-testin tulos
työkokemukselle. (Raportoitavat luvut saadaan seuraavasti: Muuttujien keskiarvot
ja hajonnat Descriptive Statistics –taulukosta. Kaikkien muuttujien
yhteenlasketun selitysasteen saa Model Summary –taulukosta
sarakkeesta R square. Testiarvon (F) saa Anova-taulukon F-sarakkeesta,
vapausasteet (1, 525) saa Anova-taulukon df-sarakkeesta
riveiltä Regression ja Residual. Beta-kertoimet ja
niiden merkitsevyydet saa Coefficients-taulukosta sarakkeista Standardized
Coefficients (Beta) sekä sarakkeesta Sig. Regressioanalyysin
muuttujan oletuksista katso yllä. Samoin korrelaatiokertoimesta katso yllä. Logistinen regressio: Logistista regressiota
käytettiin pyrittäessä arvioimaan, mitkä lasten taidot vaikuttaisivat eniten
lapsen määrittelyyn erityistä tukea tarvitsevaksi. Mallissa oli kuusi
riippumatonta muuttujaa (sukupuoli sekä osallistumisen, karkeamotoriikan,
luovuuden, kielen ja sosiaalisuuden taidot). Malli kokonaisuudessaan oli
tilastollisesti merkitsevä, Χ2(6, N = 823) = 160,47, p <
,0005, mikä viittaa siihen, että malli kykeni luokittelemaan lapsia erityistä
tukea tarvitseviin ja ei- erityistä tukea tarvitseviin. Mallin selitysosuus
vaihteli.17,7% (Cox & Snell R Square) ja37,1% (Nagelkerke R Square)
välillä. Malli luokitteli oikein 29,3% tapauksista. Sukupuoli (p =,084), luovuus (p = ,174) ja osallistuminen (p = .055) eivät vaikuttaneet malliin
tilastollisesti merkitsevästi. Sen sijaan karkeamotorisen, kielen ja
sosiaalisen tuen tarve vaikuttivat kaikki malliin merkitsevästi, (p < ,0005). Vahvin vaikuttaja
lapsen luokittelussa erityisen tuen tarpeessa olijaksi oli kielellisen tuen
tarpeella, jonka todennäköisyyskerroin (odds ratio) oli 2,149. Tämä
tarkoittaa, että kun kielellisen tuen tarve (asteikko 1 = ei tuen tarvetta, 5
= runsas tuen tarve) kasvaa yhdellä yksiköllä, lapsen todennäköisyys tulla luokitelluksi
erityistä tukea tarvitsevaksi on yli kaksinkertainen. |