Pikaohjeita SPSS:lle (Reunamo)

Muuttujien määrittäminen ja aineiston syöttö
Virheiden tarkistaminen
Tapausten valitseminen
Reliabiliteetti
Summamuuttujan teko
Tunnusluvut
Ristiintaulukointi
Usean muuttujan luokkien tunnusluvut
Jakauman normaalisuus
Normaalisuuden arviointi Explore-toiminnolla
Luottamusväli
Yhden otoksen Khii-neliö-testi
Riippumattomien otosten Khii-neliö -testi
Korrelaatio
T-testi
Mann-Whitneyn testi
Yksisuuntainen varianssianalyysi (ANOVA)
Yksisuuntainen toistettujen mittausten varianssianalyysi
Kaksisuuntainen varianssianalyysi
Kruskal-Wallisin testi
Regressioanalyysi
Regressioanalyysin muuttujien oletukset
Logistinen regressioanalyysi
Faktorianalyysi
Diskriminanttianalyysi
Ryhmittelyanalyysi (klusterianalyysi, Cluster analysis)
Muuttujamuunnokset
Tulosten raportoinnin esimerkkejä



Hyviä käytännön oppaita SPSS:n käyttöön on esimerkiksi Pallant, J. (2007) SPSS survival manual tai Metsämuuronen (2006). Tutkimuksen tekemisen perusteet ihmistieteissä. Kvantitatiivisten menetelmien tietovarannossa on hyvät suomenkieliset ohjeet kuvien kera.

Muuttujien määrittäminen

Muuttujien määrittely tapahtuu Variable View-ikkunassa (ohjelmaikkunan vasemmassa alareunassa oleva välilehti).

Vasempaan sarakkeeseen Name anna muuttujan nimi (lyhyt nimi, ehdoton yläraja 64 merkkiä, ei välilyöntejä tai erikoismerkkejä, pitää alkaa kirjaimella).

Type sarake: Muuttujan tyyppi valitaan klikkaamalla Type -sarakkeen oikeata reunaa hiirellä. Avautuvasta valikosta valitaan joko Numeric (numeroille, joissa voi olla desimaaleja tai String (nimille, määritelmille ym. sanoille ja lauseille). Usein kannattaa valita vaihtoehto Numeric ja sitten myöhemmin määritellä eri numeroilden määreet Values-sarakkeessa. Tekstimuotoisten muuttujien käyttö voi olla järkevää jos aineistossa tulee tarvetta käsitellä yksittäisiä tapauksia esimerkiksi tutkimalla muista runsaasti poikkeavia havaintoja (outliers). Tekstimuotoiset muuttujat ovat myös käyttökelpoisia jos halutaan sirontakuvioon kunkin tapauksen nimi (esim. kaupunki) tai esimerkiksi ryhmittelyanalyysissa halutaan tutkia ryhmiä yksityiskohtaisemmin. Huomaa että esimerkiksi postinumerot ja puhelinnumerot ovat String-muuttujia. Nyrkkisääntönä voi pitää, että jos erisnimillä on merkitystä analyysissä, valitse String, jos taas kysymyksessä on luokkaa kuvaava attribuuttimuuttuja, määritä muuttujien arvot Values-sarakkeessa. Jos muuttuja saa erittäin pieniä (esim. 0,00000003) arvoja tai erittäin suuria arvoja (esim. miljoonia), kannattaa käyttää vaihtoehtoa Scientific Notation, sillä silloin desimaalipilkun paikan kertoo muuttujan arvon eksponentti, joten pilkkuvirheitä ei satu niin helposti.

Width-sarake: Määritetään string (kirjaimia) muuttujan merkkien maksimimäärä, voi joutua lisäämään jos muuttujan arvot tekstiä, esimerkiksi avoimia vastauksia. Decimals- sarake: Klikkaa saraketta, määritä desimaalien määrä nuolinäppäimillä. Jos muuttuja on esim. nominaaliasteikon muuttuja, ei desimaaleja yleensä tarvita. Desimaalien määrä voi vaikuttaa tulosteisiin. Esimerkiksi Output -ikkunaan tulostuu keskiarvoihin kaksi desimaalia enemmän kuin on määritelty muuttujan desimaaleiksi Variable View -ikkunassa. Custom Tables -toiminnossa desimaaleja tulostuu niin monta kuin Variable View -ikkunassa on määritelty.

Label-sarake: Muuttujan kuvaus, joka tulee outputin taulukoihin, joten varo niin pitkiä tekstejä että taulukot tulevat vaikealukuisiksi.

Values-sarake: Käytetään muuttujan ryhmien tai arvojen määrittämiseen. Napsauta hiirellä Values-sarakkeen oikeaan reunaan ja anna tarvittavat arvot (esim. Value: 1, Value Label: Kissa > Add >Value: 2 > Value Label: Koira > Add > OK.)

Missing-sarakkeessa voidaan määrätä puuttuvien tietojen koodit, jos halutaan erotella puuttuvien tietojen syyt (esim. väärä vastaus tai puuttuva vastaus). Kun puuttuvien tietojen symbolit on määritelty erikseen (esim. 99 = väärin ymmärretty kysymys), SPSS ei ota Missing -sarakkeeseen määriteltyjä arvoja mukaan tilastollisiin analyyseihin.

Columns-sarake: Määrittää Data View -ikkunassa näkyvän sarakkeen leveyden. Joskus on esim. mukava kapeuttaa sarakkeita jotta kaikki muuttujat näkyvät tai leventää sarakkeita jotta teksti näkyy.

Align-sarake: Määrittää reunan tasauksen: tuleeko arvo sarakkeen vasempaan reunaan, keskelle vai oikeaan reunaan, tämä ei yleensä ole tärkeää.

Scale-sarake: Valitse nominal laatueroasteikolliselle (esim. sukupuoli), ordinal järestysasteikolliselle (esim. paremmuusjärjestys) tai scale suhdeasteikon (esim. matkan pituus) muuttujalle. Tässä kannattaa olla huolellinen, sillä SPSS ei esimerkiksi suostu laskemaan aina keskiarvoja nominaaliasteikollisille tai SPSS ei osaa tehdä lukumäärätaulukoita aina oikein, jos asteikkoina on virheellisesti suhdeasteikko. Asteikot vaikuttavat myös joissakin tilastollisissa analyyseissa.

Aineiston syöttö tapahtuu Data View-ikkunassa (Data View-välilehti vasemmassa alareunassa). Napsauta ensimmäisen sarakkeen ensimmäistä solua, liiku eteenpäin nuolinäppäimillä. Kukin tapaus tulee omalle rivilleen, kukin muuttuja omaan sarakkeeseensa. Voit myös kopioida aineiston Excelistä tai avata Excel-tiedoston File > Olen > Data > Files of type > Excel > etsi tiedosto > Open.

Virheiden tarkistaminen

Aineiston virheettömyys pitäisi aina tarkistaa. Jos olet nopea aineistön syöttäjä, nopein tapa tarkastaa virheet on syöttää aineisto kaksi kertaa ja tarkistaa tunnuslukujen ja lukumäärien avulla aineistojen yhtenevyys. Ala- ja ylärajan ylittävät virhelyönnit kannattaa katsoa nominaaliasteikon muuttujilla Analyze > Descriptive statistics > Frequencies... toiminnolla ja jatkuvilla muuttujilla Analyze > Descriptive statistics > Explore... toiminnolla. Taulukosta löytyvä virhearvo löytyy tämän jälkeen isostakin aineistosta esimerkiksi Sort Cases toiminnon avulla.

On kuitenkin huomattava, ettei tällä menettelyllä löydy esimerkiksi virheitä, joissa esimerkiksi poika (1) on vahingossa koodattu tytöksi (2), vaan vain virheet jotka koskevat määritelyjä lukuja tai ääriarvoja voivat löytyä. Sen vuoksi tarvitaan lisäksi aineiston syötön tarkistaminen. Jos olet nopea ja hyvä koodaaja, tarkistus on kätevintä tehdä koodaamalla aineisto kahteen kertaan ja katsomalla aineiston erot. Muuten käy aineisto läpi tapaus tapaukselta.

Puuttuvien tietojen vaikutusta kuvauksiin ja analyysiin voi arvioida erityisesti Explorer-toiminnolla (Analyze -> Descriptive Statistics -> Explore. Ristiintaulukoimalla muuttujia voidaan saada selville ovatko puuttuvat vastaukset kasaantuneet tietyn tyyppisille tapauksille. Valitsemalla Options-painikkeen alta vuorotellen listwise (jolloin mukaan otetaan vain tapaukset, joissa ei ole puuttuvia tietoja) ja pairwise (jolloin mukaan otetaan kaikista tapauksista jokaisen muuttujan ei-puuttuvat arvot) saadaan esiin vaikutuksia, joita aiheutuu muuttujissa olevista puuttuvista arvoista.

Jos Listwise ja Pairwise eroavat huomattavasti toisistaan, se viittaa siihen että esimerkiksi korrelaatioita laskettaessa tai vaikkapa faktorianalyysissä muuttujien puuttuvilla arvoilla saattaa olla vaikutusta tuloksiin. Esimerkiksi korrelaatioita laskettaessa Listwise poistaa useita korrelaatioita laskettaessa kaikki tapaukset, joissa on yhdessäkin analyysissä mukana olevassa muuttujassa puuttuva arvo. Näin esimerkiksi yksi runsaasti puuttuvia tietoja sisältävä muuttuja vaikuttaa kaikkiin muihinkin korrelaatioihin vinouttaen tuloksia ja usein vähentäen tulosten merkitsevyyttä.

Tapausten valitseminen

Joskus voit haluta analysoida esimerkiksi vain tiettyyn kuntaan liittyviä tuloksia, jolloin voit jättää muut kunnat huomiotta. Data -> Select cases -> If condition is statisfied -> If -> siirrä muuttuja oikeaan ikkunaan -> esim: kunta =1 | kunta = 4 (kunta saa arvon 1 tai 4)> continue -> ok.

Reliabiliteetti

Reliabiliteettianalyysin avulla voit määrätä esim. kyselyn kysymysten liittymistä toisiinsa, saat reliabiliteettikertoimen, joka kuvaa muuttujien sisäistä samankaltaisuutta. Reliabiliteettikertoimen avulla voit löytää esim. kysymyksen, joka ei mittaakaan samaa asiaa kuin muut ilmiön mittaamiseen tarkoitetut kysymykset.

Ennen analyysia kaikki asteikot on käännettävä samansuuntaisiksi, esimerkiksi kielteiset myönteiseksi. (Kääntämisen voi tehdä esimerkiksi Transform > Compute Variable > Kirjoita Target Variable -kenttään uuden muuttujan nimi > siirrä käännettävä muuttuja Numeric Expression -ikkunaan > kirjoita ikkunaan 6 - käännettävän muuttujan nimi (jos asteikko on 1-5).

Reliabiliteetti otetaan Analyze-valikosta -> Scale -> Reliability analysis -> Siirrä oikeaan ikkunaan samaa asiaa mittaavat muuttujat -> Paina statistics-painiketta -> Valitse ”scale if item deleted -> continue -> OK.

Kun alphan arvo (ylempi taulukko Cronbach's Alpha) > ,60, mittaria pidetään usein luotettavana. Jos alemman taulukon sarakkeessa ”Alpha If item deleted” alfa saa suuremman arvon kuin ylemmän taulukon Alphan arvo, on syytä harkita muuttujan poistamista samaa asiaa mittaavasta mittarista. Jos poistamisen jälkeen tehtävässä löytyy lisää reliabiliteettia laskevia muuttujia, eniten reliabiliteettia laskeva muuttuja voidaan taas poistaa jne.

Poistoja tehdessä pitää kuitenkin myös miettiä, onko mukana teoreettisesti tarpeellisia muuttujia. Lisäksi usean muuttujan pitäminen mukana summamuuttujassa lisää summamuuttujan stabiilisuutta, koska useampi muuttuja vähentää satunnaishajontaa.

Summamuuttujan teko

Summamuuttujia muodostetaan yleensä samalla asteikolla mitatut väitelauseet yhteenlaskemalla tai muuten samaa asiaa mittaavat muuttujat yhteenlaskemalla. Se mittaavatko muuttujat todella samaa asiaa, voidaan tarkistaa reliabiliteettianalyysilla.

Transform-valikosta -> Compute -> target variable ikkunaan kirjoita summamuuttujan nimi -> Vasemmasta ikkunasta siirrä nuolipainikkeen avulla muuttuja oikeaan ikkunaan -> paina painiketta + -> lisää muut summamuuttujaan kuuluvat muuttujat samalla tavalla (+ merkki väliin) -> ok -> dataikkunan viimeiseen sarakkeeseen ilmestyy uusi tekemäsi summamuuttuja.

Huom! Jos yhteenlaskettavissa muuttujissa on puuttuvia tietoja, ne pienentävät summaa, joten on käytettävä muuttujien keskiarvoa: Transform > Compute > target variable ikkunaan kirjoita summamuuttujan nimi > Functions-ikkunasta rullaa esiin mean(numexpr,numexpr), kaksoisnapsauta > kirjoita sulkeiden sisään summamuuttujaan kuuluvat muuttujat, erota muuttujat pilkulla > OK.

Tunnusluvut

Usein nominaaliasteikon muuttujia kannattaa arvioida Frequencies - toiminnolla (Analyze > Descriptive statistics > Frequencies...), jossa siirrät haluamasi muuttujat Variables -ikkunaan. Näin saat esiin kunkin luokan lukumäärät.

Jatkuvien muuttujien tunnuslukuja varten on tarkoitettu Descriptives toiminto ( Analyze -> Descriptive statistics -> Descriptives...) -> siirrä muuttuja(t) oikeaan ikkunaan -> paina painiketta Options -> Valitse tarpeen mukaan mean (keskiarvo: datan arvojen summa jaettun arvojen lukumäärällä), median (mediaani: keskimmäinen arvo), mode (moodi: yleisin arvo), sum (datan arvojen summa), std. deviation (standard deviation, keskihajonta: kuvaa normaalisti jakautuneen muuttujan hajontaa keskiarvon ympärillä), variance (varianssi: keskihajonta toiseen), range (vaihteluväli: maksimi miinus minimi), S.E. mean (standard error of mean: kuvaa otoksen keskiarvon oletettua hajontaa), skewness (vinous: ks. jakauman normaalisuus), kurtosis (huipukkuus: ks. jakauman normaalisuus).

Ristiintaulukointi (Crosstabs)

Ristiintaulukointi on mainio tapa arvioida nominaaliasteikollisten muuttujien keskinäisiä suhteita niiden kuhunkin luokkaan tulevien luokkien lukumääriä arvioimalla (Analyze > Descriptive statistics > Crosstabs). Siirrä toinen nominaaliasteikon muuttuja Row -ikkunaan ja toinen Column -ikkunaan. Usein ristiintaulukoinnin analyysissä tärkeätä on verrata ylemmällä rivillä (tai sarakkeessa) olevien lukumäärien erojen suhdetta alemmilla riveillä (tai sarakkeissa) olevien lukumäärien suhteisiin. Tämä arviointi on yleensä helpompaa jos vertailuun käyttää prosentteja, jotka saa esiin Cells -painikkeen alta valitsemalla Row (tai Column) ja poistamalli valinta Observed -valinnasta. Paina sen jälkeen Continue > OK.

Ristiintaulukoinnissa havaittuja lukumäärien suhteissa havaittujen erojen merkitsevyyttä voi testata Chi-neliön testillä.

Usean muuttujan luokkien tunnuslukujen kuvaus

Usean muuttujan keskiarvot ym. tunnusluvut saa Analyze > Tables > Custom Tables > siirrä nominaaliasteikon muuttuja hiirellä Columns-palkin päälle. Variable View -näkymässä tulee olla määritelty muuttuja nominaaliasteikolliseksi, jotta muuttujaa voi käyttää luokitteluun. Vedä ensimmäinen jatkuva muuttuja Rows palkin päälle. Siirrä sen jälkeen muut jatkuvat muuttujat hiirellä syntyneen taulukon alareunaan. Summary Statistics -painikkeen alta voi vaihtaa tunnuslukuja. Nominaaliasteikon muuttujia Rows palkkiin vietäessä voidaan tehdä koosteita ja vertailuja useiden muuttujien luokkien lukumääristä.

Jotta keskiarvoja voisi laskea on muuttujan oltava määritelty suhdeasteikon muuttujaksi (scale). Keskiarvojen desimaalien määrää taulukoissa voi säätää Variable View -ikkunan Decimals -sarakkeesta. Desimaaleja voi määrittää myös suoraan Output-ikkunassa: kaksoisnapsauta taulukkoa > maalaa haluamasi tunnusluvut > napsauta lukuja hiiren oikealla painikkeella > avautuvasta valikosta voit määrittää solujen ominaisuudet, järjestää tulokset suuruusjärjestykseen tehdä taulukosta kuvioita

Raportoinnin esimerkki

Jakauman normaalisuus

Parametriset menetelmät edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää. Havainnollisen kuvan jakauman normaalisuutta voi tutkia esimerkiksi histogrammilla: Graphs -> Histogram -> Siirrä muuttuja oikeaan pikkuikkunaan -> rastita Display normal curve -> Ok. Jakauman tulisi muistuttaa Gaussin käyrää.

Tunnusluvut skewness ja kurtosis kuvaavat myös jakauman normaalisuutta: Analyze -> Descriptive statistics -> Frequencies -> siirrä muuttuja oikeaan ikkunaan -> Paina painiketta Statistics -> Valitse Skewness ja Kurtosis -> Continue -> Ok. Skewnessin ja kurtosiksen arvo ei nyrkkisäännön mukaan saisi olla yli kaksi kertaa niin suuri kuin niiden standard error, jotka aina myös ilmoitetaan outputissa. Skewnessin arvo on usein tärkeämpi kuin Kurtosiksen arvo.

Normaalisuutta voi testata Kolmogorov-Smirnovin testillä. analyze > Nonparametric Tests > 1-Sample K-S... > Siirrä muuttuja Test Variable List -ikkunaan > Valitse Exact.. painikkeen alta Exact > continue > OK. Jos arvo Exact Sig. (2-tailed) rivillä < ,05, jakauma ei liene normaali. Suurilla tapausten määrillä testitulos on kuitenkin lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn. Joillakin muuttujilla, esimerkiksi koulumatkalla muuttuja on lähes aina ei-normaalisti jakautunut (useimmat asuvat lähellä koulua, mutta muutama asuu kaukana). Tehtäessä parametrisiä testejä (esim. t-testi), jotka edellyttävät normaalisti jakautunutta riippuvaa muuttujaa, voidaan tarvittaessa kokeilla jakauman "suoristamista" muuttujamuunnoksilla.

Normaalisuuden arviointi Explore -toiminnolla

Hyvän yhteenvedon muuttujan normaalisuudesta saa Explore-toiminnolla: Analyze > Descriptive Statistics > Explore. Siirrä arvioitava muuttuja Dependent List –ikkunaan. Statistics painikkeen alta valitse Descriptives ja Outliers. Paina Plots –painiketta, valitse Histogram ja Normality plots with tests > Continue. Paina Options painikkeen alta Exclude cases pairwise > Continue > OK.

Output-ikkunassa taulukossa Descriptives huomioi seuraavat seikat: Poikkeavatko keskiarvo (Mean) ja 5 % trimmed mean (josta on otettu 5 % ylimmistä ja alimmista arvoista pois) toisistaan? Skewness ja kurtosis -arvo ei nyrkkisäännön mukaan saisi olla yli kaksi kertaa niin suuri kuin niiden standard error, jotka aina myös ilmoitetaan outputissa. Skewnessin arvo on usein tärkeämpi kuin Kurtosiksen arvo.

Suuremmilla aineistoilla (N > 200) vinous ei enää helposti vaaranna testin tulosta. Extreme values –taulukossa näkyy viisi suurinta ja viisi pienintä arvoa. Tests of Normality on Kolmogorov-Smirnov-testi (ks. yllä). Histogram kuvion pitäisi muistuttaa kellokäyrää. Normal Q-Q Plotin arvojen pitäisi olla suurin piirtein samalla suoralla. Detrended Normal Q-Q Plots pitäisi hajaantua satunnaisesti nolla-viivan ympärille.

Siirtämällä ryhmittelevä muuttuja (esim. sukupuoli) Factor List -ikkunaan voidaan normaalisuutta tarkastella osapopulaatioiden osalta erikseen. Esimerkiksi tyttöjen ja poikien ryhmissä pitäisi kummankin ryhmän olla normaalisti jakautunut, jotta analyysissä voi käyttää parametrisiä menetelmiä, esim. varianssianalyysia.

Luottamusväli

Luottamusväli kuvaa jakaumaa, jonka alueella populaation keskiarvo tietyllä uskottavuudella sijaitsee. Se kuvaa otoskeskiarvon jakaumaa. Usein tämä uskottavuuden raja määritetään 95% todennäköisyydeksi (SPSS:n oletusarvo, voi olla myös esim. 99% tai 99,9%). Riski, että keskiarvo ei sijaitse alueella, on tällöin 5%.

Tarvitsemme sitä laajemman alueen, mitä varmempia haluamme otoksemme keskiarvon ja hajonnan perusteella arvioidun koko populaation (esim. suomalaiset 4-vuotiaat pojat) keskiarvosta olla. Analyze > Descriptive statistics > Explore > Siirrä muuttuja Dependent List ikkunaan > OK. Lower Bound kertoo luottamusvälin alarajan, Upper Bound ylärajan.

Luottamusvälin arvioi on luotettava vain normaalisti jakautuneilla muuttujilla, käytännössä mielellään aidolla suhdeasteikolla mitatuilla muuttujilla. Järjestysasteikot (esim. väitelauseet joita arvioidaan yhdestä viiteen) antavat usein järjettömiä luottamusvälejä. Luottamusvälin raportoinnin esimerkki.

Yhden otoksen Khii-neliö-testi (chi-square)

Voidaan käyttää verrattaessa muuttujan ryhmien suuruuksia. Jos esimerkiksi oletetaan että kummassakin ryhmässä pitäisi tulla 50 % tapauksista, voidaan todellista jakaumaa verrata tähän odotusjakaumaan. Toinen vaihtoehto on, että aikaisemman tutkimuksen perusteella oletetaan ryhmäkoot tietynlaisiksi.

Esimerkissä katsomme onko tyttöjä ja poikia tapauksina yhtä paljon: Analyze > Nonparametric tests > Legacy dialogs > Chi-Square > Siirrä Sukupuoli-muuttuja Test Variable List -ikkunaan > Expected Values kohdassa oletusarvo on All categories Equal. Jos sinulla muu lukumäärien suhde tai ryhmiä on useampia, sinun täytyy valita Values ja kirjata jokaiselle ryhmälle oma odotusarvo (esim. ,3 ja ,7) >  OK.

Ensimmäinen taulukko näyttää havaitut ja odotusarvot. Toinen taulukko kertoo havaittujen ja odotusarvojen eron merkitsevyyden, joka katsotaan Asymp Sig. riviltä > jos merkitsevyys pienempi kuin ,05, lukumäärien erot ovat merkitseviä. Näin ollen esimerkkiotoksessa ei ollut tilastollisesti merkitsevästi enemmän tyttöjä tai poikia.

Katso raportoinnin esimerkki.

Riippumattomien otosten Khii-neliö-testi (chi-square)

Tutkitaan lukumäärien eron merkitsevyyttä, eli kuinka suuri on riski, ettei ryhmien välillä olekaan eroa. Mitä suurempi odotusarvojen ja havaittujen arvojen ero, sitä pienempi on riski, että ero johtuu sattumasta. Analyze -> Descriptive -> Crosstabs-> valitse 2 muuttujaa -> Paina statistics -> valitse chi-square - > ruksaa Phii and Cramers V > >continue -> OK Riskitason oltava alle .05, jotta lukumäärien ero olisi merkitsevä (eli riski että ero johtuu sattumasta on oltava alle 5%). Merkitsevyys katsotaan yleensä kohdasta Pearson Chi-square. Symmetric measures -ikkunassa Cramer's V kuvaa muuttujien keskinäisen vaikutuksen määrää (Effect size), kahden kategorian tapauksessa alle .01 on pieni vaikutus (.30 kohtalainen, .50 suuri), kolmen kategorian tapauksessa alle .07 on pieni vaikutus (.21 kohtalainen, .35 suuri) ja neljän kategorian tapauksessa alle ,06 on pieni vaikutus (,17 kohtalainen, ,29 suuri).

Enintään 20 % odotusarvoista saa olla alle viiden. Kaikkien odotusarvojen tulee olla vähintään yksi. Jos odotusarvojen vaatimukset eivät täyty, 2x2 taulukossa luotettavampi merkitsevyysarvo löytyy sarakkeesta Exact Sig. (2-sided) riviltä Fischer's exact test. Metsämuuronen suosittaa käyttämään aina tarkkaa testiä, sillä aineiston pienuus, taulukoiden vajaus tai jakautuminen ei aiheuta tarkassa (Exact..) testissä harhaisia tuloksia. Suuremmista taulukoista Crosstabs-ikkunasta valitse painikkeen Exact... alta Exact > Continue > OK. Katso merkitsevyys sarakkeesta Exact Sig. (2-sided).

Jos SPSS ei pysty tekemään eksaktia testiä (esim. jos aineistossa on satoja tapauksia ja useita luokkia, ei tarkka testi useinkaan onnistu) , voi SPSS:n laskemista helpottaa esim. vähentämällä solujen määrää Recode-komennolla: Transform -> Recode- Into different variables -> siirrä muuttuja oikeaan ikkunaan -> anna muuttujalle uusi nimi-> paina painiketta Old and new values ->Range > määritä uudet arvot (esim. 1 vasempaan ikkunaan, 9 oikeaan > New value ikkunaan esim. 1 uusi arvo on 1 > paina add > Vasempaan ikkunaan 10, oikeaan 1000 > New value ikkunaan arvo 2 > paina add > continue > Anna uudelleen luokitellulle muuttujalle nimi Output variable -ikkunaan (esim pktyo2) > change -> OK.

Luokituksia valitsemalla (select cases) voi myös vähentää solujen määrää ja saada tarkasteluun vain haluamansa luokitukset. Raportoinnin esimerkki.

Korrelaatio

Mittaa kahden muuttujan välistä yhteyttä. Korrelaation arvo vaihtelee miinus yhden ja plus yhden välillä. Mitä lähemmäs plus ykköstä korrelaatio kasvaa, sitä vahvempi yhteys muuttujilla on (kun toisen muuttujan arvo kasvaa, toisenkin muuttujan arvo kasvaa.) Jos korrelaatio lähenee nolla, muuttujien välillä ei ole yhteyttä. Jos korrelaatio on miinusmerkkinen toisen muuttujan arvojen vähetessä, toisen muuttujan arvoilla on taipumus kasvaa ja lähetessään miinus ykköstä yhteys vain vahvenee.

Analyze -> Correlate -> Bivariate -> Siirrä muuttujat oikeaan ikkunaan -> Ok. Tulos katsotaan Correlations -taulukosta, jossa korrelaatiot ja niiden merkitsevyydet on ristiintaulukoitu. Riviltä Pearson Correlation katsotaan siis yhteyden voimakkuus. Riviltä Sig. (2-tailed) katsotaan korrelaation tilastollinen merkitsevyys. Huomaa puuttuvien tietojen tai ei-normaalisuuden vaikutus korrelaatioon.

Kun korrelaation arvo kasvaa (Outputissa rivillä Correlation), riskitaso (riski ettei korrelaatiota todellisuudessa olekaan) pienenee (rivillä Sig. (2-tailed), eli mitä suurempi korrelaatio, sitä harvemmin se johtuu sattumasta. Kasvatustieteessä riskitaso on usein ,05 (viisi prosenttia). Korrelaatiokerroin siis kertoo yhteyden voimakkuudesta, Sig. sattuman mahdollisuudesta. Laatueroasteikollisia muuttujia, varsinkaan jos luokkia on enemmän kuin kaksi, ei voi käyttää korrelaatioiden laskemiseen, elleivät sitten ryhmät ole järjestetty esimerkiksi ominaisuuden suuruuden mukaan. Muuttujien keskinäistä vaikutusta voi kuvata kertomalla korrelaation itsellään: Esimerkiksi ,300:n korrelaatio antaa muuttujien keskinäiseksi vaikutukseksi ,300 * ,300 = ,090, eli vaikutus on yhdeksän prosenttia.

Jos muuttujat eivät ole normaalisti jakautuneet, ruksaa Analyze -> Correlate -> Bivariate> Bivariate Correlations -ikkunassa Spearman. Spearmanin järjestyskorrelaatiokerroin ei ole niin herkkä muuttujan ei-normaalisuudelle tai poikkeaville arvoille kuin Pearsonin korrelaatiokerroin. Lisäksi normaalisti jakautuneissa muuttujissa Spearman antaa saman tuloksen kuin Pearson, joten ei ole mitään syytä olla käyttämättä Spearmania. Spearmanin korrelaatiokerroinkaan ei kuitenkaan estä puuttuvien tietojen vinouttavaa vaikutusta. Se ei myöskään pysty löytämään ei-lineaarisia yhteyksiä. Korrelaation arvo on rivillä Spearman's rho. Katso raportoinnin esimerkki.

T-testi

Mittaa kahden ryhmän keskiarvojen erojen merkitsevyyttä. Analyze -> compare means -> Independent samples t-test -> siirrä testimuuttuja (jossa keskiarvot eroavat) ikkunaan test variable -> siirrä ryhmittelevä muuttuja (esim. asuinkunta) kohtaan grouping variable -> valitse ryhmittelevä muuttuja hiirellä -> paina painiketta Define groups -> kirjoita ryhmät määrittelevät luvut (esim. 1 ja 2, jotka kuvaavat Helsinkiä ja Espoota)-> paina continue -> Ok.

Ensimmäisessä taulukossa näkyy keskiarvojen ero. Toisessa testataan eron merkitsevyttä. Jos Levenen testin mukaan (jos arvo < ,05) ryhmien varianssit ovat erisuuret, luetaan merkitysevyys alariviltä, muuten yläriviltä (kohdasta sig.). Jos riski on alle ,05, niin keskiarvojen ero on tilastollisesti merkitsevä. Katso raportoinnin esimerkki.

Mann-Whitneyn testi

Keskiarvojen eron merkitsevyyttä tutkittaessa muuttujan täytyy olla normaalisti jakautunut. Jos näin ei ole, voit usein käyttää Mann-Whitneyn testiä. Analyze > Nonparametric Tests > Independent Samples.. > Objective-välilehdeltä valitse Customize analysis > Fields-välilehdeltä siirrä luokitteleva nominaaliasteikollinen muuttuja Groups-ikkunaan (pitää olla kaksi luokkainen) > Siirrä vertailtava muuttuja Test Fields -ikkunaan > Settings-välilehdeltä ruksaa Mann-Whitney U (2 samples) > Paina Run >

Kaksoisnapsauta Hypothesis Test Summary -taulukkoa > Katso tilastollinen merkitsevyys kohdasta Asymptotic Sig. (2-sided test). Jos luku on pienempi kuin ,05, ryhmien ero on tilastollisesti merkitsevä. Katso raportoinnin esimerkki.

Yksisuuntainen varianssianalyysi (ANOVA)

Verrattaessa yhden ryhmittelymuuttujan (esim. asuinpaikka) vaikutusta jatkuvan muuttujan vaihteluun (esim. bruttotulot) käytetään yksisuuntaista varianssianalyysiä. Se tutkii sekä havaintojen vaihtelua ryhmien sisällä että ryhmäkeskiarvojen vaihtelua koko tutkittavassa joukossa. Varianssianalyysia käytetään ryhmäkeskiarvojen väliseen vertailuun silloin, kun ryhmiä on enemmän kuin kaksi (jolloin käytetään usein t-testiä). Jos ei haluta kaikkia luokkia analyysiin, käytä select cases -valintaa. Ennen varianssianalyysin suorittamista on tarkasteltava muuttujan normaalisuutta ja mahdollisia ääriarvoja.

Analyze > General Linear Model > Univariate... > Siirrä riippuva muuttuja (esim. bruttotulot) Dependent Variable -ikkunaan > Siirrä ryhmittelevä muuttuja Fixed Factor(s) ikkunaan > Jos haluat tietää minkä ryhmien välillä mahdolliset erot ovat paina Post Hoc... > Siirrä ryhmittelevä muuttuja (esim. kunta) Post Hoc Tests for: -ikkunaan > Valitse testiksi Tukey > Continue > Options -painikkeen alta valitse Descriptive statistics, Estimates of effect size ja Homogeneity tests. > Continue > OK.

Descriptive Statistics -taulukosta nähdään keskiarvot eri ryhmissä. Levene's test of Equality of Error Variances -taulukosta nähdään varianssien yhtäsuuruus, Sig. -sarakkeen arvon oltava >,05. Tests of Between-Subjects Effects -taulukosta katsotaan merkitsevyys sarakkeesta Sig. riviltä ryhmittelevä muuttuja (esim. kunta), todennäköisyyden oltava <,05, jotta ryhmien välisen keskiarvon erot olisivat tilastollisesti merkittäviä. Minkä ryhmien välillä mahdolliset erot ovat, näkyy taulukosta Multiple Comparisons. Sig. -sarakkeesta (jos arvo <,05, ryhmien erot merkitseviä). Jos ryhmien varianssit ovat eri suuria tai jakaumat ovat kovin vinoja, käytä ei-parametristä Kruskal-Wallisin testiä, jossa ei oleteta jakauman olevan normaaleja. Katso raportoinnin esimerkki

Yksisuuntainen toistettujen mittausten varianssianalyysi

Jokainen tapaus (esim. lapsi) on arvioitu tai testattu kaksi tai useampia kertoja samalla arviointiasteikolla. Analyysia varten on yksi riippumaton variaabeli (ryhmittelevä muuttuja) ja arviointikertoja vastaava määrä muuttujia (jatkuvia muuttujia, esim. testiarvoja kullakin testauskerralla) kuvaamaan riippuvaa muuttujaa.

Analyze > General Linear Model > Repeated measures > Number of Levels-laatikkoon kirjoita mittausten lukumäärä (esim. 2 tai 3) > Paina Add > Paina Define > Valitse testimuuttujat ja siirrä nuolipainikkeella Within Subjects Variables -laatikkoon > Siirrä ryhmittelevä (t) muuttuja (t) Between-Subjects Factor(s). Napsauta Options > Ruksaa Descriptive statistics ja Estimates of effect size > Post-hoc testiä (kertoo useamman ryhmän tapauksessa, minkä ryhmien välillä erot ovat) varten valitse riippumattoman kuvaus Factor and Factor Interactions -ikkunasta Display means for -ikkunaan > ruksaa Compare main effects > valinnassa Confidence interval adjustment valitse Bonferroni > Continue > Ok.

Descriptive Statistics -taulukosta nähdään ryhmien välisten keskiarvojen erot, hajonnat ja tapausten lukumäärä. Multivariate tests -taulukosta keskity riviin Wilks' Lambda > Sig. -sarake kertoo eron merkitsevyyden, jos arvo on pienempi kuin ,05, testitulokset poikkeavat mittauskertojen välillä toisistaan. Sarake Partial Eta Squared kertoo vaikutuksen suuruuden (,01 = pieni, ,06 = kohtuullinen, ,14 = suuri). Pairwise Comparisons -taulukko kertoo minkä ryhmien välillä erot ovat (jos ovat), kukin testi on omalla rivillään ja yhden testikerran (muuttujan) keskiarvoja verrataan aina kaikkien muiden testausten keskiarvoihin, merkitsevät erot on merkitty tähdellä ja eron merkitsevyys löytyy Sig. -sarakkeesta. Raportoinnin esimerkki.

Kaksisuuntainen varianssianalyysi

Analyysissä on kaksi riippumatonta muuttujaa (esim. sukupuoli ja koulutustaso) sekä riippuva muuttuja (vähintään hyvän järjestysasteikon muuttuja, esim. palkka). Tällöin verrataan ryhmien välisiä eroja. Kaksisuuntainen varianssianalyysi voidaan tehdä myös toistettujen mittausten varianssianalyysilla (ks. yllä). Testillä voidaan arvioida riippumattomien muuttujien vaikutusta esim. palkan suuruuteen ja niiden yhdysvaikutusta (esim. vaikuttaako koulutus enemmän miehillä vai naisilla).

Analyze > General Linear Model > Univariate > Siirrä riippuva muuttuja (esim. palkka) Dependent variable -ikkunaan ja kaksi riippumatonta muuttujaa (esim. sukupuoli ja koulutustaso) Fixed Factors -ikkunaan > Paina Options > Ruksaa Descriptive Statistics, Estimates of effect size ja Homogeneity tests > Continue > Paina Post Hoc > Factors -ikkunasta siirrä yksi tai kaksi muuttujaa oikeaan ikkunaan > valitse Tukey > Continue > Paina Plots > Horizontal - laatikkoon siirrä eniten ryhmiä sisältävä ryhmittelevä muuttuja > Separate Lines -laatikkoon toinen riippumaton muuttuja > Add > Continue > Ok.

Descriptive statistics -taulukossa on keskiarvojen erot, hajonnat ja lukumäärät. Levene's test of Equality of Error Variances -taulukon Sig. -arvon tulisi olla yli ,05, muuten ryhmien varianssien ero on liian suuri ja testin luotettavuus kärsii. Voit varmuuden vuoksi nostaa merkitsevyysrajaksi esim. ,01. Tests of Between-Subjects Effects -taulukosta näkyy kummankin muuttujan merkitsevyys Sig. -sarakkeesta sekä muuttujien yhteisvaikutus heti näiden muuttujien alapuolelta (esim. riviltä sukup*ika). Jos muuttujien yhdysvaikutus on merkitsevä, on näiden muuttujien yksittäisten vaikutusten merkitsevyys epävarma, sillä yhdysvaikutus vaikuttaa merkitsevyyksiin. Jos yhdysvaikutus on merkitsevä, Pallant (2007, 264) ehdottaa tekemään erilliset varianssianalyysit kullekin ryhmälle (esim. miesten ja naisten koulutustason yhteys palkkaan). Usein merkitsevyyden rajana on ,05, eli jos merkitsevyys on tätä pienempi, on keskiarvojen ero tilastollisesti merkitsevä. Partial Eta Squared -sarakkeesta näkyy vaikutuksen suuruus. Multiple Comparisons -taulukossa on eriteltynä kunkin ryhmän väliset erot ryhmä kerrallaan. Raportoinnin esimerkki.

Kruskal-Wallisin testi

Käytetään varianssianalyysin sijasta ei- normaalien jakaumien ja järjestysasteikollisten muuttujien ryhmien välisiä eroja arvioitaessa.

Analyze > Nonparametric Tests > Independent Samples > Objective-välilehdeltä valitse Customize analysis > Fields-välilehdellä siirrä ryhmittelevä muuttuja Groups-ikkunaan ja vertailtava muuttuja Test Fields-ikkunaan > Settings-välilehdeltä valitse Customize tests ja Kruskal-Wallis 1-way ANOVA (k samples) > Run.

Kaksoisklikkaa taulukkoa Hypothesis Test Summary > Ylhäällä olevasta Boxplot-kuviosta voi verrata ryhmien eroja. Tilastollinen merkitsevyys on rivillä Asymptotic Sig. (2-sided test).

Ryhmien eron merkitsevyys näkyy Test Statistics -taulukon Asymp. Sig. -riviltä (kasvatustieteessä melkein merkitsevän eron rajana on usein luku joka on pienempi kuin ,050). Voit myös kokeilla muuttujamuunnosta saadaksesi jakauman normaaliksi ja kelvolliseksi analysoitavaksi parametrisilla menetelmillä, siis esim varianssianalyysilla tai regressioanalyysilla. Raportoinnin esimerkki.

Regressioanalyysi

Reggressioanalyysin avulla voidaan tutkia kuinka paljon yksi tai useampi muuttuja (Independent) selittää tai ennustaa jotakin toista muuttujaa (Dependent). Muuttujien on oltava jatkuvia ja normaalisti jakautuneita. Analyze-valikosta valitaan Regression > Linear…. Siirretään riippuva muuttuja Dependent-ikkunaan ja yksi tai useampi riippumaton muuttuja Independent-ikkunaan. Painetaan OK.

Model summary taulukossa R Square –sarake kertoo miten monta prosenttia muuttuja selittää riippuvasta muuttujasta. Anova-taulukossa sarake F antaa F-testiarvon, sarake df vapausasteet (sekä rivin Regression että rivin Residual vapausasteet tarvitaan raportointiin), sarakkeesta Sig. selviää muuttujien välisen yhteyden tilastollinen merkitsevyys (kun arvo <.05, ero merkitsevä). Regressioanalyysiä voi käyttää riippuvan muuttujan ennustamiseen, Coefficients -taulukosta sarakkeesta B otetaan tekijät yhtälöön: (Constant) on yhtälön vakio ja muuttujien kertoimet saadaan saman sarakkeen alemmilta riveiltä, esim. riippuvan muuttujan arvo voi olla (y) = 1,134 + 0.213*x1 +0,186*x2 (x1 ja x2 ovat muuttujan arvot, esimerkiksi harjoituskerrat x1 = 10 ja harjoitusten kesto x2 = 10 minuuttia).

Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method.

Useimmin käytetty metodi on Enter, josa ennustemuuttujat liitetään mailliin yhtäaikaa ja niiden merkitsevyys ilmoitetaan vain siltä osin kuin ne selittävät riippuvan muuttujan muutosta muiden muuttujien lisäksi, siis muutosta joka johtuu vain tästä nimenomaisesta muuttujasta. Enter mallissa pitäisi olla vähintään 15 tapausta per ennustemuuttuja.

Hierarkisessa mallissa analysoidaan muuttujien vaikutus tietyssä järjestyksessä, jolloin voidaan poistaa esimerkiksi iän vaikutus jatkoanalyysista. Esimerkiksi kun Ikä-muuttuja on sijoitettu Independent(s) -ikkunaan painetaan Next ja tehdään jatkoanalyysi, jolloin iän vaikutus on eliminoitu tuloksista.

Askeltavassa mallissa SPSS lisää ja poistaa ennustemuuttujia niiden tilastollisen merkitsevyyden perusteella kunnes mallin tilastollisesti merkitsevien muuttujat eivät enää vaihdu. Näin saadaan tiivis ja ehkä runsaita vaikutuksia kuvaava malli, mutta esimerkiksi Pallant (2007) kehottaa varovaisuuteen mallin käytössä. Askeltavassa mallissa riippumatonta muuttujaa kohden tulisi olla vähintään 40 tapausta. Raportoinnin esimerkki.

Reggressioanalyysin muuttujien oletukset

Reggressioanalyysin on täytettävä runsaasti oletuksia. Analyysiin tarvitaan noin 15 tapausta per muuttuja. Muuttujat eivät saa olla singulaarisia (muuttujat eivät saa olla osia jostakin isommasta kokonaisuudesta, esim. kahdesta muuttujasta tehdystä summamuuttujasta). Riippumattomat muuttujat eivät saa olla multikollineaarisia (ne eivät saa korreloida liian voimakkaasti). Multikollineaarisuutta voi testata korrelaatiokertoimilla. Linear Regression analyysissa Statisticspainikkeen alta ruksaa Part and partial correlations sekä Collinearity diagnostics. Reggressioanalyysissa oletetaan että muuttujien residuaalit (selittymättä jäänyt vaihtelu) ovat normaalisti jakautumisen lisäksi myös lineaarisia (suoraviivaisia), homoskedanttisia (selittymättä jääneen vaihtelun hajonta pitäisi olla yhtä suurta eri mittauskerroilla tai ryhmissä, esimerkiksi tuloerojen pitäisi olla yhtä suuria pieni- ja suurituloisilla) sekä toisistaan riippumattomia. Statistics painikkeen alta ruksaa Casewise diagnostics > Continue. Plots painikkeen alta valitse SDRESID> Y-laatikkoon ja ZPRED > X-laatikkoon (versiossa SPSS 16 paina Next), sekä ZPRED y-laatikkoon ja DEPENDNT x-laatikkoon, ruksaa Normal probability plot (SPSS 16 versiossa ruksaa molemmissa vaiheissa) > Continue. Save –painikkeen alta voidaan vielä ruksata Cook’s > Continue (residuaalit tallennetaan uusiksi muuttujiksi muuttujalistan loppuun) > OK.

Correlate –taulukossa riippumattomien muuttujien tulisi korreloida jonkin verran muttei mielellään yli .7. Coefficients –taulukossa Tolerancearvon ei tulisi olla alle .10 eikä VIF –arvon yli 10. Taulukossa Casewise Diagnostics voidaan arvioida suuresti havainnoista poikkeavien ennustearvojen (outliers) merkitystä mallissa. Taulukossa Residual Statistics tulisi Cook’s Distance –arvon olla alle yhden, muuten pitäisi tutkia datasta yli yhden menevät arvot (muuttuja COO_1) Normal P-P Plotkuviossa pisteiden tulisi olla melko suorassa linjassa lävistäjän kanssa. Scatterplot kuviossa soikion muotoinen pistepilvi pitäisi olla ryhmittynyt nollakohdan ympärille.

Logistinen regressioanalyysi

Kun tavallisessa regressioanalyysissä riippuvan muuttujan pitää olla suhdeasteikollinen, logistisessa regressiossa se voi olla nominaaliasteikollinen muuttuja, jossa on kaksi tai useampia luokkia. Riippumattomat muuttujat voivat olla nominaaliasteikollisia tai jatkuvia. Esimerkin riippuva muuttuja (Ei/on erityisen tuen tarvetta) on dikotominen, jolloin käytetään SPSS:ssä toimintoa Binary Logistic. Jos luokkia on useampi, käytetään vaihtoehtoa Multinomial Logistic.  

Otoskoko on vaikea määritettävä. Yleisesti ottaen usealuokkaiset muuttujat, vähän tapauksia sisältävät luokat ja selittävien muuttujien suurempi määrä lisäävät tarvetta suuremmalle otoskoolle. Minimimäärä tapauksia per riippumaton muuttuja on 10. Hierarkinen logistinen regressio edellyttää vähintään 20 tapausta ja askeltava (stepwise) logistinen regressio 50 tapausta per riippumaton muuttuja. Logistinen regressio ei tee varsinaisia oletuksia normaalisuudelle, lineaarisuudelle tai varianssien yhtäsuuruudelle, mutta vahvoja korrelaatioita ja poikkeavia arvoja täytyy pitää silmällä.

Ensin riippuva muuttuja pitää muuttaa dikotomiseksi, jossa 0 = Ei erityisen tuen tarvetta ja 1 = On erityisen tuen tarve. Tämä tehdään Recode-toiminnolla. Selkeyden vuoksi myös kategoriset riippumattomat muuttujat on hyvä koodata dikotomiseksi ja jatkuvien riippumattomien muuttujien numeroiden kasvun pitää kuvata ominaisuuden lisääntymistä. Seuraavassa logistisessa regressiossa tutkitaan, mitkä lasten taidot eniten ennustavat lapsen erityisen tuen tarvetta.

Analyze > Regression > Binary Logistic > Siirrä riippuva muuttuja (Ei/on erityisen tuen tarve) Dependent-laatikkoon > Siirrä sukupuoli ja motoriset, oppimisen, leikkimisen, sosiaaliset ja osallistumistaidot Covariates-laatikkoon > Klikkaa Categorical-laatikkoa > Siirrä kategorinen riippumaton muuttuja (sukupuoli) Categorical Covariates –ikkunaan > Valitse First >Klikkaa Change > Continue >Options > Valitse Classification plots, Hosmer-Lemeshow Goodness of Fit, Casewise listing of Residuals ja CI for Exp(B) > Continue > OK.

Tarkista että Case processing Summary, Dependent Variable Encoding ja Categorical Variable Coding  -taulukot ovat oikein. Otsikon Block 0 alla on analyysi ilman riippumattomien muuttujien vaikutusta. Otsikon Block 1 alla on regressiomallin testaus. Omnibus Tests of Model Coefficients antaa mallin tilastollisen merkityksen (arvon tulisi olla < ,05 ollakseen merkitsevä). Model Summary –taulukko kertoo mallin vaikutuksen, joka kuvaa kuinka monta prosenttia muuttujan vaihtelusta selittyy mallilla. Esimerkiksi Nagelkerke R Square arvo .371 tarkoittaa, että malli selittää 37,1 % muuttujan vaihtelusta. Hosmer-Lemeshow Goodness of Fit taulukon Sig.-arvon tulisi olla yli ,05, jotta testi tukisi mallia. Classification Table kuvaa mallin ennusteen osuvuutta. Variables in the Equation taulukko kuvaa yksittäisten riippumattomien muuttujien vaikutusta. Testiarvo on Wald-sarakkeessa ja til. merkitsevyys Sig.-sarakkeessa. Mitä pienempi Sig.arvo, sitä merkitsevämpi on sen vaikutus. B-sarakkeessa on tavallista regressioanalyysia vastaava regressiokerroin. Positiivinen kerroin lisää riippuvan muuttujan todennäköisyyttä, negatiivinen vähentää.Exp(B) sarake kertoo todennäköisyyden, jolla riippuva muuttuja saa arvon 1 (On erit.tuen tarve. Esimerkiksi Kielellisen tuen tarpeen (asteikko 1-5) arvon noustessa yhdellä, lapsen erityisen tarpeen todennäköisyys lisääntyy 2,149 kertaiseksi. Viimeinen Casewise List –taulukko kuvaa muuttujia, jotka eivät sovi malliin. Sarakkeen Zresid yli +2,5 tai alle -2,5 olevia tapauksia voi tarkastella lähemmin. Voit poistaa tapaukset, joilla on suurin ZResid-arvo ja tehdä Logistisen regression uudestaan. Raportoinnin esimerkki.

Faktorianalyysi (pääkomponenttianalyysi)

Faktorianalyysin tarkoituksena on usein liittää useita muuttujia muutamaksi kokoavaksi faktoriksi. Analyze > Data reduction > Factor analysis > Siirrä tarvittavat muuttujat oikeaan ikkunaan > Paina painiketta Descriptives > Valitse KMO and Bartlett’s test of spherity > Painikkeen extraction alla määritä eigenvaluen raja-arvo (usein 1) tai faktorien lukumäärä > Paina painiketta Rotation > Valitse rotatointi (esim. varimax) > paina painiketta options > Valitse sorted by size ja suppress absolute values less than (voit laittaa arvoksi esim. ,30) > continue > OK.

KMO and Bartlett’s testin arvon on oltava riittävä (esim. yli .60). Communalities taulukosta nähdään, minkä verran faktorit selittävät kustakin muuttujasta. Total variance explained kertoo minkä verran faktorit selittävät koko aineiston hajonnasta. Component matrix -taulukko on rotatoimaton faktoritaulukko (usein vaikealukuinen). Rotated component matrix taulukko on usein varsinainen tulos. Faktoreille voi antaa nimet, johon vaikuttaa ainakin faktorilataus ja muuttujien ryhmittyminen (viimeisen taulukon voi yleensä jättää huomiotta).

Faktorianalyysejä kannattaa yleensä tehdä useita, jotta löytyy helposti tulkittava tai teoreettisesti pätevä faktorointi. Muuttujien yhdistelmiä voi vaihdella, faktorien määrää voi vaihdella tai rotaatiomenetelmiä voi vaihdella. Faktoreista voi tehdä uusia muuttujia painikkeen Scores > Save as variables avulla.

Diskriminanttianalyysi (DA)

Erottelu- eli diskriminanttianalyysiä kannattaa käyttää kun on olemassa jokin ryhmittelevä (laatueroasteikollinen) muuttuja, esimerkiksi opiskelijan kuvaama opiskelutyyli, ja halutaan selvittää miten muiden muuttujien (esim. opintomenestys, pääsykokeen pistemäärä) perusteella voidaan luokitella ihmisiä tietyn opiskelutyylin omaavaksi. Olemme siis kiinnostuneita siitä, mitkä tekijät vaikuttavat ihmisten kuulumiseen tiettyyn ryhmään.

Diskriminanttianalyysi antaa myös kuvauksen siitä, miten hyvin ennustaminen onnistuu kyseessä olevassa aineistossa oikein luokiteltujen tapausten prosenttiosuuksina.

 

Ryhmittelyanalyysi (klusterianalyysi, Cluster analysis, CA)

Ryhmittelyanalyysissä ei ole etukäteen olemassa valmista ryhmittelyä kuten diskriminanttianalyysissa, vaan tarkoituksena on etsiä ryhmiä, joita voidaan kuvata muiden muuttujien avulla. Ryhmille voidaan myöhemmin tuloksia tulkitessa antaa niitä kuvaavat nimet. Klusterianalyysi muistuttaa eksploratiivista faktorianalyysia, mutta sen etuna faktorianalyysiin verrattuna on, että sitä voi käyttää myös tapausten (henkilöiden) luokittamiseen ja analyysin mukana saadaan dendogrammi, jolla saadaan esiin luokkien hierarkinen rakenne, joka faktorianalyysissa jää piiloon.

Muuttujamuunnokset

Jos jakauma ei ole normaali, voidaan testaamiseen käyttää ei-parametrisiä menetelmiä (esim. Mann-Whitney tai Kruskal-Wallis). Jos kuitenkin halutaan käyttää parametristen testien edistyneitä ominaisuuksia tai monimuuttujamenetelmiä, voidaan kokeilla muuttuja-muunnoksia.

Valitse Transform > Compute Variable. Pikkuikkunaan Target Variable luo uusi muuttuja esim. SqrDistance (jos otat neliöjuuren muuttujasta Distance). Ikkunasta Function Group valitse Arithmetic. Ikkunasta Functions and Special Variables valitse sopiva muuttujamuunnos: Jos muuttuja on oikealle vino (vasemmalla paljon arvoja ja oikealla pitkä häntä), muuttujaa voi suoristaa SQRT(Distance), LN(Distance), LG10(Distance), 1/(Distance) -valinnoilla (sitä enemmän muuttuja painottuu oikealle mitä myöhemmin funktio on yllä olevassa listassa mainittu). Jos muuttuja on vasemmalle vino, käytetään samoja funktioita, mutta kaava on SQRT(K - SqrDistance), LN(K - Distance), LG10(K - Distance), 1/(K - Distance), K on suurin arvo + 1. Nuolinäppäimellä funktio siirtyy Numeric Expression ikkunaan. Muuttuja josta uudet arvot lasketaan, tulee sulkeiden sisään samoin kuin tarvittaessa K. Arvioi uudestaan jakauman normaalisuus.

Jos muuttuja on liian huipukas, voi kokeilla muuttujan arvojen korottamista toiseen potenssiin.

Muuttuja voidaan myös luokitella käsin uudestaan. Tällöin esimerkiksi kuusiluokkaisessa jakaumassa muuttujan arvot järjestetään suuruusjärjestykseen. Tällöin luokat koodataan uudelleen Recode-toiminnolla siten että luokkien lukumäärät ovat 2,5%, 13,5 %, 34 %, 34 %, 13,5 %, 2,5 %.

Tulosten raportoinnin esimerkkejä

APAn (2009) ohjeiden mukaan tulosten raportoinnissa tulee ilmetä tilastollisten merkitsevyyksien lisäksi efektikoko (effect size) sekä suhdeasteikollisissa muuttujissa luottamusväli. Englanninkielisissä raporteissa käytetään desimaalipilkun sijasta desimalipistettä. APA suosittelee että tilastolliset symbolit kursivoidaan (esim. N, M), paitsi kreikkalaiset aakkoset ja lyhennykset (esim.α, β, GLM).

Usean muuttujan luokkien tunnusluvut: Keskiarvoja raportoidessa raportoidaan aina myös keskihajonnat. Esimerkki: Lasten läsnäolokuukausien keskiarvot (keskihajonnat suluissa) epäselvän orientaation lapsilla olivat 16,53 (11,63), vetäytyvän orientaation lapsilla 21,31 (11,86) ja mukautuvan orientaation lapsilla 25,71 (16,71) kuukautta.

Luottamusväli: APAn ohjeiden mukaan luottamusvälin raportoinnissa käytetään hakasulkeita: Lasten päiväkodissa viettämien kuukausien keskiarvo oli 23,9 kuukautta, 95% CI [22,9, 25,0].

Yhden otoksen Khii-neliön testi: Poikia oli aineistossa 438 ja tyttöjä 415. Khii-neliön yhden otoksen testin mukaan tyttöjen ja poikien osuuden lukumäärien yhtäsuuruus aineistossa ei poikennut tilastollisesti merkitsevästi toisistaan, Χ2(1, n = 853) = ,620, p = ,451. Lukumäärät saadaan ylemmästä taulukosta sarakkeesta Observed N. Chi-toiseen jälkeen tuleva sulkeissa oleva 1 eli vapausasteet saa Test Statistics –taulukosta riviltä Chi-Square. Luvun 853 saa ensimmäisen taulukon Total-riviltä. Merkitsevyden (p) saa Test Statistics –taulukon Asymp. Sig –riviltä.

Khii-neliön testi: Khii-neliön muuttujien riippumattomuustestin (Exact test) mukaan opiskelijan asuinpaikan ja sukupuolen välillä on tilastollisesti merkitsevä yhteys, Χ2 (3, N = 316) = 7,807, p = ,050, Cramer’s V = ,176. (Vapausasteet (3) löytyvät Chi-Square tests taulukon Exact Sig. (2-sided) sarakkeen ylimmältä riviltä. N (316) löytyy alariviltä N of Valid Cases. Testiarvo (7,807) löytyy Value-sarakkeen ylimmältä riviltä. Vaikutusta kuvaava Cramer’s V löytyy Symmetric Measures –taulukon Value-sarakkeesta riviltä Cramer’s V.)

Korrelaatio: Opiskelijoiden arviot taidoistaan tiedon jakajana ja tapojen opettajana korreloivat positiivisesti, r = ,31, n = 320, p < ,0005. (Eli jos opiskelijat kokevat olevansa päteviä tiedon jakajina, heillä on myös lievä taipumus kokea olevansa hyviä tapojen opettajia. Yhteys on tilastollisesti erittäin merkitsevä, eli riski että HO hylätään aiheetta, on alle 0,1 %.) Korrelaation arvo (r) saadaan riviltä Correlation Coefficient, tapausten lukumäärä (N) saadaan riviltä N, ja tilastollinen merkitsevyys riviltä Sig. (2-sided). Jos SPSS antaa erittäin merkitsevän arvon ,000, suositellaan merkitsevyyttä merkittäväksi < ,0005, koska SPSS pyöristää merkitsevyyden kolmen desimaalin tarkkuudella. Pearsonin tulomomenttikertoimen symboliksi APA (2009) suosittaa r- symbolia ja Spearmanin järjestyskorrelaation symboliksi rs.)

T-testi: Espoolaiset asuvat keskimäärin hiukan kauempana yliopistolta (M = 19,6 km, SD = 6,6 km) kuin Vantaalaiset (M = 17,8 km, SD = 3,9 km). Keskiarvojen erojen merkitsevyyden testaamiseksi suoritettiin riippumattomien ryhmien t-testi, jonka mukaan matkojen keskiarvojenero ei ole kuitenkaan tilastollisesti merkitsevä, t =.1,47, df = 65,8, ja p =,146, 95% CI [-1,36, 3,08]. Myös paikkakunnan vaikutus oli pieni, ?2 = ,002. On kuitenkin huomattava että espoolaisten matkan hajonta on suurempi kuin vantaalaisten, eli espoolaisten matka vaihtelee vantaalaisia enemmän. Levenen testin mukaan espoolaisten ja vantaalaisten matkan varianssien ero on tilastollisesti merkitsevä ( F = 8,2, df = 76, p = ,005). (Keskiarvot ja hajonnat saadaan Group Statistics –taulukosta, t-arvo Indepenedent Samples t-test –taulukosta sarakkeesta t, tilastollinen merkitsevyys Sig.(2-tailed) –sarakkeesta. Luottamusväli 95% CI saadaan sarakkeista 95% Confidence Interval of the Difference. Efektikoon määrittämiseen ei SPSS tarjoa t-testin osalta tunnuslukua. Efektikoko (Eta squared, symboli η2) voidaan laskea kaavalla (t^2)/ (t^2 + (n1 + n2 -2)), esimerkissä lasku on 1,47^2/(1,47^2 + (57 + 44 – 2)) = 0,02, joten vaikutus on hyvin pieni. Vaikutuksen suuruuden rajoiksi kuvataan toisinaan ,01 (pieni), ,06 (kohtuullinen) ja ,14 (suuri).

Mann-Whitneyn testi (esimerkissä on käytetty samaa aineistoa kuin t-testissä. Itse asiassa, koska opiskelijoiden matka on ei-normaalisti jakautunut, Mann-Whitneyn testi on luotettavampi): Espoolaiset asuvat keskimäärin hiukan kauempana yliopistolta (Md = 20 km, n = 41) kuin vantaalaiset (Md = 18 km, n = 37). Mann-Whitney mukaan erot espoolaisten ja vantaalaisten välillä eivät ole kuitenkaan tilastollisesti merkitseviä, U(68) = 666, Z = -1,23, p = ,341 r = ,014. (Raportoitavat luvut saadaan Model Viewer-ikkunan taulukosta riveiltä Mann-Whitney U (U), Standized Test Statistic (Z) ja Asymptotic Sig. (2-sided test. Esimerkin luku 68 on vapausasteet, joka on molempien ryhmien tapausten yhteenlaskettu määrä vähennettynä kahdella (n1 +n2 - 2). SPSS antaa kuviossa ryhmien välisen eron kuvauksena järjestysten keskiarvon. Mediaani on kuitenkin havainnollisempi tunnusluku kuvaamaan kahden ryhmän eroa. Ryhmien mediaanit saa esim Analyze > Descriptive statistics > Explore -toiminnolla, jolloin ryhmittelevä muuttuja tulee siirtää Factor List -ikkunaan. SPSS ei anna myöskään suoraan tunnuslukua efektikokoa (r) kuvaamaan. Model viewerin taulukon Standarized Test Statistic -riviltä saadaan Z-arvo. Z-arvoa voidaan käyttää r-arvon laskemiseen kaavalla r = Z / neliöjuuri N, joka esimerkissä on 1,23 / SQRT (78) = 0,14. Efekti on pieni käytettäessä rajoja ,1 pieni vaikutus, ,3 kohtalainen vaikutus ja ,5 suuri vaikutus.)

Kruskal-Wallisin testi: Kruskal-Wallis -testin mukaan ryhmien välillä oli tilastollisesti merkitsevä ero musiikin käytössä kasvatuksen apuna, Χ2(1, 79) = 4,805, p = ,028, η2= 0.06, siten että järjestysten keskiarvo päiväkodeilla oli 37 (mediaani = 4) ja perhepäivähoitajilla 49,47 (mediaani = 5) . Χ2arvon jälkeen suluissa olevat vapausasteet saadaan Model Viewer -ikkunan taulukosta riviltä Degrees of freedom (ryhmien lkm – 1, luku 79 on tapausten lukumäärä, joka saadaan taulukon riviltä Total N). Testiarvo 4,805 saadaan riviltä Test Statistic. p-arvo saadaan riviltä Asymptotic Sig. (2-sided test). Efektikokoa ei valitettavasti saa suoraan SPSS-taulukosta, mutta ryhmien järjestysten keskiarvon raportointi usein riittää. Järjestysten keskiarvon (Mean Rank) saa siirtämällä hiiren kohdistin Model Viewer –ikkunan kuvion boxplot kuvioiden päälle. Mediaani on boxplot-kuvion keskellä oleva musta viiva.

Yksisuuntainen varianssianalyysi: Pyrittäessä selvittämään opiskelijoiden asuinpaikan yhteyttä opiskelijoiden alan työkokemukseen tehtiin yksisuuntainen riippumattomien ryhmien varianssianalyysi. Opiskelijat oli jaettu neljään ryhmään asuinpaikan mukaan: helsinkiläiset (M = 25, SD = 52,9), espoolaiset (M = 37,5, SD = 63,7), vantaalaiset (M = 48,4, SD = 67,8) ja muualla asuvat (M = 53, SD = 76,4). Ryhmät erosivat tilastollisesti merkitsevästi toisistaan, F (3, 316) = 3,84, p = ,01. Asuinpaikan vaikutus oli kuitenkin pieni, η2 = ,036. Post-hoc testi käyttäen Tukey HSD-korjausta osoitti, että ryhmien välinen ero liittyi erityisesti eroihin helsinkiläisten ja muualla asuvien opiskelijoiden työkokemukseen, p = ,017, 95 % CI (-52,4, -3,69). (Ryhmien keskiarvot ja hajonnat saa Descriptive Statistics taulukosta. Kaikkien ryhmien eroa kuvaava merkitsevyys saadaan Tests of Between-Subjects Effects -taulukosta muuttuja-riviltä (esim. riviltä kunta). Vapausasteet (3, 316) löytyvät sarakkeesta Df, riveiltä kunta ja Error. Ryhmittelevän muuttujan vaikutus (η2) saadaan sarakkeesta Partial Eta Squared. Kahden ryhmän eroja kuvaavat merkitsevyydet saadaan Multiple Comparisons -taulukosta Sig. -sarakkeesta.).

Yksisuuntainen toistettujen mittausten varianssianalyysi: Kortisoliarvojen muuttumista testattiin toistettujen mittausten varianssianalyysilla. Kortisoliarvot pienenivät ensimmäisestä testistä (M =5,26, SD = 2,87) toiseen testiin (M = 3,47, SD = 7,35). Ajalla oli tilastollisesti merkitsevä vaikutus kortisoliarvoihin, Wilksin Lambda =,927, F (2, 53) = 4,16, p = ,046, osittainen η2 (partial eta squared) = ,073. Wilksin lambdan saa Multivariate Tests –taulukon Wilk’s Lambda –riviltä sarakkeesta Value, F-arvon sarakkeesta F,  vapausasteet (tässä 2) sarakkeesta Error of, F:n arvon 4,16 sarakkeesta F, p-arvon sarakkeesta Sig., eta-arvon sarakkeesta Partial Eta Squared.

Kaksisuuntainen varianssianalyysi: Pyrittäessä selvittämään asuinpaikan ja iän yhteyttä opiskelijoiden alan työkokemukseen tehtiin kaksisuuntainen varianssianalyysi. Iän osalta opiskelijat oli jaettu kahteen ryhmään, 19-22 vuotiaat (M = 5.25, SD = 5,77) sekä 23-55-vuotiaat (M = 56,62, SD = 73,7). Ryhmien väliset matkojen erot olivat tilastollisesti merkitseviä, F (1, 303) = 48,29, p = .002. Iän vaikutus oli myös suuri, η2 = .918. Opiskelijat oli jaettu neljään ryhmään asuinpaikan mukaan: helsinkiläisten (M = 25, SD = 52,9), espoolaisten (M = 37,5, SD = 63,7), vantaalaisten (M = 48,4, SD = 67,8) ja muualla asuvien (M = 53, SD = 76,4) työkokemuksen keskiarvot eivät poikenneet tilastollisesti merkitsevästi toisistaan, F (3, 303) = ,97, p = ,510. Muuttujien yhdysvaikutus ei ollut tilastollisesti merkitsevä, F (3, 303) = 1,07, p = ,363. (Keskiarvot ja hajonnat saa Descriptive Statistics -taulukosta. Iän eron merkitsevyys saadaan Tests of Between-Subjects Effects -taulukosta riviltä ikä sarakkeesta Sig.. Vaikutusta kuvaava Partial Eta Squared on taulukon viimeisessä sarakkeessa rivillä ikä. Yhdysvaikutusta kuvaava merkitsevyys on sarakkeessa Sig. rivillä ikä * kunta ja yhdysvaikutuksen vapausasteet löytyvät Df-sarakkeesta riviltä ikä*kunta ja Error. Tuloksessa ilmenee selitys yksisuuntaisen varianssianalyysin tulokseen, jossa eri kuntalaisilla oli eripituinen työkokemus. Kunta ei niinkään määritä ensisijaisesti työkokemusta, vaan eri-ikäisillä opiskelijoilla on ennemminkin taipumus asua eri paikkakunnalla.

Regressioanalyysi: Työkokemuksen keston (M = 24.9 kk, SD = 51,6 kk) ja opiskelijan sosiaalisten taitojen opetustaidon (M = 4,0, SD = .74) vaikutusta opiskelijan osallistuvaan harjoittelijan rooliin (M = 3,3, SD = 1,1,) testattiin lineaarisella regressioanalyysilla. Työkokemus ja sosiaalisten taitojen opetustaito selittivät yhteensä 21,2 % osallistujan roolista, F (2, 525) = 70,67, p < ,0005. Työkokemuksen beta-arvo oli korkeampi (beta = .400, p < .0005) kuin sosiaalisten taitojen opetustaidon (beta = .178, p < .0005). On kuitenkin huomattava, että muuttuja työkokemus ei täyttänyt testin oletuksia: jakauma oli vahvasti vasemmalle vino ja se sisälsi useita ääriarvoja (joillakin opiskelijoilla oli yli 300 kuukautta työkokemusta). Myöskään residuaalit eivät olleet normaalisti jakautuneet. Tapausten suuren määrän takia (n = 527) muuttujien ei-normaalisuus ei liene ratkaiseva asia. Tuloksen varmistamiseksi tarkastettiin tulos vielä ei-parametrisellä Spearmanin järjestyskorrelaatiolla, r = .426, p < ,0005, jonka selitysaste oli myös 18,1 %, eli sama kuin ANOVA-testin tulos työkokemukselle. (Raportoitavat luvut saadaan seuraavasti: Muuttujien keskiarvot ja hajonnat Descriptive Statistics –taulukosta. Kaikkien muuttujien yhteenlasketun selitysasteen saa Model Summary –taulukosta sarakkeesta R square. Testiarvon (F) saa Anova-taulukon F-sarakkeesta, vapausasteet (1, 525) saa Anova-taulukon df-sarakkeesta riveiltä Regression ja Residual. Beta-kertoimet ja niiden merkitsevyydet saa Coefficients-taulukosta sarakkeista Standardized Coefficients (Beta) sekä sarakkeesta Sig. Regressioanalyysin muuttujan oletuksista katso yllä. Samoin korrelaatiokertoimesta katso yllä.

Logistinen regressio: Logistista regressiota käytettiin pyrittäessä arvioimaan, mitkä lasten taidot vaikuttaisivat eniten lapsen määrittelyyn erityistä tukea tarvitsevaksi. Mallissa oli kuusi riippumatonta muuttujaa (sukupuoli sekä osallistumisen, karkeamotoriikan, luovuuden, kielen ja sosiaalisuuden taidot). Malli kokonaisuudessaan oli tilastollisesti merkitsevä, Χ2(6, N = 823) = 160,47, p < ,0005, mikä viittaa siihen että malli kykeni luokittelemaan lapsia erityistä tukea tarvitseviin ja ei- erityistä tukea tarvitseviin. Mallin selitysosuus vaihteli.17,7% (Cox & Snell R Square) ja37,1% (Nagelkerke R Square) välillä. Malli luokitteli oikein 29,3% tapauksista. Sukupuoli (p =,084), luovuus (p = ,174) ja osallistuminen (p = .055) eivät vaikuttaneet malliin tilastollisesti merkitsevästi. Sen sijaan karkeamotorisen, kielen ja sosiaalisen tuen tarve vaikuttivat kaikki malliin merkitsevästi, (p < ,0005). Vahvin vaikuttaja lapsen luokittelussa erityisen tuen tarpeessa olijaksi oli kielellisen tuen tarpeella, jonka todennäköisyyskerroin (odds ratio) oli 2,149. Tämä tarkoittaa, että kun kielellisen tuen tarve (asteikko 1 = ei tuen tarvetta, 5 = runsas tuen tarve) kasvaa yhdellä yksiköllä, lapsen todennäköisyys tulla luokitelluksi erityistä tukea tarvitsevaksi on yli kaksinkertainen.