Korrelaatiokerroin

 

Korrelaatio ja korrelaatiokerroin

·        Joskus puhutaan muuttujien korrelaatiosta -> muuttujien yhteisvaihtelua

·        Yleensä käytetään suppeammassa mielessä, tarkoitetaan välimatka- tai suhdelukuasteikollisten muuttujien lineaarista yhteyttä kuvaavaa tilastollista tunnuslukua, tulomenokorrelaatiota eli (Pearsonin) korrelaatiokerrointa

·        Tarkoitus kuvata kahden muuttujan riippuvuutta

Ø     Positiivinen korrelaatio: havainto, joka sijoittuu korkealle toisella muuttujalla, sijoittuu yleensä korkealle myös toisella muuttujalla (ja toisin päin)

Ø     Nollakorrelaatio: muuttujien arvot vaihtelevat täysin toisistaan riippumatta

Ø     Negatiivinen korrelaatio: toisen muuttujan korkeaan arvoon liittyy usein toisen muuttujan matala arvo (ja toisin päin)

·        Piirrettynä koordinaatistoon muodostavat hajontakuvioita, jotka ilmaisevat voimakkaat yhteydet selvästi

·        Jos halutaan mahdollisimman tarkasti kuvata riippuvuuden suuntaa ja voimakkuutta, hajontakuviot eivät riitä

Ø     Riippuvuutta kuvaavalta tunnusluvulta voitaisiin odottaa, että se ilmaisee, onko riippuvuutta vai ei, kuinka voimakasta se on, ja onko positiivinen vai negatiivinen

Ø     Olisi hyvä jos käytetty mitta-asteikko ei vaikuttaisi lukuun

Ø     Tulosten vertailua helpottaisi jos luku vaihtelisi aina samalla välillä

Ø     (Pearsonin) korrelaatiokerroin

 

Korrelaatiokertoimen laskeminen

·        Piirretään kahden muuttujan muodostamaan koordinaatistoon havainto a sekä molempien muuttujien keskiarvojen kautta kulkevat suorat

·        Muodostetaan kerroin laskemalla yhteen kaikkien havaintojen muuttujien keskiarvoista laskettujen etäisyyksien tulot ja jakamalla summa yhteenlaskettavien lukumäärällä (tai n-1, jos kyseessä on otos)

Ø     X:n ja y:n kovarianssi

·        Vaikka kovarianssia käytettään joskus riippuvuuden tunnuslukuna, sillä ei kuitenkaan ole kaikkia haluttuja ominaisuuksia: sen vaihteluväli ei ole rajoitettu ja sen arvo muuttuu, jos mittayksiköitä vaihdetaan

Ø     Jaetaan kovarianssi x:n keskihajonnan ja y:n keskihajonnan tulolla

 

Tietojen puuttuminen

·        Tilasto-ohjelmissa puuttuvien tietojen käsittelyn oletusarvona, että ne havainnot, joissa puuttuva tieto yhdelläkin korrelaatiota laskettaessa käytettävällä muuttujalla, jätetään kokonaan huomiotta (listwise deletion)

Ø     Vaarana, että havaintoja jää pois runsaasti ja aineisto pienenee

·        Toinen vaihtoehto on, että muuttujat tarkastetaan pareittain ja havainnot poistetaan vain, kun lasketaan korrelaatiota niille kahdelle muuttujalle, joista jommallakummalla on havainnoissa puuttuva tieto (parewise deletion)

Ø     Tapaukset vähenevät paljon vähemmän kuin edellä, mutta nyt eri korrelaatiot lasketaan hiukan eri aineistoista, koska poisjätetyt havainnot vaihtelevat. Jos korrelaatiomatriisia käytetään jatkoanalyysiin (esim. regressio- tai faktorianalyysiin), se voi sisältää epäjohdonmukaisuuksia, jotka haittaavat jatkoanalyysejä. 

 

Lineaarisuus ja kausaalisuus

·        Kahden muuttujan korrelaatiokerroin on nolla

Ø     Ei merkitse, ettei muutujilla olisi yhteisvaihtelua

Ø     Kerroin kuvaa lineaarista yhteyttä

Ø     Vaikka korrelaatio ei olisi nolla, hyvä tarkistaa, että yhteys on lineaarinen

·        Jos yhteys on epälineaarinen voi sopiva muuttujan muunnos (esim. neliöön korottaminen) parantaa tilannetta

Ø     Lineaarisuutta voi tutkia esim. hajontakuvioista

·        Korrelaatio on osoitus vain  yhteisvaihtelusta, ei kausaaliyhteydestä

Ø     Jos kertoimen perusteella halutaan tehdä syitä ja seurauksia koskevia päätelmiä, on käytävä läpi samat kausaalisuhteen toteamisen vaiheet kuin ristiintaulukoinnissa.

Ø     Vähintään välimatka-asteikollisia muuttujia käytettäessä regressioanalyysi varsinainen kausaalitutkimuksen väline

Ø     Korrelaatiokertoimellakin voidaan vakioida muuttujia (korrelaation laskeminen aineiston osaryhmissä vrt. täsmennystyyppinen elaboraatio ja osittaiskorrelaatio vrt. selitys- tai tulkintaelaboraatio)

 

Osittaiskorrelaatio

·        Voidaan käyttää tilanteissa, joissa x:n ja y:n korrelaatio sama vakioitavan muuttujan z eri arvoilla

·        Jos esitetty muuttujien korrelaatiomatriisi, voidaan sijoittaa lukuja osittaiskorrelaation kaavaan ja tutkia, miten eri muuttujien vakiointi vaikuttaa korrelaatioihin (jos käytössä alkuperäinen havaintomatriisi, kannattaa käyttää regressio analyysiä)

·        Osittaiskorrelaatiosta ei näy, onko alkuperäinen kahden muuttujan yhteys samanlainen vai erilainen vakioitavan muuttujan eri arvoilla.

·        Tulkinnan kannalta on tärkeää tietää muuttujien aikajärjestys

·        Osittaiskorrelaatiota merkitään usein luvulla rxy.z niin, että vakioitava muuttuja erotetaan pisteellä alkuperäisen korrelaation muuttujista.

·        Osoittajasta näkee, että osittaiskorrelaatio on korrelaatioon nähden erimerkkinen, jos vähentäjä on itseisarvoltaan suurempi kuin vähennettävä ja samanmerkkinen

·        Myös osittaiskorrelaatio kuvaa muuttujien lineaarista yhteyttä, vaihtelee –1 ja +1 välillä ja on riippumaton muuttujien mittausasteikon pituudesta.

·        Osittaiskorrelaatio voidaan yleistää useamman muuttujan samanaikaiseen vakiointiin soveltamalla kaavaa toistamiseen useita kertoja.

 

Yleistys otoksesta perusjoukkoon

·        Jos korrelaatio tai osittaiskorrelaatio lasketaan otoksesta, on mietittävä onko yhteys olemassa myös perusjoukossa eikä vain otoksessa

Ø     Merkitsevyystestit

Ø     oletetaan, että muuttujat muodostavat kaksiulotteisen normaalijakauman

Ø     nollahypoteesi

Ø     jos nollahypoteesi hylätään, voimaan vaihtoehtoinen joko yksi- tai kaksisuuntainen hypoteesi

Ø     Jos muuttujat ovat järjestysasteikollisia tai niiden jakaumat poikkeavat normaalijakaumasta, voidaan riippuvuuden kuvaamiseen käyttää järjestyskorrelaatiota.

 

Lineaarisia selitysmalleja

 

·        Regressioanalyysi, varianssianalyysi ja logit-malli ovat tutkimusmenetelmiä, joilla voidaan tutkia useiden tekijöiden vaikutusta selitettävään asiaan

·        Mallit eroavat toisistaan lähinnä mittaustasolle asetettavien vaatimusten suhteen

·        Niiden avulla pystytään hallitsemaan tilanteita, joissa ristiintaulukointi alkaa menettää käyttökelpoisuuttaan ja ymmärrettävyyttään

·        Ristiintalukoinnin vahva puoli on siinä, että se soveltuu hyvin laaja-alaisesti eri tilanteisiin.

 

 

Regressioanalyysi

 

·        Ilkka Mellin määritelmä: ”Regressiomalli pyrkii selittämään yhden, ns. selitettävän muuttujan havaittujen arvojen vaihtelun toisten muuttujien eli selittäjien havaittujen arvojen vaihtelulla. Regressiomallia käyttämällä voidaan selitettävän muuttujan arvoja ennustaa, jos selittävien muuttujien arvot tunnetaan.”

 

Yksi selittävä muuttuja

·        Halutaan esim. selvittää millä tavoin henkilön tulot liittyvät hänen koulutukseensa

Ø     Voidaan laskea keskimääräiset tulot kullakin koulutusasteella ja kuvata riippuvuutta niiden avulla taulukossa TAI

Ø     Laaditaan regressioyhtälö ja kuvataan koulutuksen ja tulojen välistä riippuvuutta suoralla, joka osoittaa kuinka tulot kasvavat koulutuksen kasvaessa.

·        Muuttujien välinen yhteys ei ole aivan lineaarinen, eikä deterministinen

Ø     Regressioyhtälöön liitetään mukaan virhetermi, joka kuvaa todellisten havaintojen poikkeamista siitä, mitä oli ennustettavissa. Saadaan kaava

Y = a + bX + e,

·        Jossa Y on selitettävä muuttuja, X selittävä muuttuja ja a ja b parametrejä

·        Regressiokerroin b kuvaa kuinka monta yksikköä Y:n arvo muuttuu, kun X:n arvo on yhtä yksikköä suurempi (ts. kuinka voimakkaasti selittävä tekijä vaikuttaa selitettävään)

·        R2 on selitysprosentti, joka osoittaa, kuinka suuren osan Y:n vaihtelusta X pystyy selittämään. Kun yhtälössä yksi selittävä muuttuja R2 on X:n ja Y:n välisen korrelaation neliö. Jos selittäviä muuttujia on useita R2 on Y:n havaitun arvon ja regressioanalyysissä ennustetun arvon välisen korrelaation neliö

·        Y:n havaitun ja ennustetun arvon erotus on e (poikkeama), ja kun se kasvaa näiden välinen korrelaatio pienenee eli selitysprosentti heikkenee

·        Selitysprosentti on sitä korkeampi, mitä lähempänä havainnot ovat regressiosuoraa

 

Useita selittäviä muuttujia

·        Muodoltaan samanlainen, selittäviä muuttujia vain useampia, kaava muotoa

Y = a + b1X + b2X +bkX

·        Ei voi esittää graafisessa muodossa

·        Regressiokertoimet kuvaavat muuttujan vaikutuksia, kun muiden muuttujien vaikutus on vakioitu

·        Jos muuttujilla ymmärrettävä mitta-asteikko, regressiokertoimet saavat melko selvän ja konkreettisen tulkinnan, ja niitä voi voidaan käyttää esimerkiksi verrattaessa jonkin vaikutuksen voimakkuutta kahdessa ryhmässä.

·        Jos tällaista asteikkoa ei ole, voi havainnollisen ja konkreettisen tulkinnan löytäminen olla vaikeaa.

Ø     Tällöin järkevää käyttää tulkinnan pohjana standardoituja regressiokertoimia, joissa on kunkin muuttujan mittayksikkönä sen keskihajonta

Ø     Standardoituja kertoimia voidaan käyttää arvioitaessa suhteellista selityskykyä

Ø     Standardoituihin kertoimiin vaikuttaa muuttujan varianssi, joten muuttujien suhteelliseen selityskykyyn pyrkivä tulkinta on aina sidoksissa kohteena olevaan aineistoon

 

Regressioanalyysin oletukset

·        Regressioanalyysin ymmärtämisen kannalta ovat keskeisiä mallin rakennetta koskevat oletukset

Ø     Muuttujien kvantitatiivisuus on regressioanalyysin keskeinen käyttöehto

Ø     Riippuvuudet lineaarisia. Tämä taas edellyttää, että muuttujien välistä yhteyttä voidaan kuvata suoralla.

Ø     Vaikutukset additiivisiä, eli eri tekijöiden vaikutukset ovat yhteenlaskettavia. Jos jonkin muuttujan vaikutus on riippuvainen siitä, mikä on toisen selittävän muuttujan arvo, ei tavallinen regressioanalyysi anna oikeaa kuvaa.

·        Näissä edellä mainituissa suhteissa regressioanalyysin käyttöaluetta voidaan laajentaa eri tavoin (esim. epälineaarisia muutoksia voidaan linearisoida erilaisilla muunnoksilla), mutta usein on käytännöllisempää siirtyä jonkin muun menetelmän soveltamiseen.

 

Oikean regressioyhtälön valintastrategioista

·        Regressioanalyysiä käytettäessä usein monia mahdollisia selittäviä muuttujia

·        Tilastolliselta kannalta tulisi pitää mukana me muuttujat, jotka lisäävät mallin selityskykyä ja joiden regressiokerroin on tilastollisesti merkitsevä. Tosin nämä tekijät saattavat joutua ristiriitaan keskenään

·        Valikoiva regressioanalyysi

Ø     Perustuu puhtaasti tilastollisiin kriteereihin

Ø     Yleisperiaate on, että malliin joko lisätään tai siitä poistetaan muuttujia niiden selityskyvyn mukaan.

Ø     Malli siis on tilastollisesti hyvä, mutta se ohittaa helposti sisällölliset näkökulmat

·        Muuttujien lisääminen niiden kausaalisen järjestyksen mukaisesti

Ø     Malliin otetaan ensin kausaalisesti kauimpana olevat muuttujat, jolloin lisäämällä väliin tulevia muuttujia nähdään esim. kuinka paljon alkuperäiset regressiokertoimet alenevat kun väliin tulevat tekijät huomioidaan TAI

Ø     Otetaan ensin mukaan se muuttuja, jonka vaikutuksesta ollaan kiinnostuneita, ja lisätään sitten kausaalisesti sitä edeltäviä muuttujia

·        Polkumalli

Ø     Kausaalisia vaikutuksia hahmotetaan kausaaliketjuna, vaikutusten verkkona

Ø     Kausaalisuhteiden analyysin yksinkertaisin muoto: rajaudutaan yksisuuntaiseen kausaliteettiin (ei sisällä mitään takaisinsyöttömekanismia)

 

Varianssianalyysi

 

· kokeellisen tutkimuksen perusmenetelmiä

· käyttökelpoinen kausaalianalyysin väline

 

· Varianssianalyysin perustyypissä on kvantitatiivinen selitettävä muuttuja ja yksi tai useampia kvalitatiivisia selittäviä muuttujia.

· Varianssianalyysin avulla tutkitaan poikkeavatko tiettyjen ryhmien keskiarvot toisistaan jonkun jatkuvan muuttujan suhteen.

 

· Selittävät muuttujat voivat olla mittaustasoltaan nominaaliasteikollisia, kun taas selitettävä muuttuja pitää olla vähintään välimatka-asteikollinen.

 

· Ero regressioanalyysiin on siinä, että selittäviltä muuttujilta ei vaadita kvantitatiivista mittausta.

 

· Varianssianalyysin yhtälö yhden selittävän muuttujan tapauksessa on seuraava:

 

Yij = m  +  ai  + eij

 

 

                             -m on kokonaiskeskiarvo

                 -ai on selittävän muuttujan i:nnen luokan vaikutus

                 -eij on virhetermi

 

· Vahvasti testisidonnainen menetelmä

 

· Kun mukana on useampia selittäviä muuttujia, kyseessä on kaksisuuntainen tai useampiulotteinen varianssianalyysi.

 

 

 

 

Faktorianalyysi

 

· Faktorianalyysi on menetelmä, jolla voidaan selvittää muuttujien taustalta löytyviä ulottuvuuksia eli faktoreita

-näillä ulottuvuuksilla pyritään yleensä kuvaamaan havaintojen taustalla     olevia abstrakteja ja käsitteellisiä kokonaisuuksia, joiden mittaaminen suoraan olisi vaikeaa

 

-Esim. kuinka voimakkaina ihmiset kokevat ryhmien väliset konfliktit yhteiskunnassa?

-vastauksissa heijastuvat omakohtaiset kokemukset, ideologiset näkemykset ja vastaanotettu tieto

-ihmisten näkemykset ristiriitojen voimakkuudesta eivät ole toisistaan riippumattomia

-esim. näkemys kapitalistit-työväenluokka –konfliktista korreloi työnantaja-työntekijä –konfliktia koskevaan näkemykseen

 

· Faktorianalyysi on lineaarinen malli kuten regressioanalyysikin, mutta sillä on erityispiirteitä

 

· Selitettävänä, tai selitettävinä, on joukko empiirisesti mitattuja muuttujia

· Selittäjinä on joukko ulottuvuuksia, joita ei (ainakaan periaatteessa) tunneta etukäteen

 

 

Faktorianalyysin suunnittelun ja toteutuksen päävaiheet:

1)     Mietitään, mistä vaikeasti mitattavista käsitteistä halutaan tietoa.

 

2)     Mietitään, mistä osa-alueista käsite koostuu ja miten näitä osa-alueita voitaisiin mitata (käsitteen mittarin validiteetti).

 

3) Faktoroidaan muuttujajoukko. Lähtökohdaksi otetaan indikaattoreiden väliset      

    korrelaatiot. Niiden perusteella konstruoidaan taustalla oleva muuttuja eli faktori.

 

4)     Päätetään käytettävien faktoreiden lukumäärä. Yleensä tulkitaan vain ne faktorit, joiden ominaisarvo on yli yhden. Ominaisarvo saadaan korottamalla lataukset toiseen potenssiin ja laskemalla näiden summa.

 

-faktorianalyysin keskeisiä suureita on muuttujan kommunaliteetti eli osuus, joka sen variaatiosta voidaan selittää faktorin avulla

 

-kun ominaisarvo jaetaan muuttujien lukumäärällä, saadaan faktorin selitysaste

-vastaavasti kun ominaisarvojen summa jaetaan muuttujien lukumäärällä, saadaan koko faktorianalyysin selitysaste

 

5) Tulkitaan ratkaisu. Tulkinta rakennetaan faktorien saamien latauksien varaan. Muuttujat, joilla on korkeimmat lataukset faktorilla, ovat ns. kärkimuuttujia.

 

·  Faktorianalyysin käyttötavat:

-Suuren muuttujajoukon keskinäisten riippuvuuksien yleiskartoitus.

-Mittareiden ja yhdistettyjen muuttujien kehittäminen, jolloin faktorianalyysin avulla valitaan muuttujat.

-Varsinainen faktorianalyysin malli, edellytyksenä se, että tutkittavan

ilmiön rakenteella on hyvä vastaavuus faktorianalyysin malliin ja että faktorit vaikuttavat empiirisiin muuttujiin.

 

· Konfirmatorinen faktorianalyysi

-(päätetään etukäteen mikä indikaattori mittaa mitäkin latenttia muuttujaa)

· Kovarianssirakennemalli

-(josta ei sen enempää)

 

 

 

Yhteenveto

 

· Kvantitatiivinen analyysi on rakenteen hakemista aineistosta

-aineistolle esitettävät kysymykset

-miten jotkin asiat jakautuvat, mikä on tyypillistä

-millaisia yhteyksiä asioiden välillä on

 

· Muuttujien välisestä riippuvuudesta

                 -otettava huomioon voimakkuus tai deterministisyys

                 -riippuvuuden voimakkuus on eri asia kuin vaikutuksen voimakkuus

                 -riippuvuuden laatu negatiivinen tai positiivinen

 

 

 

 

Korrelaatiokertoimen ominaisuuksia

=standardoitujen muuttujien välinen kovarianssi

 

-         käytetään mittaamaan muuttujien välistä yhteyttä

-         mittaa vain lineaarisen riippuvuuden voimakkuutta

-         arvo aina –1 ja +1 välissä

-         arvot –1 ja +1 merkitsee täydellistä lineaarista riippuvuutta

-         positiivinen korrelaatio = kun toisen muuttujan arvot kasvavat, myös toisen arvot keskimääri kasvavat

-         muuttujien välillä voi olla täydellinen funktionaalinen riippuvuus ja korrelaatiokerroin silti 0

-         arvo 0 merkitsee että muuttujien välillä ei ole lineaarista riippuvuutta

-         k-kerroin ei kerro kumpi muuttujista on syy ja kumpi on seuraus

-         korrelaatiokerroin on skaalainvariantti eli sen arvo ei riipu käytetystä asteikosta