·
Joskus puhutaan muuttujien korrelaatiosta -> muuttujien
yhteisvaihtelua
·
Yleensä käytetään suppeammassa mielessä, tarkoitetaan välimatka- tai
suhdelukuasteikollisten muuttujien lineaarista yhteyttä kuvaavaa tilastollista
tunnuslukua, tulomenokorrelaatiota
eli (Pearsonin) korrelaatiokerrointa
·
Tarkoitus kuvata kahden muuttujan riippuvuutta
Ø Positiivinen
korrelaatio: havainto, joka sijoittuu korkealle toisella muuttujalla, sijoittuu
yleensä korkealle myös toisella muuttujalla (ja toisin päin)
Ø Nollakorrelaatio:
muuttujien arvot vaihtelevat täysin toisistaan riippumatta
Ø Negatiivinen
korrelaatio: toisen muuttujan korkeaan arvoon liittyy usein toisen muuttujan
matala arvo (ja toisin päin)
·
Piirrettynä koordinaatistoon muodostavat hajontakuvioita, jotka
ilmaisevat voimakkaat yhteydet selvästi
·
Jos halutaan mahdollisimman tarkasti kuvata riippuvuuden suuntaa ja
voimakkuutta, hajontakuviot eivät riitä
Ø Riippuvuutta
kuvaavalta tunnusluvulta voitaisiin odottaa, että se ilmaisee, onko
riippuvuutta vai ei, kuinka voimakasta se on, ja onko positiivinen vai
negatiivinen
Ø Olisi hyvä jos
käytetty mitta-asteikko ei vaikuttaisi lukuun
Ø Tulosten vertailua
helpottaisi jos luku vaihtelisi aina samalla välillä
Ø (Pearsonin)
korrelaatiokerroin
·
Piirretään kahden muuttujan muodostamaan koordinaatistoon havainto a
sekä molempien muuttujien keskiarvojen kautta kulkevat suorat
·
Muodostetaan kerroin laskemalla yhteen kaikkien havaintojen muuttujien
keskiarvoista laskettujen etäisyyksien tulot ja jakamalla summa
yhteenlaskettavien lukumäärällä (tai n-1, jos kyseessä on otos)
Ø X:n ja y:n kovarianssi
·
Vaikka kovarianssia käytettään joskus riippuvuuden tunnuslukuna, sillä
ei kuitenkaan ole kaikkia haluttuja ominaisuuksia: sen vaihteluväli ei ole
rajoitettu ja sen arvo muuttuu, jos mittayksiköitä vaihdetaan
Ø Jaetaan kovarianssi
x:n keskihajonnan ja y:n keskihajonnan tulolla
·
Tilasto-ohjelmissa puuttuvien tietojen käsittelyn oletusarvona, että ne
havainnot, joissa puuttuva tieto yhdelläkin korrelaatiota laskettaessa
käytettävällä muuttujalla, jätetään kokonaan huomiotta (listwise deletion)
Ø Vaarana, että
havaintoja jää pois runsaasti ja aineisto pienenee
·
Toinen vaihtoehto on, että muuttujat tarkastetaan pareittain ja
havainnot poistetaan vain, kun lasketaan korrelaatiota niille kahdelle
muuttujalle, joista jommallakummalla on havainnoissa puuttuva tieto (parewise
deletion)
Ø Tapaukset vähenevät
paljon vähemmän kuin edellä, mutta nyt eri korrelaatiot lasketaan hiukan eri
aineistoista, koska poisjätetyt havainnot vaihtelevat. Jos korrelaatiomatriisia
käytetään jatkoanalyysiin (esim. regressio- tai faktorianalyysiin), se voi
sisältää epäjohdonmukaisuuksia, jotka haittaavat jatkoanalyysejä.
·
Kahden muuttujan korrelaatiokerroin on nolla
Ø Ei merkitse, ettei
muutujilla olisi yhteisvaihtelua
Ø Kerroin kuvaa lineaarista yhteyttä
Ø Vaikka korrelaatio
ei olisi nolla, hyvä tarkistaa, että yhteys on lineaarinen
·
Jos yhteys on epälineaarinen voi sopiva muuttujan muunnos (esim.
neliöön korottaminen) parantaa tilannetta
Ø Lineaarisuutta voi
tutkia esim. hajontakuvioista
·
Korrelaatio on osoitus vain
yhteisvaihtelusta, ei kausaaliyhteydestä
Ø Jos kertoimen
perusteella halutaan tehdä syitä ja seurauksia koskevia päätelmiä, on käytävä
läpi samat kausaalisuhteen toteamisen vaiheet kuin ristiintaulukoinnissa.
Ø Vähintään
välimatka-asteikollisia muuttujia käytettäessä regressioanalyysi varsinainen
kausaalitutkimuksen väline
Ø Korrelaatiokertoimellakin
voidaan vakioida muuttujia (korrelaation laskeminen aineiston osaryhmissä vrt.
täsmennystyyppinen elaboraatio ja osittaiskorrelaatio vrt. selitys- tai
tulkintaelaboraatio)
·
Voidaan käyttää tilanteissa, joissa x:n ja y:n korrelaatio sama
vakioitavan muuttujan z eri arvoilla
·
Jos esitetty muuttujien korrelaatiomatriisi, voidaan sijoittaa lukuja
osittaiskorrelaation kaavaan ja tutkia, miten eri muuttujien vakiointi
vaikuttaa korrelaatioihin (jos käytössä alkuperäinen havaintomatriisi,
kannattaa käyttää regressio analyysiä)
·
Osittaiskorrelaatiosta ei näy, onko alkuperäinen kahden muuttujan
yhteys samanlainen vai erilainen vakioitavan muuttujan eri arvoilla.
·
Tulkinnan kannalta on tärkeää tietää muuttujien aikajärjestys
·
Osittaiskorrelaatiota merkitään usein luvulla rxy.z niin, että
vakioitava muuttuja erotetaan pisteellä alkuperäisen korrelaation muuttujista.
·
Osoittajasta näkee, että osittaiskorrelaatio on korrelaatioon nähden
erimerkkinen, jos vähentäjä on itseisarvoltaan suurempi kuin vähennettävä ja
samanmerkkinen
·
Myös osittaiskorrelaatio kuvaa muuttujien lineaarista yhteyttä,
vaihtelee –1 ja +1 välillä ja on riippumaton muuttujien mittausasteikon
pituudesta.
·
Osittaiskorrelaatio voidaan yleistää useamman muuttujan samanaikaiseen
vakiointiin soveltamalla kaavaa toistamiseen useita kertoja.
·
Jos korrelaatio tai osittaiskorrelaatio lasketaan otoksesta, on
mietittävä onko yhteys olemassa myös perusjoukossa eikä vain otoksessa
Ø Merkitsevyystestit
Ø oletetaan, että
muuttujat muodostavat kaksiulotteisen normaalijakauman
Ø nollahypoteesi
Ø jos nollahypoteesi
hylätään, voimaan vaihtoehtoinen joko yksi- tai kaksisuuntainen hypoteesi
Ø Jos muuttujat ovat
järjestysasteikollisia tai niiden jakaumat poikkeavat normaalijakaumasta,
voidaan riippuvuuden kuvaamiseen käyttää järjestyskorrelaatiota.
·
Regressioanalyysi, varianssianalyysi ja logit-malli ovat
tutkimusmenetelmiä, joilla voidaan tutkia useiden tekijöiden vaikutusta
selitettävään asiaan
·
Mallit eroavat toisistaan lähinnä mittaustasolle asetettavien
vaatimusten suhteen
·
Niiden avulla pystytään hallitsemaan tilanteita, joissa
ristiintaulukointi alkaa menettää käyttökelpoisuuttaan ja ymmärrettävyyttään
·
Ristiintalukoinnin vahva puoli on siinä, että se soveltuu hyvin laaja-alaisesti
eri tilanteisiin.
·
Ilkka Mellin määritelmä: ”Regressiomalli pyrkii selittämään yhden, ns.
selitettävän muuttujan havaittujen arvojen vaihtelun toisten muuttujien eli
selittäjien havaittujen arvojen
vaihtelulla. Regressiomallia käyttämällä voidaan selitettävän muuttujan arvoja ennustaa, jos selittävien muuttujien
arvot tunnetaan.”
·
Halutaan esim. selvittää millä tavoin henkilön tulot liittyvät hänen
koulutukseensa
Ø Voidaan laskea
keskimääräiset tulot kullakin koulutusasteella ja kuvata riippuvuutta niiden
avulla taulukossa TAI
Ø Laaditaan regressioyhtälö ja kuvataan koulutuksen
ja tulojen välistä riippuvuutta suoralla, joka osoittaa kuinka tulot kasvavat
koulutuksen kasvaessa.
·
Muuttujien välinen yhteys ei ole aivan lineaarinen, eikä
deterministinen
Ø Regressioyhtälöön
liitetään mukaan virhetermi, joka kuvaa todellisten havaintojen poikkeamista
siitä, mitä oli ennustettavissa. Saadaan kaava
Y = a +
bX + e,
·
Jossa Y on selitettävä muuttuja, X selittävä muuttuja ja a ja b
parametrejä
·
Regressiokerroin b kuvaa kuinka monta yksikköä Y:n arvo muuttuu, kun
X:n arvo on yhtä yksikköä suurempi (ts. kuinka voimakkaasti selittävä tekijä
vaikuttaa selitettävään)
·
R2 on selitysprosentti, joka osoittaa, kuinka suuren
osan Y:n vaihtelusta X pystyy selittämään. Kun yhtälössä yksi selittävä
muuttuja R2 on X:n ja Y:n välisen korrelaation neliö. Jos
selittäviä muuttujia on useita R2 on Y:n havaitun arvon ja
regressioanalyysissä ennustetun arvon välisen korrelaation neliö
·
Y:n havaitun ja ennustetun arvon erotus on e (poikkeama), ja kun se
kasvaa näiden välinen korrelaatio pienenee eli selitysprosentti heikkenee
·
Selitysprosentti on sitä korkeampi, mitä lähempänä havainnot ovat
regressiosuoraa
·
Muodoltaan samanlainen, selittäviä muuttujia vain useampia, kaava
muotoa
Y = a + b1X + b2X +… bkX
·
Ei voi esittää graafisessa muodossa
·
Regressiokertoimet kuvaavat muuttujan vaikutuksia, kun muiden
muuttujien vaikutus on vakioitu
·
Jos muuttujilla ymmärrettävä mitta-asteikko, regressiokertoimet saavat
melko selvän ja konkreettisen tulkinnan, ja niitä voi voidaan käyttää
esimerkiksi verrattaessa jonkin vaikutuksen voimakkuutta kahdessa ryhmässä.
·
Jos tällaista asteikkoa ei ole, voi havainnollisen ja konkreettisen
tulkinnan löytäminen olla vaikeaa.
Ø Tällöin järkevää
käyttää tulkinnan pohjana standardoituja
regressiokertoimia, joissa on kunkin muuttujan mittayksikkönä sen keskihajonta
Ø Standardoituja
kertoimia voidaan käyttää arvioitaessa suhteellista selityskykyä
Ø Standardoituihin
kertoimiin vaikuttaa muuttujan varianssi, joten muuttujien suhteelliseen
selityskykyyn pyrkivä tulkinta on aina sidoksissa kohteena olevaan aineistoon
·
Regressioanalyysin ymmärtämisen kannalta ovat keskeisiä mallin
rakennetta koskevat oletukset
Ø Muuttujien
kvantitatiivisuus on regressioanalyysin keskeinen käyttöehto
Ø Riippuvuudet
lineaarisia. Tämä taas edellyttää, että muuttujien välistä yhteyttä voidaan
kuvata suoralla.
Ø Vaikutukset
additiivisiä, eli eri tekijöiden vaikutukset ovat yhteenlaskettavia. Jos jonkin
muuttujan vaikutus on riippuvainen siitä, mikä on toisen selittävän muuttujan
arvo, ei tavallinen regressioanalyysi anna oikeaa kuvaa.
·
Näissä edellä mainituissa suhteissa regressioanalyysin käyttöaluetta
voidaan laajentaa eri tavoin (esim. epälineaarisia muutoksia voidaan
linearisoida erilaisilla muunnoksilla), mutta usein on käytännöllisempää
siirtyä jonkin muun menetelmän soveltamiseen.
·
Regressioanalyysiä käytettäessä usein monia mahdollisia selittäviä
muuttujia
·
Tilastolliselta kannalta tulisi pitää mukana me muuttujat, jotka
lisäävät mallin selityskykyä ja joiden regressiokerroin on tilastollisesti
merkitsevä. Tosin nämä tekijät saattavat joutua ristiriitaan keskenään
·
Valikoiva regressioanalyysi
Ø Perustuu puhtaasti
tilastollisiin kriteereihin
Ø Yleisperiaate on,
että malliin joko lisätään tai siitä poistetaan muuttujia niiden selityskyvyn
mukaan.
Ø Malli siis on
tilastollisesti hyvä, mutta se ohittaa helposti sisällölliset näkökulmat
·
Muuttujien lisääminen niiden kausaalisen järjestyksen mukaisesti
Ø Malliin otetaan
ensin kausaalisesti kauimpana olevat muuttujat, jolloin lisäämällä väliin
tulevia muuttujia nähdään esim. kuinka paljon alkuperäiset regressiokertoimet
alenevat kun väliin tulevat tekijät huomioidaan TAI
Ø Otetaan ensin mukaan
se muuttuja, jonka vaikutuksesta ollaan kiinnostuneita, ja lisätään sitten
kausaalisesti sitä edeltäviä muuttujia
·
Polkumalli
Ø Kausaalisia
vaikutuksia hahmotetaan kausaaliketjuna, vaikutusten verkkona
Ø Kausaalisuhteiden
analyysin yksinkertaisin muoto: rajaudutaan yksisuuntaiseen kausaliteettiin (ei
sisällä mitään takaisinsyöttömekanismia)
· kokeellisen
tutkimuksen perusmenetelmiä
· käyttökelpoinen
kausaalianalyysin väline
· Varianssianalyysin
perustyypissä on kvantitatiivinen selitettävä muuttuja ja yksi tai useampia
kvalitatiivisia selittäviä muuttujia.
· Varianssianalyysin
avulla tutkitaan poikkeavatko tiettyjen ryhmien keskiarvot toisistaan jonkun
jatkuvan muuttujan suhteen.
· Selittävät
muuttujat voivat olla mittaustasoltaan nominaaliasteikollisia, kun taas
selitettävä muuttuja pitää olla vähintään välimatka-asteikollinen.
· Ero
regressioanalyysiin on siinä, että selittäviltä muuttujilta ei vaadita
kvantitatiivista mittausta.
· Varianssianalyysin
yhtälö yhden selittävän muuttujan tapauksessa on seuraava:
Yij = m +
ai + eij
-m on kokonaiskeskiarvo
-ai on
selittävän muuttujan i:nnen luokan vaikutus
-eij
on virhetermi
· Vahvasti
testisidonnainen menetelmä
· Kun mukana on
useampia selittäviä muuttujia, kyseessä on kaksisuuntainen tai
useampiulotteinen varianssianalyysi.
· Faktorianalyysi on
menetelmä, jolla voidaan selvittää muuttujien taustalta löytyviä ulottuvuuksia
eli faktoreita
-näillä ulottuvuuksilla pyritään yleensä
kuvaamaan havaintojen taustalla
olevia abstrakteja ja käsitteellisiä kokonaisuuksia, joiden mittaaminen
suoraan olisi vaikeaa
-Esim. kuinka voimakkaina ihmiset kokevat ryhmien väliset konfliktit
yhteiskunnassa?
-vastauksissa heijastuvat omakohtaiset kokemukset, ideologiset
näkemykset ja vastaanotettu tieto
-ihmisten näkemykset ristiriitojen voimakkuudesta eivät ole toisistaan
riippumattomia
-esim. näkemys kapitalistit-työväenluokka –konfliktista korreloi
työnantaja-työntekijä –konfliktia koskevaan näkemykseen
· Faktorianalyysi on
lineaarinen malli kuten regressioanalyysikin, mutta sillä on erityispiirteitä
· Selitettävänä, tai
selitettävinä, on joukko empiirisesti mitattuja muuttujia
· Selittäjinä on joukko ulottuvuuksia, joita ei (ainakaan periaatteessa) tunneta etukäteen
Faktorianalyysin suunnittelun ja toteutuksen päävaiheet:
1)
Mietitään, mistä vaikeasti mitattavista käsitteistä halutaan tietoa.
2)
Mietitään, mistä osa-alueista käsite koostuu ja miten näitä osa-alueita
voitaisiin mitata (käsitteen mittarin validiteetti).
3) Faktoroidaan muuttujajoukko. Lähtökohdaksi otetaan indikaattoreiden
väliset
korrelaatiot. Niiden
perusteella konstruoidaan taustalla oleva muuttuja eli faktori.
4)
Päätetään käytettävien faktoreiden lukumäärä. Yleensä tulkitaan vain ne
faktorit, joiden ominaisarvo on yli yhden. Ominaisarvo saadaan korottamalla
lataukset toiseen potenssiin ja laskemalla näiden summa.
-faktorianalyysin keskeisiä suureita on muuttujan kommunaliteetti
eli osuus, joka sen variaatiosta voidaan selittää faktorin avulla
-kun ominaisarvo jaetaan muuttujien lukumäärällä, saadaan faktorin selitysaste
-vastaavasti kun ominaisarvojen summa jaetaan muuttujien lukumäärällä,
saadaan koko faktorianalyysin selitysaste
5) Tulkitaan ratkaisu. Tulkinta rakennetaan faktorien saamien
latauksien varaan. Muuttujat, joilla on korkeimmat lataukset faktorilla, ovat
ns. kärkimuuttujia.
· Faktorianalyysin käyttötavat:
-Suuren muuttujajoukon keskinäisten
riippuvuuksien yleiskartoitus.
-Mittareiden ja yhdistettyjen muuttujien
kehittäminen, jolloin faktorianalyysin avulla valitaan muuttujat.
-Varsinainen faktorianalyysin malli, edellytyksenä
se, että tutkittavan
ilmiön rakenteella on hyvä vastaavuus
faktorianalyysin malliin ja että faktorit vaikuttavat empiirisiin muuttujiin.
· Konfirmatorinen
faktorianalyysi
-(päätetään etukäteen mikä indikaattori mittaa mitäkin latenttia
muuttujaa)
·
Kovarianssirakennemalli
-(josta ei sen enempää)
· Kvantitatiivinen
analyysi on rakenteen hakemista aineistosta
-aineistolle esitettävät kysymykset
-miten jotkin asiat jakautuvat, mikä on
tyypillistä
-millaisia yhteyksiä asioiden välillä on
· Muuttujien
välisestä riippuvuudesta
-otettava
huomioon voimakkuus tai deterministisyys
-riippuvuuden
voimakkuus on eri asia kuin vaikutuksen voimakkuus
-riippuvuuden
laatu negatiivinen tai positiivinen
Korrelaatiokertoimen ominaisuuksia
=standardoitujen muuttujien välinen kovarianssi
-
käytetään mittaamaan muuttujien välistä yhteyttä
-
mittaa vain lineaarisen riippuvuuden voimakkuutta
-
arvo aina –1 ja +1 välissä
-
arvot –1 ja +1 merkitsee täydellistä lineaarista riippuvuutta
-
positiivinen korrelaatio = kun toisen muuttujan arvot kasvavat, myös
toisen arvot keskimääri kasvavat
-
muuttujien välillä voi olla täydellinen funktionaalinen riippuvuus ja
korrelaatiokerroin silti 0
-
arvo 0 merkitsee että muuttujien välillä ei ole lineaarista
riippuvuutta
-
k-kerroin ei kerro kumpi muuttujista on syy ja kumpi on seuraus
-
korrelaatiokerroin on skaalainvariantti eli sen arvo ei riipu
käytetystä asteikosta