5 Todennäköisyysteorian sovellutuksia

Seuraavaksi käymme läpi muutaman tilastotieteen kursseilta tutun todennäköisyysteorian sovelluksen. Yksi kurssin keskeisiä tavoitteita onkin juuri syventää paljon käytettyjen menetelmien perusteiden tuntemusta, jotta niiden soveltamisesta tulee vähemmän mekaanista ja innovatiivisempaa. Ainakin, jos soveltaja ajoittain miettii toimintaansa perusteiden kannalta. Alkuun lukijasta saattaa tuntua, että tällä kurssilla saavutettiin kovin vähän suhteessa tilastomenetelmien laajaan kirjoon. Sellainen tunne voi osin johtua perspektiivin puutteesta, jonka vasta perusperiaatteiden pohdinnan kautta voi lyötää.

Ensinnäkin vanhat periaatteet ovat mukana uudessa myös. Tässäkin materiaalissa käsiteltiin esimerkkiä, jossa tutkijat olivat tiedostaneet, etteivät monitekijäiset ilmiöt automaattisesti lähesty normaalijakaumaa (tai muutakaan helposti arvattavaa jakaumaa). Se taas mahdollisti kysymyksen siitä, mikä jakauma taustalla todella on (Talkkari and Rosenström 2024). Tulokset avaavat jälleen uusia mahdollisuuksia jatkossa hyödyntää jakaumiin perustuvia menetelmiä alalla (Rosenström et al. 2023), ja siten uusia reittejä rikastaa ymmärrystä alkuperäisestä ilmiöstä.

Toiseksi perusteiden ymmärtämisestä on monenlaisia hyötyjä, vaikka tutkija haluaisikin käyttää vanhoja menetelmiä mahdollisimman konservatiivisesti. Motivaation roolia ei voi väheksyä pitkäjänteisessä tutkimustyössä ja hallinnan tunne luontaisesti motivoi: on paljon mielekkäämpää edistää laajempaa tavoitetta pienin loogisin ja omaehtoisin askelin kuin pienin askelin, joille jokaiselle on oma käsittämätön manuaalinsa, jota orjan lailla seurata. Vaikka manuaalien seuraamista rakastaisikin ja olisi siinä erinomainen (harva on), “manualisaatio” on aika tehoton menetelmä ns. “kombinatoriaalisen räjähdyksen” vuoksi. Monissa soveltajille suunnatuissa tilasto-oppaissa menetelmiä opetetaan päätöspuiden kautta, jotka haarautuvat eri menetelmiin kysymyksen tai aineiston ominaisuuden mukaan. Tarkoituksena on tehdä soveltamisesta mekaanista, mutta jo viisi kolmen vaihtoehdon valintaa tuottaa “erillisiä” menetelmiä peräti \(3^5 = 243\) kappaletta. Kaikkien erikoistapausten sijaan, on huomattavasti helpompaa muistaa yli vuosien muutama looginen periaate, joista ne kaikki juontuvat. Vanha päätöspuu tukee myös huonosti uusien ratkaisujen oppimista, koska uudet nerokkaat ratkaisut usein murtavat koko puurakenteen. Ne eivät kuitenkaan voi murtaa todistettuja matemaattisia periaatteita. Päinvastoin, usein hyödyntävät vanhoja tuttuja periaatteita uudessa kontekstissa.

5.1 Tilastollinen testaaminen

Edellisessä kappaleessa esittelimme, että keskiarvosta \(\bar{X}_n\) muodostettu suure jakautuu normaalisti, \(\sqrt{n}(\bar{X}_n - \mu) \sim N(0, \sigma)\), kun otoskoko on riittävän suuri. Odotusarvoa koskevista laskusäännöistä tiedemme, että \(\text{E}[\bar{X}_n] = \text{E}[\frac{1}{n} \sum_{i=1}^n X_i] = \frac{1}{n} \sum_{i=1}^n \text{E}[X_i] = \frac{1}{n} \times n \times \mu = \mu\). Samoin osoitimme, että \(\text{Var}[\bar{X}_n] = \sigma\). Edelleen varianssia koskevista laskusäännöistä seuraa, että

\[ \sqrt{n}(\bar{X}_n - \mu)/\sigma \sim N(0, 1). \]

Varianssin tarkentuva estimaatti on (lähes) neliöpoikkeamien keskiarvo, \(\hat{\sigma^2} = s := \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X}_n)^2\). Jakajassa on \(n - 1\) koko otoskoon sijaan, koska keskiarvo on jo yksi aineistosta estimoitu parametri ja siten sitoo yhden havainnon [tätä on hyvä tutkia tarkemmin esim. harjoitustehtävänä]. Kun siis \(\hat{\sigma^2}\) otoskoon kasvaessa lähestyy vakiota \(\sigma^2\), voidaan ajatella, että \(\sqrt{n}(\bar{X}_n - \mu)/\hat{\sigma} \approx \sqrt{n}(\bar{X}_n - \mu)/\sigma\). Itse asiassa, ns. Slutskyn teoreema takaa, että riittävän suuressa otoksessa näin käy.

Nämä tosiasiat luovat mahdollisuuden suurten otosten teoriaan perustuvalle tilastolliselle testaamiselle. Tarkemmin, hypoteesin testaamiselle. Se tapahtuu seuraavasti. Oletamme aineiston taustalla piilevälle keskiarvolle \(\mu\) jonkin vakioarvon \(\mu_0\) ja hypoteesit

\[ H_0: \mu = \mu_0 \\ H_1: \mu \ne \mu_0 \]

Ns. “nollahypoteesi” on siis jokin teoreettisesti merkityksellinen keskiarvon arvo ja haluamme tutkia vastaako se todellisuutta. Esimerkiksi koehenkilöt voisivat kokeilla kahta vaihtoehtoista hoitotekniikka ja \(X_i\) kuvastaa näistä saadun hyödyn eroa henkilön \(i\) kohdalla, jolloin \(\mu_0\) voitaisiin asettaa nollaksi. Se tarkoittaisi nollahypoteesia, ettei hoitojen välillä keskimäärin ole hyötyeroa. Seuraavaksi tutkitaan onko jokin havaintoaineisto uskottava nollahypoteesin pätiessä ja, jollei ole, todetaan aineiston “kumoavan” hypoteesin. Voimme jo etukäteen asettaa merkitsevyystaso \(\alpha\), joka ratkaisee kuinka epätodennäköinen saadun aineiston tulee olla, jotta katsomme nollahypoteesin kumotuksi. Esimerkiksi arvo \(\alpha = .01\) tarkoittaa, että hypoteesin pätiessä vain yksi sadasta keskiarvolaskusta tuottaa yhtä paljon tai enemmän nollahypoteesista poikkeavan aineiston.

Sitten laskemme aineistollemme testisuureen \(\hat{z} = \sqrt{n}(\bar{X}_n - \mu_0)/\hat{\sigma}\). Koska se keskeisen raja-arvolauseen nojalla jakautuu standardinormaalisti riittivän suurella \(n\), voimme laskeä kuinka epätodennäköinen näin suuri tai vielä suurempi poikkeama oletetusta keskiarvosta on. Tämän ns. p-arvon voi määritellä standardinormaalisti jakautuneen teoreettisen \(Z\)-muuttujan todennäköisyysjakaumalla seuraavasti

\[ \begin{aligned} p_{H_0} &= P(|Z| > |\hat{z}|) \\ &= P(Z < - |\hat{z}|) + P(Z > |\hat{z}|) \\ &= 2P(Z > |\hat{z}|) \\ &= 2 \int_{|\hat{z}|}^{\infty} \phi(z)dz \\ &= 2 \big\{ 1 - \int_{-\infty}^{|\hat{z}|} \phi(z)dz \big\} \\ &= 2 \big\{ 1 - \Phi(|\hat{z}|) \big\}, \end{aligned} \]

missä \(\phi\) on standardinormaalijakauman tiheysfunktio, \(\phi(z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}\), ja \(\Phi\) siitä yllä määritelty kumulativiinen jakaumafunktio. Kolmas yhtä suuruus yllä seurasi standardinormaalijakauman symmetrisyydestä: \(P(Z < -a) = P(Z > a)\) kaikilla \(a>0\) (huomaa, etteivät kaikki jakaumat suinkaan ole symmetrisiä nollan ympärillä). Standardinormaalijakauman kumulatiiviselle funktiolle ei ole olemassa analyyttista kaavaa ilman integraalia, mutta sen arvot on helppo laskea numeerisesti, esimerkiksi R-ohjelmassa funktiolla “pnorm”. Annamme käytännön esimerkin alla.

# Ajattellaan, etta havaitsimme ao. arvot otoksessamme 0 ja otoksessa 1
set.seed(12358) # poista rivi, jos haluat kokeilla eri arvoilla
(x0 <- round(runif(n = 30, min = -27, max = 27))) # H_0 voimassa

 [1]  -8 -26 -16  16   5   9  24   3 -25 -15  -9 -12  25 -17   0 -14   0  18  15
[20]  26 -23 -20 -25  12 -24  20  18 -24 -22  15

(x1 <- round(runif(n = 30, min = 0, max = 27)))   # H_1 voimassa

 [1] 22 18 12  8 10 10  6  3  7  9 12 20  9  6 18 19 10  9 22  9  5  7 22 19  3
[26] 19 14 22 11 10

# lasketaan havaittu z-arvo kummassakin tapauksessa
(z0 <- sqrt(30)*(mean(x0) - 0)/sd(x0))

[1] -0.7482979

(z1 <- sqrt(30)*(mean(x1) - 0)/sd(x1))

[1] 11.07399

# lasketaan p-arvot kummassakin tapauksessa
(p0 <- 2*(1 - pnorm(abs(z0))))

[1] 0.4542805

(p1 <- 2*(1 - pnorm(abs(z1))))

[1] 0

Nähdään, että p-arvo on ensimmäisen aineiston kohdalla suurempi kuin ennalta asettamamme merkitsevyystaso. Tuo aineisto ei siis kumoa asettamaamme nollahypoteesia \(\mu = 0\). Toinen aineisto sen sijaan hyvin selvästi kumoaa, sillä numeerisen tarkkuuden rajoissa p-arvo on nolla (todellisuudessa se on aina vähän positiivinen). Käytännössä tällainen tilastollinen testaaminen suoritetaan usein ns. t-testillä, joka tarkemmin mallintaa sitä tosiasiaa, että \(s\) (keskihajonta) on satunnaismuuttuja äärellisessä aineistossa. T-testi tosin hyvin nopeasti asettuu samaan arvoon kuin tässä laskettu z-testikin, antaen esimerkissämme arvon, joka on hyvin lähellä edellä laskettua:

# lasketaan p-arvot kummassakin tapauksessa
(p0_ttest <- t.test(x0)$p.value)

[1] 0.4603065

# p-arvoero t- ja z-testin valilla
abs(p0_ttest - p0)

[1] 0.006026046

Huomaa, että myös t-testin voimme laskea suoraan yllä olevan esimerkin mukaisesti ns. t-jakaumasta, joka on sekin symmetrinen:

# suoraan t-jakaumasta
2*(1 - pt(abs(z0), df = 29)) # df = n - 1 tassa tapauksessa (vapausasteet)

[1] 0.4603065

# antaa saman arvon kuin yo. valmis funktio
p0_ttest

[1] 0.4603065

5.2 Tilastollinen mallintaminen ja uskottavuusfunktio

Hypoteesien testaaminen on aika perinteinen todennäköisyysteorian sovellus, mutta yhä enemmän nojataan havaintoaineistojen monimutkaisempaan tilastolliseen mallintamiseen. Tilastollinen malli on matemaattinen malli, joka vangitsee aineiston syntyä koskevat tilastolliset oletukset. Aiemmin tarkastelimme nopanheittoa olettaen, että jokaisen kuuden silmäluvun todennäköisyys on \(\frac{1}{6}\). Tästä syntyi havaintoaineistoa generoiva malli, joka mahdollisti havaintojen todennäköisyyksiin liittyviä laskuja. Tasajakauma oli kuitenkin vain oletus, vaikkakin mielekäs sellainen. Olisi kuitenkin mahdollista olettaa noppa painotetuksi siten, että silmäluvun kuusi todennäköisyys on \(\frac{7}{12}\) ja muiden silmälukujen \(\frac{1}{12}\). Tilastolliseen mallintamiseen siis väistämättä liittyy oletuksia, joita joudutaan perustelemaan jostain teoriasta käsin. Tilastolliselle mallille on mahdollista antaa yleisiä määritelmiä, kuten seuraava.

Määritelmä (Tilastollinen malli). Tilastollinen malli on pari \((\mathcal{S}, \mathcal{P})\), missä \(\mathcal{S}\) on otanta-avaruus (perusjoukko) ja \(\mathcal{P}\) on avaruus, jonka alkiot ovat todennäköisyysjakaumia otanta-avaruudessa \(\mathcal{S}\). \(\mathcal{P}\) edustaa kaikkia aineistoa generoivia malleja, jotka katsotaan mahdollisiksi.

On tyypillistä parameterisoida \(\mathcal{P}\) siten, että \(\mathcal{P} = \{ F_\theta : \theta \in \Theta \}\), missä \(\Theta\) määrittää mallin parametri-avaruuden. Kun parameterisaatio on sellainen, että ehdosta \(F_{\theta_1} = F_{\theta_2}\) väistämättä seuraa \(\theta_1 = \theta_2\), tilastollista mallia sanotaan identifioituvaksi. Tarkastellaan esimerkkinä edellä tutkittua Binomijakaumaa. Siinä tapauksessa \(\Theta = [0, 1]\), eli välin nollasta yhteen reaalilukualkiot. Malliavaruuden alkiot ovat muotoa \(f(Y|\theta) = \binom{n}{k} \theta^{\sum Y_i} (1 - \theta)^{1 - \sum Y_i}\) havainnoille \(Y = \{Y_1, Y_2, \ldots, Y_n \}\), missä jokainen \(Y_i\) saa arvon 1 (tapahtuma) tai 0 (ei tapahtumaa).

OSOITA KUINKA KESKEINEN RAJA-ARVOLAUSE TOIMII TÄSSÄ JA MÄÄRITTELE YLEINEN TILASTOMALLI JA OSOITA SAMA TAAS.

5.3 Bayes-laskenta?

JOTAIN BAYES-LASKENNASTA?