4 Tärkeitä tuloksia (teoreemia)

Tässä kappaleessa todistamme pari tilastotieteessä hyvin tärkeää tulosta, rajoitetummassa muodossaan. Ensimmäisellä lukukerralla voit ohittaa todistukset ja katsoa pelkät teoreemalauseet, mutta itse todistuksetkin saattavat ajan myötä alkaa kiinnostamaan. Olen pyrkinyt tarjoamaan välineet niiden ymmärtämiseen edeltävässä tekstissä, mutta tulokset ovat syvällisiä ja saattavat edellyttää huomattavaakin pohdintaa yli yksittäistä kurssia pidempien ajanjaksojen. Toisinaan kuultu väittämä “tärkeät tulokset ovat yksinkertaisia” ei yksinkertaisesti pidä paikkaansa vaan on ennemmin toiveajattelua. Ihmiset toki tekevät paljon työtä yksinkertaistaakseen tärkeinä pitämieen tuloksia, kuten kirjoittaja tässäkin pyrkii tekemään. Tuloksista on olemassa vahvempia versioita, joiden todistaminen vaatisi kuitenkin huomattivasti enemmän matemaattista taustakoneistoa, eikä siten ole mielekästä tällä kurssilla. Teoreemien rajatumpienkin versioiden todistaminen antanee riittävää syvyyttä soveltajan osaamiseen.

4.1 Suurten lukujen laki

Suurten lukujen laki on tärkeä, koska se osoittaa keskiarvon olevan hyvä arvio taustalla vaikuttavan jakauman odotusarvoparametrille, sekä takaa ennustettavan keskiarvolopputuleman joillekin mahdollisesti hyvinkin satunnaisille tapahtumille. Esimerkiksi laskimme aiemmin, että nopanheiton odotusarvoinen silmäluku on \(3.5\), mutta yksittäistä noppaa heitettäessä jokainen silmäluku yhdestä kuuteen on aivan yhtä mahdollinen, todennäköisyyden ollessa 1/6. Kahden nopan heiton odotusarvoksi saimme \(3.5 + 3.5 = 7\), mutta silmäluvun 7 todennäköisyys kerran heitettäessä oli edelleen vain 1/6. Keskiarvon varianssi on kuitenkin pienentynyt. Koska \(\text{Cov}[X_{\text{noppa 1}}, X_{\text{noppa 2}}]\), se on vain \(\text{Var}[\frac{1}{2}(X_{\text{noppa 1}} + X_{\text{noppa 2}})] = \frac{1}{2^2} \big\{ \text{Var}[X_{\text{noppa 1}}] + \text{Var}[X_{\text{noppa 2}}] \big\} = \frac{\sigma^2}{2^2}\), siinä missä \(\text{Var}[X_{\text{noppa 1}}] = \text{Var}[X_{\text{noppa 2}}] = \sigma^2\). Tätä ilmiötä ja sen variantteja on helppoa tietokoneella simuloida, esimerkiksi alla olevan kuvan tapaan. Simulaatiosta nähdään kuinka keskiarvo tarkentuu kohden teoreettista odotusarvoa otoskoon kasvaessa. Yksittäiset heittosarjat (värit) toki eroavat toisistaan, mutta enimmäkseen pienillä otoskoilla. Kun otoskoko lähestyy ääretöntä, kaikki kovergoituvat samaan lukuun \(3.5\).

set.seed(12358) # poista, jos haluat eri satunnaisluvut
n_max <- 1000  # viimeinen tarkasteltava otoskoko
# Luodaan nopan silmalukuja tasajakaumasta
dice_throw_indexes <- rmultinom(n = n_max, size = 1, prob = rep(1/6, 6))
dice_throws <- apply(dice_throw_indexes==1, 2, which)
# Lasketaan kaikki silmalukukeskiarvot kerralla ja piirretaan sarja
Xbars <- cumsum(dice_throws)/(1:n_max)
plot(Xbars, type = "l", lwd = 2, xlab = "n", ylab = "Keskiarvo", ylim = c(1, 6))
lines(c(-10, n_max+10), c(3.5, 3.5), lty = 2)
# Toistetaan samaa muutama kerta
for (i in 1:3){
  dice_throw_indexes <- rmultinom(n = n_max, size = 1, prob = rep(1/6, 6))
  dice_throws <- apply(dice_throw_indexes==1, 2, which)
  Xbars <- cumsum(dice_throws)/(1:n_max)
  lines(Xbars, lwd = 2, col = i+1)
}
legend("topright", legend = 1:4, title = "Heittosarja", col = 1:4, lwd = 2, 
       bty = "n")

Figure 4.1: Suurten lukujen laki nopan heitossa.

Yllä olevan simulaation voi tietysti tehdä myös oikeaa noppaa heittämällä, joskin siitä syntyy melkoisesti rutiininomaista summalaskentaa. Hedelmällisempää on todistaa taustalla olevan ilmiön yleinen periaate, jolloin kyseinen ymmärrys on ns. “kiveen kirjoitettu”. Teemme sen seuraavaksi.

Suurten lukujen laki (“heikko” versio). Kun \(X_1, X_2, \ldots, X_n\) ovat kokoelma identtisiä samalla tavoin jakautuneita toisistaan riippumattomia satunnaismuuttujia ja \(\text{E}[X_1]=\mu\), summamuuttujalle \(\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i\), eli muuttujalle \(\bar{X}_n = \frac{1}{n}(X_1 + X_2 + \cdots + X_n)\), pätee \(\bar{X}_n \overset{P}{\to} \mu\), kun \(n \to \infty\). Toisin sanoen, keskiarvo \(\bar{X}_n\) lähestyy odotusarvoa otoksen kasvaessa siten, että mille tahansa positiiviselle luvulle \(\epsilon > 0\) pätee

\[ \lim_{n \to \infty} P(|\bar{X}_n - \mu| > \epsilon) = 0. \]

Todistus. Olkoon luku \(a > 0\) ja \(X\) satunnaismuuttuja, joka ei voi saade negatiivisia arvoja. Tällöin ns. Markovin epäyhtälö, \(P(X \ge a) \le \text{E}[X]/a\), osoitetaan toteen häikäilemättä kokonaistodennäköisyyttä alaspäin arvioimalla:

\[ \begin{aligned} \text{E}[X] &= P(X < a) \text{E}[X|X < a] + P(X \ge a) \text{E}[X|X \ge a] \\ &\ge P(X \ge a) \text{E}[X|X \ge a] \\ &\ge P(X \ge a) \times a, \end{aligned} \]

mistä yo. Markovin epäyhtälö saadaan puolittain \(a\):lla jakamalla. Epäyhtälö antaa siis ylärajan suurten arvojen todennäköisyyksille. Kun Markovin epäyhtälöä sovelletaan satunnaismuuttujaan \((X - \text{E}[X])^2\) ja vakioon \(a^2\) ja huomataan, että \(P((X - \text{E}[X])^2 \ge a^2) = P(|X - \text{E}[X]| \ge a)\) saadaan itseisarvopoikkeamien yläraja, joka tunnetaan Chebyshevin epäyhtälönä:

\[ P(|X - \text{E}[X]| \ge a) \le \frac{\text{Var}[X]}{a^2}. \]

Varianssin ominaisuuksista ja muuttujien \(X_1, X_2, \ldots, X_n\) riippumattomuudesta seuraa, että

\[ \begin{aligned} \text{Var}[\bar{X}_n] &= \frac{1}{n^2} \text{Var}[X_1 + X_2 + \cdots + X_n] \\ &= \frac{1}{n^2} \big\{ \sum_{i=1}^n \text{Var}[X_i] + 2 \sum_{i=1}^{n-1} \sum_{j=i+1}^n \underbrace{\text{Cov}[X_i, X_j]}_{= 0 \text{ when } i \ne j } \big\} \\ &= \frac{1}{n^2} \sum_{i=1}^n \text{Var}[X_i] \\ &= \frac{n \sigma^2}{n^2} \\ &= \sigma^2/n, \end{aligned} \]

missä \(\sigma^2 = \text{Var}[X_1] = \cdots = \text{Var}[X_n]\), koska muuttujille oletettiin samat jakaumat. Kun nyt otetaan mikä hyvänsä arvo \(\epsilon > 0\) ja käytetään Chebyshevin epäyhtälöä summamuuttujaan, saadaan

\[ P(|\bar{X} - \mu| > \epsilon) \le \frac{\sigma^2}{n \epsilon^2}, \]

missä pätee \(\frac{\sigma^2}{n \epsilon^2} \to 0\), kun \(n\) kasvaa rajatta. Tämä todistaa alkuperäisen väitteen.

Yllä paitsi osoitimme pitävästi, että otoskeskiarvo kaikella todennäköisyydellä konvergoi odotusarvoon, myös annoimme ylärajan \(\epsilon\):n kokoisen poikkeaman todennäköisyydelle. Esimerkiksi, yhden nopanheiton varianssiksi laskemme \(\frac{1}{6} \big\{ (1 - 3.5)^2 + (2 - 3.5)^2 + \cdots + (6 - 3.5)^2 \big\} \approx 2.9\). Yllä osoitimme, että keskiarvon yli yhden silmäluvun kokoisen poikkeaman odotusarvosta on oltava todennäköisyydeltään alle \(\frac{2.9}{n \times 1^2}\). Eli sadan heiton otoksessa alle \(0.029\). Tarkemmatkin arviot olisivat mahdollisia, mutta tässä esitelty menetelmä on varsin yleinen ja verrattain ymmärrettävä. Huomaa kuitenkin, että on olemassa satunnaismuuttujia, joiden varianssi tai jopa odotusarvo ovat määrittämättömiä (äärettömiä), jolloin yllä oleva todistus ei luonnollisestikaan toimi.

4.2 Keskeinen raja-arvolause

Yllä esitelty suurten lukujen laki ei riitä vastaamaan kysymyksiin “mikä on otoskeskiarvon jakauma” ja “riippuuko keskiarvon jakauma keskiarvoistettavien satunnaismuuttujien jakaumista”. Vastauksen tähän kysymykseen antaa seuraava lause.

Keskeinen raja-arvolause. Olkoon \(X_1, X_2, \ldots, X_n\) jono satunnaismuuttujia (otos; \(n\) kappaletta), joiden odotusarvo on \(\mu\) ja varianssi \(\sigma^2\), ja \(\bar{X}_n\) näiden keskiarvo. Silloin satunnaismuuttujan \(\sqrt{n}(\bar{X}_n - \mu)\) jakauma lähestyy otoskoon \(n\) kasvaessa jakaumaa \(N(0, \sigma^2)\), eli normaalijakaumaa, jonka varianssi on \(\sigma^2\).

Tämä tulos on äärimmäisen hyödyllinen, koska sen nojalla voimme tietää hyvin paljon keskiarvon jakaumasta tietämättä juuri mitään itse havaintojen jakaumasta. Tulos on siis hyvin yleinen ja varsin käyttökelpoinen. Se annettiin yllä tarkoituksella melko epämääräisessä muodossa, sillä keskeisestä raja-arvolauseesta on olemassa useita erilaisia versioita. Perinteisesti muuttujat \(X_1, X_2, \ldots, X_n\) oletetaan toisistaan riippumattomiksi, samoin jakautuneiksi, ja odotusarvoiltaan ja variansseiltaa äärellisiksi. Oletuksista kahta ensimmäistä voidaan kuitenkin väljentää tietyin hallituin tavoin, joihin ei tässä ole tarvetta syventyä. Jopa lauseen klassinen versio on itse asiassa varsin hankala todistaa. Sen todistus sivuutetaan tässä, mutta ymmärrystä teemaan haetaan todistamalla teoreemaan (ilmeisesti) kaikkein varhaisin versio. Tätä versiota kutsutaan De Moivre-Laplace teoreemaksi ja se todistaa, että aiemmassa kuvassa Figure 3.3 näkemämme Bernoulli-jakautuneiden satunnaismuuttujien (binomijakautuneen) summan jakauma todella lähestyy keskeisen raja-arvolauseen osoittamaa normaalijakaumaa.

Tarkastellaan hetki keskeistä raja-arvolausetta ennen formaaleihin todisteluihin siirtymistä. Kyseessä on suurten lukujen teoriaan perustuva tulos, eli tulos toimii suurilla otoksilla, kun \(n\) on “suuri”. Se, mitä tarkoittaa “suuri”, riippuu keskiarvoistettavien satunnaismuuttujien alkuperäisistä jakaumista. Alla oleva R-simulaatio luo empiirisiä histogrammeja tasajakautuneiden (ylärivi) ja vinojen (alarivi; eksponenttijakauma) muuttujien keskiarvoille. Kuvasta nähdään, että jälkimmäisessa tapauksessa keskiarvon empiirinen jakauma (punainen viiva) lähestyy normaalista (vihreä katkoviiva) hitaammin kuin ensimmäisessä tapauksessa. Jo kymmenen tasajakautuneen havainnon keskiarvo on käytännössä normaalijakautunut, kun eksponenttijakauman kohdalla vielä sadallakin havainnolla havaitaan lievää vinoutta oikealle.

set.seed(12358) # poista tama rivi, jos haluat eri satunnaisluvut
ns <- c(10,30,100)  # tarkasteltavat otoskoot (3 kpl)
nsim <- 10000 # toistojen määrä keskiarvon jakauman laskemista varten
ka_tasa <- matrix(0, nsim, length(ns)) # kootaan tasajakaumatulokset tahan
ka_expo <- matrix(0, nsim, length(ns)) # kootaan eksponenttijakaumatulokset
# simuloidaan
for (i in 1:nsim){
  X_tasa <- runif(ns[length(ns)]) # tasajakautuneita havaintoja
  X_expo <- rexp(ns[length(ns)])  # eksponenttijakautuneita havaintoja
  ka_tasa[i, ] <- c(mean(X_tasa[1:ns[1]]), mean(X_tasa[1:ns[2]]), mean(X_tasa))
  ka_expo[i, ] <- c(mean(X_expo[1:ns[1]]), mean(X_expo[1:ns[2]]), mean(X_expo))
}
# piirretaan kuvaajat
par(mfrow=c(2,3))
for (i in 1:3){ # tasajakaumien keskiarvot
  hist(ka_tasa[,i], breaks = 30, freq = F, col = "white", 
       main = paste("N =", ns[i]), xlab = "ka")
  x <- density(ka_tasa[,i]); lines(x$x, x$y, col = "red", lwd = 2)
  x <- seq(-1, 4, length.out=1000)
  lines(x, dnorm(x, mean = mean(ka_tasa[,i]), sd = sd(ka_tasa[,i])), 
        lty = 2, lwd = 2, col = "darkgreen")
  if (i==1){
    legend("topleft", bty = "n", lwd = 2, lty = c(1, 2), 
           col = c("red", "darkgreen"), title = "Estimate",
           legend = c("Semiparametric", "Gaussian"))
  }
}
for (i in 1:3){ # eksponenttijakaumien keskiarvot
  hist(ka_expo[,i], breaks = 30, freq = F, col = "white",
       main = paste("N =", ns[i]), xlab = "ka")
  x <- density(ka_expo[,i]); lines(x$x, x$y, col = "red", lwd = 2)
  x <- seq(-1, 4, length.out=1000)
  lines(x, dnorm(x, mean = mean(ka_expo[,i]), sd = sd(ka_expo[,i])), 
        lty = 2, lwd = 2, col = "darkgreen")
}

Figure 4.2: Keskeinen raja-arvolause toiminnassa tasa- (ylärivi) ja eksponenttijakatuneilla (alarivi) muuttujilla.

Ylläolevan simulaation kaltaiset tarkastelut ovat erittäin hyödyllisiä keskiarvoa monimutkaisempian parametrien mallinnuksessa. Tuolloin voi olla huomattavasti suurempaa epävarmuutta estimaattorin jakaumasta, jos esimerkiksi osa estimointiyrityksistä epäonnistuu. Näimme kuitenkin yllä, että keskeinen raja-arvolause toimii käytönnössäkin ja melko nopeasti, eli jo melko pienin havaintomäärin.

De Moivre-Laplace teoreema.

TODISTETAAN TÄMÄ KOKO CLT:N SIJAAN. HAVAINNOLLINEN JA MAHDOLLISEN RAJOISSA.