Kimmo Vehkalahti, tilastotieteilijä / datataiteilija

Luonnehdintoja 1900-luvun psykometriikan kirjallisuudesta

Pian sen jälkeen kun opinnäytetöideni aihe oli alkanut hahmottua, halusin tietää, mistä kaikki joskus oli alkanut. Gradua tehdessäni vuonna 1995 kaivauduin tieteellisten lähdeviitteiden kiehtovaan maailmaan. Kävin jopa Jyväskylässä selaamassa vanhoja psykologian ja kasvatustieteen lehtien vuosikertoja löytääkseni alkuperäiset mietteet, oppikirjojen vuosikymmeniä toistamien fraasien lisäksi.

Tiesin että mittausvirheitä, jotka ovat keskeisessä roolissa mittauksen laadun arvioinnin kannalta, pohti jo Gauss aikoinaan, mutta reliabiliteetin käsitteen esitti Charles Spearman tutkiessaan älykkyyden mittaamista 1900-luvun alkuvuosista lähtien. Seuraavat lainaukset kirjallisuudesta kertovat tiivistettynä, mitä 1900-luvun aikana tapahtui. Valitsin tekstilainaukset pääosin jo kesällä 1999, mutta lisäsin niiden oheen omia luonnehdintojani ja kommentteja joulukuussa 2000.

Measurement of association

Psychologists, with scarcely an exception, never seem to have become acquainted with the brilliant work being carried on since 1886 by the Galton-Pearson school. The consequence has been that they do not even attain to the first fundamental requisite of correlation, namely, a precise quantitative expression. [...] Seeing, thus, that even the elementary requirements of good correlational work [...] have been so generally deficient, we cannot be surprised to find that the more advanced refinements of procedure [...] have been almost wholly unregarded; so that the final results are saturated and falsified with every description of impurity. In this respect, unfortunately, it is no longer possible to hold up even the Galton-Pearson school as a model to be imitated.
Charles Spearman, 1904

Spearmanin kaksi artikkelia samassa American Journal of Psychology -lehdessä vuonna 1904, yhteispituudeltaan yli 120 sivua, antoivat alkusysäyksen useille asioille. Tärkeimmät niistä olivat faktorianalyysi, mittausvirheiden vaikutus korrelaatioon, mittausvirheen ja otantavirheen käsitteiden ero sekä järjestyskorrelaatiokerroin. Näiden kaikkien sovelluksena oli Spearmanin elämäntyö, ihmisen älykkyyden mittaaminen.

Tässä vaiheessa Spearman kohdisti moitteensa vielä psykologeihin ja antoi tunnustuksensa Karl Pearsonin työlle, mutta myöhemmin hän ajautui Pearsonin kanssa oppiriitoihin loppuelämäkseen.

Spearman-Brown formula

It has been suggested to make the measurements so efficient, that the correction will not be needed. But how are we to tell whether our measurements really are efficient enough, expect by trying with the correction formula? The suggestion is like telling a man to brush his coat until it is clean but never look whether it is so.
Charles Spearman, 1910

Spearmanin merkitystä psykometriikan kannalta ei voi väheksyä. Siksi hän onkin miltei ainoa, joka esiintyy tässä listassa kahdesti. Vuoden 1910 artikkeli British Journal of Psychology -lehdessä esitteli käsitteen reliabiliteetti sekä kaavan sen laskemiseksi. Samaisen kaavan johti William Brown lehden samassa numerossa, hieman eri lähtökohdista. Näin oli syntynyt psykometriikan keskeisin reliabiliteettikaava, joka kertoo kuinka muuttujien summa on aina luotettavampi mittari kuin yksittäiset muuttujat.

Split-half approach

I know of no better simple way of securing an estimate of reliability of a college entrance test than to split it into halves and use the Spearman-Brown formula and though there are hazards in doing this I certainly think that such an estimate is very much better than none at all.
Truman Kelley, 1924

Puolitusjako eli split-half oli sekin jo Spearmanin esittämä keino arvioida mittarin reliabiliteettia. Sen huono puoli oli ettei jakoa voinut tehdä yksikäsitteisesti. Tavoitteeksi muodostuikin kehittää reliabiliteetin arviointiin sellaiset keinot, ettei puolitusjakoa tarvittaisi.

Kuder-Richardson formula 20

Any one of the formulas will give a unique estimate of the coefficient in all situations which it is applicable. In certain cases, the commonly calculated parameters of the test score distribution will afford, in two minutes of time, a fairly good estimate of the reliability coefficient.
G. F. Kuder and M. W. Richardson, 1937

Edellä mainittu tavoite saavutettiin 1930-luvun lopulla, kun Kuder ja Richardson kehittivät liudan mittoja joilla saatiin arvio reliabiliteetista ilman hämärinä pidettyjä asteikon jakometodeja. Uusista mitoista jäivät henkiin (artikkelin kaavanumeroiden mukaan nimetyt) nro 21 ja erityisesti nro 20, joka sai sittemmin uuden nimen alfa.

Kaava 20 saatiin riittävän yksinkertaiseen muotoon, jotta sitä voitiin käytännössä soveltaa. (Laskenta oli tuohon aikaan vielä erittäin työlästä.) Tämä edellytti oletuksia, jotka eivät käytännössä koskaan toteudu vaaditulla tavalla. Approksimaatiotakin pidettiin kuitenkin parempana vaihtoehtona kuin pelkän Spearmanin ja Brownin kaavan soveltamista. Itse asiassa KR20:ksi kutsuttu kaava on kuitenkin sama kaava saatettuna vain sellaiseen muotoon, jossa vaikeasti arvioitavissa olevat osiokohtaiset reliabiliteetit on manipuloitu pois näkyvistä.

Mental tests of the Second World War

The Kuder-Richardson formula is not desirable as an all-purpose substitute for the usual techniques. This reopens the question whether a suitable estimate can be developed.
Lee J. Cronbach, 1943

Spearmanin lisäksi tällä listalla kahteen kertaan esiintyy Lee J. Cronbach (1916-2001), eikä syyttä. Hän osallistui toisen maailmansodan ajoista lähtien voimakkaasti psykometriikan menetelmäkehitykseen, ja hänen nimeään kantaa kuuluisin ja suosituin reliabiliteettimitta, alfa.

Cronbach kritisoi Kuderin ja Richardsonin kehitelmiä, mutta toinen maailmansota loi tarpeen valtavalle määrälle psykologisia testejä, joissa piti voida arvioida myös testien reliabiliteetti. Vaadittiin yksinkertaisia menetelmiä, joihin liittyvät laskut oli helppo suorittaa (käsin). Siihen KR20 ja KR21 olivat oiva vastaus. Kriittiset kommentit jäivät varjoon.

Cronbach's alpha

Since each writer offering a derivation used his own set of assumptions, and in some cases criticized those used by his predecessors, the precise meaning of the formula became obscured. The original derivation unquestionably made much more stringent assumptions than necessary, which made it seem as if the formula could properly be applied only to rare tests which happened to fit these conditions. It has generally been stated that alpha gives a lower bound to "the true reliability" - whatever that means to that particular writer. In this paper, we take formula [of alpha] as given, and make no assumptions regarding it. Instead, we proceed in the opposite direction, examining the properties of alpha and thereby arriving at an interpretation.
Lee J. Cronbach, 1951

Sodan jälkeen Cronbach olikin yllättäen halukas ottamaan KR20-kaavan entistä ahkerampaan käyttöön. Hän ei halunnut enää pohtia kaavan taustalla olevia oletuksia vaan kehotti päinvastoin keskittymään kaavasta saatavien arvojen tulkintaan. Kaavan pitkän ja hankalan nimen sijasta hän ehdotti lyhyempää nimeä (alfa), ja siitä lähtien KR20 on tunnettu nimellä Cronbachin alfa.

Seuraavat 50 vuotta ovatkin sitten kuluneet enemmän tai vähemmän tämän 30-luvun konstin ympärillä.

Perfect generalizability

When only one alpha factor is extracted, it is perfectly generalizable. [...] An alpha factor, descends into the dubious state of nonpositive generalizability if and only if its associated eigenvalue is less than or equal to one. On the other hand, for an alpha factor whose generalizability is positive, it may be said that there could be "something there", and that it is surely appropriate at least to give such a common factor a chance to find its place in the sun.
Henry Kaiser and John Caffrey, 1965

Eräänlainen pohjanoteeraus saavutettiin, kun Varimax-rotaation kehittäjä Henry Kaiser yhdessä John Caffreyn kanssa kehitteli alfa-vetoisen faktorianalyysin. Tarkoitus lienee ollut hyvä, mutta toteutus oli ala-arvoinen, sillä muuttujia painotettiin täysin päinvastaisesti suurimman uskottavuuden menetelmään verrattuna. Suurimman painon saivat siis osiot, joiden kommunaliteetti oli heikoin. Tämä ei tietenkään ollut tarkoitus, mutta niin siinä vain kävi. Tässä yhteydessä puhuttiin myös uudesta käsitteesta, yleistettävyydestä (generalizability), jolla on läheisiä yhteyksiä Cronbachin alfan ja varianssianalyysin kanssa.

Alpha if item deleted

The mathematical assumptions for alpha reliability are often not met; the usual steps of item analysis - throwing out "bad" items to enhance alpha reliability - may not in fact produce optimal alpha reliability.
David Armor, 1974

Cronbachin alfan heikkoudet oli huomattu jo varhain. Kritiikkiä esitettiin aika ajoin, mutta se ei näyttänyt estävän alfan leviämistä yhä useammalle sovellusalalle. David Armorin kritiikki kohdistui 1970-luvun alussa käytäntöön, jossa "huonoja" muuttujia heitetään menemään paremman alfan toivossa. Eräissä tilasto-ohjelmissa (mm. SPSS) saa halutessaan muuttujakohtaisen tiedon siitä, mitä alfa olisi jos kyseinen muuttuja heivattaisiin pois. Vikana tällaisessa putsausproseduurissa on, että pesuveden mukana saattaa huuhtoutua validiteetti, jolloin asiat sotkeutuvat aivan nurinkuriseen järjestykseen.

Sitäpaitsi, tiedonkeruu on usein kallista ja aikaavievää toimintaa. Mitä järkeä on ensin kerätä tietoja ja hylätä niitä sitten mukamas paremman reliabiliteetin saavuttamiseksi? Näin kuitenkin edelleen näkee tehtävän monissa tutkimusprojekteissa.

Point lost somewhere in time

Somewhere during the three-quarter century history of classical test theory the real purpose of reliability estimation seems to have been lost.
David Weiss and Mark Davison, 1981

75 vuodessa psykometriikka, erityisesti mittauksen laadun arviointi, oli mennyt hämmästyttävän vähän eteenpäin. Kehitys oli jumittunut tavallaan 1930-luvulle, jolloin laskentavaikeudet vielä rajoittivat vakavasti menetelmien soveltamista.

Niinpä ei ollut ihme, että psykologit David Weiss ja Mark Davison totesivat alansa vuosikatsauksessa, että koko reliabiliteetin arvioinnissa oli menty jossain vaiheessa metsään. Alkuperäinen tarkoitus oli pahasti hämärtynyt, ja huomio keskittyi vain samojen vanhojen kaavojen ympärillä tapahtuvaan hääräilyyn.

Ne jotka eivät tätä kritiikkiä havainneet, kuvittelivat että mittauksen luotettavuuden arviointi on jo viety huippuunsa ja että Cronbachin alfan laskeminen (joka on helppoa!) riittäisi tilanteessa kuin tilanteessa.

General framework of modelling the measurement

It is important to distinguish concepts of the measurement scales and the measurement model. The model discriminates the underlying structure of the measurement from the use of the items.
Lauri Tarkkonen, 1987

Kaikki eivät sentään suostuneet ajattelemaan, että Cronbachin alfa olisi tyhjentävä vastaus mittaamisen tarpeisiin. Karl Jöreskog, joka jo 1960-luvulla oli tehnyt arvokasta työtä faktorianalyysin parissa, oli mukana 1970-luvun lopussa laatimassa yleistä reliabiliteetin arvioinnin menetelmää. Se perustui Jöreskogin aiemmin kehittämiin rakenneyhtälömalleihin. Menetelmä oli askel kohti yleistä ratkaisua, mutta siinä keskityttiin liiaksi mittausmalleihin eikä käytännön kannalta vähintään yhtä tärkeisiin mitta-asteikkoihin.

Jöreskogin kehitelmien puutteet täydentyivät kymmenen vuotta myöhemmin, kun Lauri Tarkkonen esitti väitöskirjassaan yleisen mittaamisen mallintamisen viitekehikon. Mittausmallin ja asteikon käsitteet tulivat vihdoin riittävän yleisesti määritellyiksi moniulotteisissa mittaustilanteissa. Tarkkosen määrittelemä tapa mahdollistaa minkä tahansa lineaarisen mitta-asteikon reliabiliteetin arvioinnin. Klassisen psykometriikan kaavat kuten Cronbachin alfa ja Spearmanin ja Brownin kaava ovat Tarkkosen rhon erikoistapauksia hyvin rajoitetuissa, yksiulotteisissa mittausmalleissa.

Cronbachin alfan rajoitukset johtivat siihen, että alettiin puhua vain reliabiliteetin alarajan määräämisestä, ilman konkreettisempaa tarkoitusta. Tarkkosen rhon avulla voidaan palata siihen mistä Spearmankin alunperin oli kiinnostunut: korjaamaan mittausvirheiden alentamia korrelaatioita ja arvioimaan mittareiden keskivirheitä - siis täysin otannasta riippumatta.

Party trick

No respectable essay on test theory can fail to note that coefficient alpha, or - to give it its pre-war identity for binary-scored tests Kuder-Richardson formula 20, has been derived dozens of times from different theoretical starting points. It is the apprentice psychometrician's favourite party trick. Alpha has become the universal reliability coefficient even if it is explicitly a lower bound, and possibly a very weak lower bound.
S. F. Blinkhorn, 1997

Tarkkosen arvokkaita kontribuutioita ei vielä 1900-luvun loppuessa oltu julkaistu alan lehdissä, joten niistä ei maailmalla tiedetty käytännössä mitään. Niinpä sähläys alfan ympärillä on jatkunut, kuten Blinkhorn tässä osuvasti toteaa.

Uuden vuosisadan alussa

2000-luvun jo edettyä muutamia vuosia asiat alkavat vihdoin tulla laajempaan tietoisuuteen, sillä Tarkkosen rhota ja koko mittauskehikkoa kuvaava artikkeli ilmestyi vuonna 2005 arvostetussa Journal of Multivariate Analysis -lehdessä. Jatkotutkimukset ovat meneillään, ja useita artikkeleita on valmisteilla.