Chernoffin naamat ja Suomen vointi

Kimmo Vehkalahti taustoittaa tulkintojaan hauskasta, mutta samalla puhuttelevasta naamakuvasta sekä valottaa kuvan historiaa ja piirtotekniikkaa.

(selostuksen kohteena oleva naamakuva)Kuvan pohjana olevan aineiston muuttujat
ja niiden yhteydet "kasvonpiirteisiin":

   Bruttokansantuote (markkinahintaan)
     > Pään muoto ja suun leveys
   Tuonti (tavaroiden ja palvelujen)
     > Nenän pituus
   Vienti (tavaroiden ja palvelujen)
     > Silmien koko ja katseen suunta
     > Kulmakarvat
   Työttömyysaste (miehet ja naiset)
     > Suun kaarevuus ja korkeus
     > Silmien vinous
   Kulutusmenot (yksityiset ja julkiset)
     > Pään koko
     > Silmien epäkeskisyys ja erillisyys

Tarkemmat määrittelyt: ks. alla.

Luvut: Tilastokeskus (Suomi lukuina)

Kuva: Chernoffin naamat (SURVO MM)

Kuva on herättänyt keskustelua, kommentteja ja tutkimuskysymyksiä. On huomattava, että se perustuu ainostaan viiteen, yhteiskunnan tilaa hyvin yleisellä tasolla kuvaavaan tunnuslukuun.

Kiinnostavaksi kuvan tekee ennen kaikkea 30 vuoden pituinen aikasarja, johon mahtuu monenlaista: idänkauppaa, Kekkonen (ja kolme muuta presidenttiä), Neuvostoliiton romahdus, kulutusjuhlat, Suomen liittyminen Euroopan Unioniin, pankkikriisi, markan devalvointi, Euro-alueen synty, globalisaatio, ...

Oliko Suomessa joskus hyvinvointivaltio? Milloin? Miten kauan 90-luvun lama näkyi naamasta? Voiko pulskistunut Suomi hyvin? Vai puhutaanko pahoinvointivaltiosta?

1. Taustaa kuvaan

Naamasarja perustuu tilastollisen aineiston kuvaustapaan nimeltään Chernoffin naamat (Chernoff 1973), ja se on piirretty Survo-ohjelmistolla (Mustonen 2001, Mustonen 1992).

Ensimmäisen version Suomen naamoista piirsin (kai hetken mielijohteesta) keväällä 1996, kun olin laatimassa materiaalia monimuuttujamenetelmien kurssilleni Viikkiin. Suomi oli juuri liittynyt EU:hun. Sittemmin olen piirtänyt kuvan joitain kertoja uudelleen haettuani tuoreet tiedot Tilastokeskuksesta. Muuttujien yhteydet eri kasvonpiirteisiin määrittelin alun perin kokeilemalla enkä ole niitä sen jälkeen juuri muuttanut.

Arvioin näyttäneeni kuvan eri versioita kymmenissä eri yhteyksissä (kursseillani, koulutustilaisuuksissa, seminaareissa jne.), joten hyötysuhde on ollut varsin hyvä! Tähän mennessä eniten huomiota saanut versio lienee vuosia 1976-2005 ilmentävä mustavalkoinen kuva (Vehkalahti 2007a, 6).

Uudet ilmeet: miten suu nyt pannaan?

Sivun alussa näkyvän kuvan piirsin Tilastotieteen johdantokurssini materiaalia varten 16.9.2010. Tulin tehneeksi muutoksia paljon enemmän kuin olin aikonut:

Itse asiassa olin tehnyt muutoksia kuvaan jo vuotta aikaisemmin, mutta homma oli jäänyt vaiheeseen enkä ollut nyt aikonut palata siihen. Toisin kävi... ja sivutuotteena syntyi tämä verkkosivu.

2. Chernoffin naamat ja Mustosen editori

Naamoilla visualisointi on saanut osakseen runsaasti kritiikkiä, muun muassa "subjektiivisuutensa" vuoksi (ks. esim. Kosara 2007). Kriittisyys on toki paikallaan, mutta Chernoffin naamojen osalta se on ollut hieman ylimitoitettua. Chernoffin naamat on osaavissa käsissä ovela keino moniulotteisen aineiston visualisointiin. Erityisen tehokas se on ilmentämään aikasarjoissa tapahtuvia muutoksia. Tilastollisia tuloksia esittävä tutkija joutuu sitäpaitsi aina tekemään subjektiivisia valintoja, jotka hänen on kyettävä perustelemaan.

Nuiva tai ainakin konservatiivinen suhtautuminen lienee syynä siihen, että Chernoffin naamat sisältyy nykyisinkin vain harvojen ohjelmistojen kuvanpiirtovalikoimiin. Survossa se on kuulunut vakiokalustoon jo yli 30 vuotta (pidempään kuin mitä edellä oleva kuva esittää!). On paikallaan katsastaa asiaa tarkemmin, sillä tekniikka, jolla naamoja Survossa piirretään, on tyyppiesimerkki sille ominaisesta, tekstin editointiin perustuvasta työskentelytavasta.

Chernoffin naamat

Amerikkalainen tilastotieteen professori Herman Chernoff keksi 1970-luvun alussa käyttää kasvonpiirteitä moniulotteisten ja monimutkaisten tilastollisten aineistojen kuvaamiseen. Tuohon aikaan tietokoneilla voitiin vähitellen alkaa tehdä muutakin kuin vain laskea, ennen kaikkea piirtää kuvia. Chernoffin idea on dokumentoitu kiteytetysti hänen tunnetuimmassa artikkelissaan (Chernoff 1973).

"People grow up studying and reacting to faces all of the time. Small and barely measurable differences are easily detected and evoke emotional reactions from a long catalogue buried in the memory. Relatively large differences go unnoticed in circumstances where they are not important. This implies that the human mind sub-consciously operates as a high-speed computer, filtering out insignificant visual phenomena and focusing on the potentially important." (Chernoff 1973, 363)

Tuon ajan tietojenkäsittelyn haasteita kuvastaa artikkelin loppulauselma:

"At this time the cost of drawing these faces is about 20 to 25 cents per face on the IBM 3608-7 at Stanford University using the Calcomp Plotter. Most of this cost is in the computing, and I believe that it should be possible to reduce it considerably." (Chernoff 1973, 367)

Mustosen editori

Suomalainen tilastotieteen professori Seppo Mustonen ohjelmoi ensimmäisen Chernoffin naamojen piirto-ohjelmansa Wang-merkkiselle pientietokoneelle kehittämäänsä SURVO 76:een. Naamoja saattoi jo tuolloin piirtää sekä koneen kuvaruudulle että paperille.

Naamakuvista on kehitelty erilaisia, enemmän tai vähemmän (yleensä vähemmän) onnistuneita muunnelmia, esimerkkinä vaikkapa R-ohjelmiston kuviot. Mustosen Survoon laatima toteutus puolestaan nojaa tarkalleen Chernoffin alkuperäiseen 18 kasvonpiirteen malliin, joskin Survon naamat ovat omasta mielestäni paremman näköisiä kuin Chernoffin artikkelissa.

Survon käyttötavan ydin, tässäkin tehtävässä käteväksi osoittautunut, editoriaalinen käyttötapa sai alkunsa vain hieman myöhemmin (vuonna 1979) tarpeesta piirtää nuotteja:

"Surprisingly, the idea arose in connection with a musical application. I wanted to develop a program that would accurately and easily transcribe my son Olli's hand-written violin compositions into a printable form on the Wang minicomputer that was equipped with a drum plotter. As a minor part of this task I also had to program a new editor and only after this experiment I realized that the same editor can be extended to computational and statistical applications." (Mustonen 2007, 31)

Mustosen editori syntyi siis erikoisena sivujuonteena, mutta siitä muodostui pian SURVO 76:n keskeisin osa (Mustonen 1980) ja perusta kaikille myöhemmille Survoille (SURVO 84, SURVO 84C, SURVO 98 ja nykyinen SURVO MM).

"It seems quite natural to extend editing operations towards normal statistical operations and this will be a new form of interactive statistical computing which covers the final documentation as well." (Mustonen 1981, 136)

Syyn siihen, että editoriaalinen käyttötapa syrjäytti nopeasti aiemman, valikkopohjaisen käyttötavan, ymmärtää parhaiten perehtymällä omakohtaisesti Survon käyttöön. Alustavan käsityksen voi saada alla olevasta selostuksesta. Dynaamisempana välimuotona voi tutustua tuoreisiin, eri aihepiirejä esitteleviin animaatiodemoihin, joita Survon sivuilta löytyy useita kymmeniä.

3. Tekniset kuviot

Oheiset staattiset näkymät ovat MWSnap-ohjelmalla napsittuja tuokiokuvia Survon toimituskentästä.

Aineisto

Tilastokeskuksen luvut olen siirtänyt Excelin kautta Survoon tilastoaineistoksi suomi_1975-2008.svo, jonka rakenne näyttää seuraavalta, kun aktivoidaan FILE STATUS:

(havaintoaineiston rakennekuvaus)

Aineiston metatiedoista ilmenee, että olin viimeksi päivittänyt tietoja syyskuussa 2009, kuten edellä totesin. Olin myös aloittanut kuvan päivittämisen, mutta se oli jäänyt syystä tai toisesta kesken. Paluu asiaan tapahtui näemmä lähes päivälleen vuotta myöhemmin.

Kuvanpiirtokaavio

Kuva syntyy aineistosta yhdellä napin painalluksella ja tallettuu PostScript-tiedostoksi naamat.ps Survon PLOT-toiminnolla, kun sen TYPE-täsmennys on varustettu avainsanalla FACES:

(kuvanpiirtokaavio K.Vehkalahden tyyliin)

Muilla ympäröivillä täsmennyksillä säädetään kuvan kokoa, otsikkoa, mittasuhteita, naamojen kokoa ja sijoittelua, viivojen paksuutta, tekstien sijaintia, värejä, fontteja ym. niin, että kuvasta saadaan suoraan julkaisukelpoinen.

Värikkäinä näkyvät tekstit ovat ilmentymiä varjomerkeistä, joiden avulla voi muun muassa

Varjomerkit ovat kiehtoneet minua pitkään... Kirjoitin niiden hyödyntämisestä jutun jo vuosituhannen vaihteessa otsikolla HTML/TXT/PS/PDF: millä muotoa ja miten?

Kasvonpiirteet

Sivun alussa selostetut muuttujien yhteydet kasvonpiirteisiin annetaan erityisellä lomakkeella, jonka PLOT tarjoaa täytettäväksi, kun se aktivoidaan ensimmäisen kerran. Lomakkeelle tarvitsee sijoitella vain aineiston muuttujien nimiä. Muut tiedot ovat valmiina, ja ne täydentyvät, kun PLOT aktivoidaan uudelleen:

(naamat peruslukemilta vaihtelemaan aineiston mukaisesti!)

Väreillä olen korostanut muuttamiani kohtia edelliseen versioon verrattuna. Sarakkeiden xmin ja xmax luvut päivittää PLOT aineiston perusteella. Vaikutussuuntaa voi vaihtaa kuten olen tehnyt työttömyysasteen kohdalla. Sarakkeiden fmin ja fmax luvuilla on hyvät oletusarvot, mutta olen muutellut niitäkin jonkin verran.

Kuten ensimmäisestä sarakkeesta näkyy, kaikki 18 piirrettä eivät ole käytössä tässä kuvassa. Piirteiden kuvaukset Features-sarakkeessa on selitetty yksityiskohtaisesti Chernoffin artikkelin viimeisellä sivulla.

Kaavio - ja sitä myöten kuva - syntyy vaiheittain:

  1. aktivoidaan komento PLOT, joka synnyttää PostScript-tiedoston
  2. käynnistetään sukro /GS-PDF, joka
    1. muuttaa PostScript-tiedoston PDF-muotoon käyttäen Ghostscriptia
    2. avaa kuvan PDF-lukijalla (tyypillisesti Adobe Readerillä)
  3. tarkastellaan kriittisesti lopputulosta
  4. säädetään yksityiskohtia muokkaamalla kuvanpiirtokaaviota
  5. suljetaan kuva PDF-lukijasta

Vaiheita 1-5 toistetaan, kunnes lopputulos tyydyttää. Survo-käyttäjille tyypillinen "intohimo kvaliteettiin" voi toisinaan aiheuttaa verraten suuren iteraatiomäärän.

Dynaamisemman käsityksen naamojen piirtämisestä saa Mustosen laatimasta animaatiodemosta.

Lähdeviitteet

Chernoff, Herman (1973). The Use of Faces to Represent Points in k-Dimensional Space Graphically, Journal of the American Statistical Association, 68, 361-368.

Kosara, Robert (2007). A Critique of Chernoff Faces.

Lappalainen, Sirpa & Vehkalahti, Kimmo (2010). Cross-cultural perspectives on young people's future prospects under changing socio-economic conditions, Working paper, Research Unit of Cultural and Feminist Studies in Education, University of Helsinki.

Mustonen, S. (1980). SURVO 76 EDITOR, a new tool for interactive statistical computing, text and data management. Research Report No. 19. Department of Statistics, University of Helsinki. (50 pp.)

Mustonen, S. (1981). On Interactive Statistical Data Processing. Scandinavian Journal of Statistics, 8, 129-136.

Mustonen, Seppo (1992). Survo - An Integrated Environment for Statistical Computing and Related Areas. Survo Systems, Helsinki, 494 sivua.

Mustonen, Seppo (2001). Survon uusi Windows-versio.

Mustonen, Seppo (2007). Survo Crossings. CSCnews, 1/2007. CSC: Finnish IT center for science, 30-32.

Vehkalahti, Kimmo (2007a). Luvut, num3rot ja kuvat. Matematiikkalehti Solmu, 2/2007.

Vehkalahti, Kimmo (2007b). Survo+LaTeX kuvien käytössä ja näytössä. Tilastollisen tietojenkäsittelyn seminaari, Helsingin yliopisto, 9.10.2007.

Vehkalahti, Kimmo (2008). Kyselytutkimuksen mittarit ja menetelmät. Tammi, Helsinki, 223 sivua.

Kiitokset

Sorvin (Survon) ääreen minut innosti tällä kertaa johdantokurssini työpajaohjaaja Tuomas Kvist ehdotuksellaan lisäinfoa antavasta nettisivusta. Kiitos Tuomakselle ideasta! ; )