Kuvia kirjoitetusta suomesta
Artikkeli 3/2001

Vesa Heikkinen, Outi Lehtinen, Mikko Lounela

Kuvia kirjoitetusta suomesta

Millaista on suomen kieli? Millaisin tunnusluvuin sitä voi kuvata? Suuria sähköisiä tekstiaineistoja analysoivat tietokoneohjelmat antavat täsmällistä tietoa kielen piirteistä. Voiko tällaiseen kuvaukseen luottaa?

Kuinka pitkiä ovat sanat keskimäärin? Mitkä ovat yleisimmät sanat? Kuinka paljon verbejä on suhteessa substantiiveihin? Kuinka pitkiä ovat lauseet ja virkkeet? Mitkä ovat yleisimmät välimerkit? Miten sanomalehtikieli eroaa kaunokirjallisuuden, esimerkiksi romaanien kielestä?

Näihin ja muihin samantapaisiin kirjoitettua kieltä koskeviin kysymyksiin voi etsiä vastauksia isoista tekstiaineistoista. Etsimistä helpottaa, jos on mahdollista käyttää apuna kieltä analysoivia tietokoneohjelmia. Vastausten saamiseen on yhä enemmän mahdollisuuksia nyt, kun koostetaan laajoja tekstiaineistoja eli korpuksia ja kun muokataan analyysivälineitä myös suomen kielen kuvausta varten. Esittelemme tässä kirjoituksessa alustavia tuloksia tutkimuksesta, jonka tarkoituksena on kuvata joitakin kirjoitetun yleiskielen tyypillisyyksiä.

Laskelmia suomen kielen piirteistä on tehty ennenkin, mutta aineistot ovat olleet nykykorpuksiin verrattuna pieniä. Esimerkiksi 60-luvun yleiskielisistä teksteistä kerätyssä ns. Oulun korpuksessa on noin 430 000 tekstisanaa (ks. Saukkonen 1982).

Tämän artikkelin perusaineistona on ns. Parole-korpus, jonka laajuus on noin 21 miljoonaa sanaa. Parole-korpus koostettiin EU:n LE-PAROLE-hankkeen yhteydessä. Tarkoituksena oli luoda kustakin unionin kielestä vähintään 20 miljoonan sanan tekstipankki. Virallisesti hanke alkoi huhtikuussa 1996 ja päättyi huhtikuussa 1998. Suomen osuuden toteuttivat yhteistyössä Kotimaisten kielten tutkimuskeskus ja Helsingin yliopiston yleisen kielitieteen laitos. Parole koostuu lähinnä 90-luvun teksteistä, ja 64 prosenttia siitä on sanomalehtitekstiä. Lisäksi mukana on kirjoja, aikakauslehtiä ja muita tekstejä.

Parolesta poimimme tarkasteltavaksi muutamia osakorpuksia: sanomalehdet, tietokirjat ja romaanit. Sanomalehtitekstiä on aineistossamme suurista päivälehdistä yhteensä yli 13 miljoonaa sanaa. Tietokirjoja ja romaaneja on kumpiakin noin 830 000 tekstisanan otos.

Aiemmissa tutkimuksissa tutkittavat piirteet on yleensä eristetty tekstistä ihmisvoimin ja samalla laskettu. Isoja aineistoja analysoitaessa piirteet on jo käytännön syistä pystyttävä luokittelemaan automaattista jäsennintä käyttäen. Automaattinen jäsennin on tietokoneohjelma, joka merkitsee tekstin jokaiselle sanalle sanaluokan, aika- ja persoonamuodot, sijamuodot jne. Lisäksi jäsennin pyrkii merkitsemään tekstiin sanojen määritesuhteita. Tällaisia jäsentimiä on tehty suomeakin varten. Me käytimme tekstin analysointiin Fi-lite-jäsennintä (ks. http://www.conexor.fi/). Sen tuottamasta analyysista saimme itse tekemillämme ohjelmilla ne tunnusluvut ja taajuuslistat, joiden perusteella päättelimme muutamia seikkoja kirjoitetusta suomesta. (Analyysin vaiheista ks. Heikkinen ym. 2001.)

Yleiskuvaa yleiskielestä?

Koko Parolen analysoinnin perusteella suomenkielisessä kirjoituksessa sanan keskimääräinen pituus on 8,5 merkkiä, lauseen pituus 6,8 sanaa ja virkkeen pituus 11,1 sanaa. Kaksi kolmasosaa välimerkeistä on pisteitä ja pilkkuja, ja melkein joka kymmenes välimerkki on kaksoispiste.

Aiemmin on laskettu Oulun korpuksesta sanojen keskipituudeksi 7,5 kirjainta, lauseiden keskipituudeksi 7,0 sanaa ja virkkeiden keskipituudeksi 12,6 sanaa (Niemikorpi 1996). Tekstisanojen keskipituudeksi on laskettu parlamenttikielen korpuksella laajennetusta Oulun korpuksesta 7,4 grafeemia (Pääkkönen 1990). Tämän perusteella arvioimme varovaisesti, että kirjoitetun suomen sanat ovat pitenemässä mutta virkkeet lyhenemässä. Keskimääräinen lausepituus näyttää eri tutkimusten perusteella (myös Hakulinen ym. 1980) olevan kuudesta seitsemään sanaa.

Sanaluokista substantiiveja on Parolessa yli 40 prosenttia, verbejä yli 20 prosenttia. Aiemmin on osoitettu, että substantiiveja on yleiskielisessä asiatekstissä hieman yli kolmannes ja verbejä noin neljännes sanaluokista (Karlsson 1983). Oulun korpuksen analyysissa on päädytty samankaltaisiin tuloksiin (Saukkonen ym. 1979).

Voimmekin arvioida, että kirjoitettu kieli on edelleen olioistumassa. Tapahtumiin, tekemisiin ja laatuihin viitataan entistä useammin substantiiveilla verbien tai adjektiivien asemesta. Substantiivien suhteellisen osuuden kasvu, sanojen piteneminen ja virkkeiden lyheneminen voivat olla saman ilmiön eri puolia. Informaatiota pakataan nominaalistuksiin ja yhdyssanoihin sekä määriteketjuihin, jolloin virkkeet voivat kyllä lyhentyä, mutta lukijalta vaaditaan entistä enemmän perustietoa puheena olevista asioista ja niiden keskinäisistä suhteista. Mitä enemmän tekstissä on substantiiveja suhteessa verbeihin, sitä abstraktimmaksi ja staattisemmaksi maailma todennäköisesti kuvataan (esim. Saukkonen 1984).

Tekstien tuottaman maailman(kuvan) kannalta kiinnostavia ovat myös sanojen yleisyystilastot. Huomionarvoista vertailussamme on, että Parolessa sanat vuosi ja suomi (laskelmassa mukana sekä suomi että Suomi) ovat kahdenkymmenen yleisimmän joukossa, kun taas 60-luvun aineistoon perustuvassa Suomen kielen taajuussanastossa (Saukkonen ym. 1979) eivät. Kertooko tämä ehkä jotain maailmankuvamme – ja maailmamme – muutoksesta? Toisaalta on huomattava myös se, että sekä Parolessa että Oulun korpuksessa kahdeksan yleisintä sanaa ovat samoja. Niistä suurin osa on ns. kieliopillisia sanoja, kuten konjunktioita ja pronomineja, eikä ns. sisältösanoja eli substantiiveja, verbejä tai adjektiiveja.

Kappaleita kauneinta suomea?

Kun analysoimme Parolen osakorpuksia, saimme näkyviin sanomalehtien, tietokirjojen ja romaanien välisiä eroja. Jatkossa on mahdollista muodostaa osakorpuksia sanomalehtien eri juttutyypeistä, esimerkiksi uutisista ja mielipideteksteistä. Tällöin saadaan entistä täsmällisempää tietoa kirjoituksen eri tekstilajeista.

Romaaniaineiston kielen kuva poikkeaa selvästi muista analyyseissa saamistamme kielen kuvista. Romaaneissa sanat, lauseet ja virkkeet ovat huomattavasti Parolen sanoja, lauseita ja virkkeitä lyhyemmät.

Välimerkeistä piste ja pilkku ovat romaaneissa vieläkin yleisempiä kuin koko aineistossa. Kaksoispisteitä on huomattavasti vähemmän mutta kysymys- ja huutomerkkejä enemmän.

Merkittävin eri aineistoja erottava tekijä on sanaluokkajakauma. Romaanit poikkeavat kolmesta muusta aineistosta erityisesti siinä, että verbejä on lähes yhtä paljon kuin substantiiveja.

Romaanien maailma näyttää olevan dynaamisempi kuin sanomalehtien ja tietokirjojen. Romaanien maailma on myös selvästi muita tiukemmin sidoksissa konkreettisiin tilanteisiin ja tarinatodellisuuden henkilöihin sekä heidän keskusteluihinsa. Tästä kertoo se, että pronominit minä ja sinä ovat kahdenkymmenen yleisimmän sanan joukossa. Romaaneissa kuvatut tilanteet ovat usein puhetilanteita: verbi sanoa on romaaneissa 11:nneksi yleisin sana.

Tietokirjoissa huomionarvoista on, että sekä ihminen että itse ovat yleisiä. Liian yksioikoista olisi kuitenkin arvella, että tietokirjat tuottavat kuvaa ihmis- ja jopa itsekeskeisestä maailmasta. Liian yksioikoinen voisi niin ikään olla arvio maailmankuvan kotimaa- ja aikakeskeisyydestä, vaikka vuosi onkin sanomalehtien 7:nneksi ja suomi 12:nneksi yleisin sana.

Onko peili vino?

Suuren aineiston automaattisessa analyysissa monenlaiset virheet ovat mahdollisia. Virheitä voi tulla niin aineiston koostamisessa, tekstin automaattisessa jäsennyksessä kuin piirteiden määrittelyssä ja laskennassakin. Erehtyminen on mahdollista myös lukuja ja listoja tulkittaessa sekä päätelmiä tehtäessä.

Yksi ongelma on, kuinka vertailukelpoisia saadut tulokset ovat suhteessa aiempiin tutkimuksiin. Eri tutkimuksissa piirteitä määritellään ja lasketaan eri tavoin: esimerkiksi sen määritteleminen, mikä on lause, aiheuttaa tutkijoille jatkuvasti päänvaivaa. Me päädyimme yksioikoiseen tulkintaan, jonka mukaan lauseiden määrä tekstissä on sama kuin finiittimuotoisten verbien määrä (vrt. esim. Hakulinen ym. 1980). Niinpä esimerkiksi virkkeessä Pekka syö, juo ja makaa on tulkintamme mukaan kolme lausetta (finiittimuodot syö, juo ja makaa).

Jäsentimen luotettavuutta arvioidaksemme otimme Parolesta satunnaisesti tekstikatkelmia ja laskimme jäsennetystä tuhannen sanan otoksesta ne virheet, jotka ovat relevantteja tutkimuksessamme. Jäsennin antoi testiaineiston sanoille yhteensä 1 012 sanaluokkatulkintaa, joista selvästi virheellisiä oli 4,4 prosenttia. Väärän perusmuodon jäsennin antoi 3,8 prosentille sanoista. Verbien finiittimuotojen tulkinnoista 4,8 prosenttia oli vääriä.

Aineiston suuruus tai analyysin automaattisuus eivät luontojaan takaa sitä, että analyysin tulokset ovat täysin luotettavia. Toisaalta monia erhemahdollisuuksia ja spekulaation paikkoja on myös pienempiä aineistoja ihmisvoimin analysoitaessa.

Lähdimme tutkimuksessamme tarkastelemaan sellaisia kielen ja kirjoituksen yleisesti kiinnostavia piirteitä, joiden automaattinen analyysi on kohtalaisen yksiselitteistä (esim. sana- ja virkepituudet). Kielen kuvien rikastamiseksi analysoimme myös moniselitteisempiä piirteitä, kuten sanaluokkajakaumia. Koska teimme eri osa-aineistoille samanlaiset analyysit, tulokset ovat keskenään vertailukelpoisia. Kun tuloksia vertaa aiempiin tutkimuksiin, kannattaa kuitenkin pitää mielessä mainitsemamme vertailukelpoisuutta heikentävät tekijät.

Avoimiksi jätämme nyt kysymykset, minkälaisista ja miten analysoiduista aineistoista mitäkin voi pätevästi ja pitävästi päätellä. Niihin etsitään, kuten tapana on sanoa, vastauksia jatkotutkimuksessa.

Taulukko 1. Keskimääräiset sanapituudet (merkkiä/sana), lausepituudet (sanaa/lause) ja virkepituudet (sanaa/virke) koko Parolessa, sanomalehdissä, tietokirjoissa ja romaaneissa.

  Sana-
pituus
Lause-
pituus
Virke-
pituus
Parole 8,5 6,8 11,1
Sanomalehdet 8,7 7,1 11,2
Tietokirjat 8,8 7,2 12,7
Romaanit 7,4 5,1 9,8

Taulukko 2.Välimerkkijakauma (prosenttia välimerkkitulkinnan saaneista merkeistä) koko Parolessa, sanomalehdissä, tietokirjoissa ja romaaneissa.

  . , : ? ! Muut
Parole 36,3 30,8 9,6 1,1 0,8 21,4
Sanomalehdet 36,9 34,7 12,3 0,6 0,6 14,9
Tietokirjat 41,8 36,6 4,1 0,9 0,2 16,4
Romaanit 42,0 37,5 1,4 3,0 1,5 14,6


Taulukko 3. Sanaluokkajakauma (prosenttia sanaluokkatulkinnan saaneista sanoista) koko Parolessa, sanomalehdissä, tietokirjoissa ja romaaneissa.

  Parole Sanoma-
lehdet
Tieto-
kirjat
Romaanit
Subst:t 42,1 45,0
39,6
29,4
Verbit 22,6 21,6 22,4 28,5
Adj:t 8,8 8,7 10,6 10,6
Adv:t 7,4 7,2 7,0 9,4
Pron:t 7,0 5,4 8,4 13,5
Num:t 3,6 4,1 2,8 0,9
Muut 8,5 8,0 9,2 11,0

Taulukko 4. (PDF)

Kirjoittajat työskentelevät Kotimaisten kielten tutkimuskeskuksesssa.

Kirjallisuutta

Hakulinen, Auli – Karlsson, Fred – Vilkuna, Maria 1980: Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Department of General Linguistics, Helsinki.

Heikkinen, Vesa – Lehtinen, Outi –Lounela, Mikko 2001 (tulossa): Ihminen ja kone tekstiä mankeloimassa, kuusikohtauksinen keskustelu.– Oulun kielitieteen päivien 2000 julkaisu. Oulun yliopisto, Oulu.

Karlsson, Fred 1983: Suomen kielen äänne- ja muotorakenne. WSOY, Porvoo.

Niemikorpi, Antero 1996: Liekepostista tuikeilmaisimeen ja sulhasesta kuraenkeliin. Erikoiskielten rakenteellisesta ja tyylillisestä vaihtelusta. Vaasan yliopisto, Vaasa.

Pääkkönen, Matti 1990: Grafeemit ja konteksti. Tilastotietoja suomen yleiskielen kirjaimistosta. SKS, Helsinki.

Saukkonen, Pauli 1982: Oulun korpus. 1960-luvun suomen yleiskielen tutkimusmateriaali. Suomen ja saamen kielen laitos, Oulun yliopisto, Oulu.

Saukkonen, Pauli 1984: Mistä tyyli syntyy? WSOY, Helsinki.

Saukkonen, Pauli – Haipus, Marjatta – Niemikorpi, Antero – Sulkala, Helena 1979: Suomen kielen taajuussanasto. WSOY, Porvoo.

Vesa Heikkinen
Outi Lehtinen
Mikko Lounela