Kieliteknologia ja suomen kieli
Artikkeli 2/2009

Kimmo Koskenniemi

Kieliteknologia ja suomen kieli

Kieliteknologialla tarkoitetaan niitä keinoja, joilla tietokone saadaan käsittelemään ihmiskieltä, ymmärtämään sitä ja jopa tuottamaan sitä. Tällainen tekniikka leviää nopeasti ja tulee yhä kiinteämmäksi osaksi arkipäiväämme. Suomen kielen käyttökelpoisuus uusien teknisten sovellusten kielenä säilyy, jos Suomi on mukana kieliteknologian kehityksessä.

Kielipoliittinen toimintaohjelma Suomen kielen tulevaisuus käsittelee kielen asemaa yhteiskunnan eri aloilla. Seuraavassa on tiivistetty katsaus ohjelman kieliteknologia-alueeseen.

 

Kieliteknologiaa tarvitaan, jotta tietokoneella olisi mahdollista tunnistaa ja tuottaa kieltä. Konetta ei ehkä täysin saa ymmärtämään kieltä, mutta tavoitteena on, että se esimerkiksi tunnistaa taivutetuista sananmuodoista, millaisia muotoja ne ovat ja mikä on niiden perusmuoto. Sanoista muodostuu lauseita, joista koneen tulee tunnistaa tekstin syntaktista rakennetta: mitkä sanat määrittävät toisiaan ja miten. Koneen tulisi osata taivuttaa sanoja ja muodostaa niistä kieliopillisesti oikeita lauseita ja virkkeitä. Kirjoitetun kielen lisäksi koneen tulisi tunnistaa myös ihmisten puhumaa kieltä ja tuottaa ihmiselle ymmärrettävää puhetta.

Kieliteknologian tyypillisiä sovelluksia ovat erilaiset kirjoittajan apuvälineet kuten tekstinkäsittelyohjelmiin liitetyt oikeinkirjoituksen tarkistimet ja tavutusalgoritmit. Arjen työtä helpottavia ovat myös kääntäjiä hyödyttävät kielenkääntämisen apuvälineet ja terminologiset työkalut, esimerkiksi sähköiset sanakirjat ja käännösmuistit. Myös kielten oppimisessa ja opettamisessa käytetään kieliteknologiaa. Suomea opiskelevalle ovat hyödyllisiä mm. lukijaa avustavat välineet, joilla pystyy ymmärtämään tekstiä puutteellisesta kielitaidosta huolimatta. Väsymätön kone voi auttaa oppilasta sanaston ymmärtämisessä, sanojen taipumisessa ja ääntämisessä. Monille kielille on kehitetty myös tietokonepelejä, jotka auttavat kielen rakenteen ja kieliopillisten käsitteiden kuten sanaluokkien ja lauseenjäsenten oppimisessa. Tulevaisuuden arkea ovat myös puhetta tunnistavat ja tuottavat järjestelmät, joiden avulla voi esimerkiksi tilata lippuja tai tiedustella aikatauluja.

Kieliteknologia ja kielen säilyminen

Kieliteknologian kehittäminen on välttämätöntä, jotta kieli säilyisi käyttökelpoisena kaikissa niissä tehtävissä, joita nykyaikainen yhteiskunta sille asettaa. Jos kieltä ei voi käyttää kaikissa päivittäisissä toiminnoissa, se menettää tilaa käyttökelpoisemmalle kielelle ja sen arvostus heikkenee. Imagonsa menettänyt kieli tai murre on vaarassa syrjäytyä suhteellisen nopeasti. Kieliteknologian kehittäminen ei ole ongelma suurille kieliyhteisöille, sillä niissä alan liiketoiminta on kannattavaa. Tällaisista kielistä on myös saatavilla laajoja kieliresursseja eli kieliaineistoja: tekstikorpuksia, puheaineistoja, tietokonemuotoisia sanakirjoja sekä ennen kaikkea valmiiksi lause- ja muoto-opillisesti analysoituja aineistoja eli ns. puupankkeja. Ilman tällaisia kieliaineistoja kieliteknologisten sovellusten kehittäminen ei ole mahdollista.

Jotkin pienehköt kieliyhteisöt, esimerkiksi saamelaiset, ovat ymmärtäneet kieliteknologian kehittämisen tärkeyden, ja niissä on ryhdytty toimiin. Väliinputoajia ovatkin monet keskikokoiset kieliyhteisöt, kuten Pohjoismaiden valtakielten yhteisöt. Ne eivät ole tunteneet asemaansa uhatuksi ja ovat olleet passiivisempia. Keskikokoisissakaan kieliyhteisöissä kieliteknologian kehittäminen ei onnistu ilman yhteiskunnan tukea. Kielestä riippumatta kieliteknologian ja sen edellyttämien kieliaineistojen kehittäminen on kallista, eivätkä pienet markkina-alueet kykene tuottamaan kaupallisia sovelluksia ilman tukea. Kansainväliset yritykset eivät kustanna pienten maiden kieliteknologian kehitystä mutta ottavat useinkin sitä mieluusti käyttöön, jos sitä on tarjolla.

Kieliaineistojen tarve

Kieliteknologian kehittämisen yhteys kielten käyttökelpoisena säilymiseen on ymmärretty Euroopassa yleisesti. Alan toimijoiden kesken on kehitetty käsite kielen hengissä säilymisen välineistö (Basic Language Resource Kit) eli BLARK. Se määrittelee sellaiset digitaalisessa muodossa olevat kieliaineistot, joiden saatavuus on ehdottoman tärkeää kieliteknologian kehittämiseksi ja siten kielen käytettävyyden tukemiseksi. Tällaisia  aineistoja ovat mm. annotoidut eli merkatut aineistot, joissa tekstiin on lisätty koodeja (esim. lauseenjäseniä  ja sanojen taivutusmuotoja koskevia), ja laajat, yleensä miljardien saneiden mittaiset tekstikorpukset. Tarvitaan myös puhekorpuksia sekä multimodaalisia korpuksia, joissa puheen lisäksi tarkkaillaan keskustelijoiden eleitä ja muita nonverbaalisia keinoja.

Digitaalisia aineistoja tarvitaan rakennettaessa kieliteknologisia ohjelmia eli kielimoduuleja, joita BLARK mainitsee 43. Niitä ovat esimerkiksi jäsentimet, jotka tunnistavat taivutetun sanan perusmuodon ja päättelevät, millaisista lausekkeista tekstin virkkeet koostuvat, paikantavat tekstistä termeiksi tulkittavia sanoja ja lausekkeita tai etsivät henkilöiden, yritysten tai tuotteiden nimiä tekstivirrasta. Kielimoduulien avulla voidaan rakentaa varsinaisia sovellusohjelmia vaikkapa kielenopetuksen tai kääntämisen avuksi.

Suomesta puuttuu monia tärkeitä BLARKin määrittelemiä kieliaineistoja.  Etenkään kieliopillisesti merkattuja tekstiaineistoja (puupankkeja) ei ole juuri lainkaan. Myös digitaalisia sanakirjoja on niukasti, samoin puhe- ja keskusteluaineistoja. Tesauruksia, jotka suhteuttavat samanmerkityksisiä sanoja ja niiden ylä- ja alakäsitteitä toisiinsa, ei ole tehty suomea varten lainkaan.

Yksi keskeinen este suomen kieliteknologian kehittymiselle on vapaasti käytettävien digitaalisten sanakirja-aineistojen vähyys. Kaupallisesti toimitettuja sanakirjoja ei luovuteta helposti edes tutkimuksen käyttöön. Myös julkisin varoin rahoitetuille sanakirjoille käy usein samoin, sillä teoksen kustantaja saa yksinoikeuksia, jotka käytännössä estävät sanakirjamateriaalin muun hyödyntämisen. Merkittävä este on myös Suomen ankara tekijänoikeuslainsäädäntö, joka rajoittaa 1900-luvun ja sitä myöhempien tekstien tutkimuskäyttöä.

Suomen kielen toimintaohjelma suosittaakin, että rahoittajien pitäisi omaksua käytäntö, joka mahdollistaa  hankkeissa syntyvien digitaalisten aineistojen saamisen tutkijoiden yhteiseen käyttöön. Vastaava käytäntö tulisi edellyttää kaikilta julkisrahoitteisilta sanakirjoilta ja niiden kaltaisilta aineistoilta. Myös Suomen tekijänoikeuslainsäädäntöä pitäisi muuttaa niin, että se sallisi aineistojen käytön sellaisiin tarkoituksiin, jotka eivät loukkaa oikeuksien haltijan ensisijaisia taloudellisia intressejä.

Mitä on tekeillä?

 Kieliteknologian kehittämisen tärkeys on tiedostettu myös Euroopan unionissa, jossa on perustettu infrastruktuurihanke CLARIN (Common Language Resources and Technologies Infrastucture). Se pyrkii parantamaan eri kielten kieliaineistojen saatavuutta, yhteensopivuutta ja käytettävyyttä. Hanke liittyy Euroopan unionin tavoitteeseen tukea kansallisten kielten säilymistä ja monikielisyyttä.

Suomessa puolestaan on perustettu ns. kieliresurssikonsortio eli FIN-CLARIN, jonka tavoitteena on  rakentaa kansallinen kieliaineistojen infrastruktuuri. Mukana ovat Kotimaisten kielten tutkimuskeskus, Tieteen tietotekniikan keskus CSC sekä Helsingin, Tampereen, Joensuun, Oulun ja Jyväskylän yliopistot. Kieliaineistot on tarkoitus sijoittaa kansalliseen kielipankkiin CSC:n yhteyteen siten, että ne ovat helposti löydettävissä ja käytettävissä. Kieliaineistojen aikaansaaminen on tärkeää, sillä ne parantaisivat suuresti suomen kielen kieliteknologian, kielentutkimuksen ja kielenhuollon mahdollisuuksia kehittyä. Tällöin ne voisivat myös tukea suomen kielen säilymistä elinvoimaisena.

 

Kirjoitus perustuu teoksen Suomen kielen tulevaisuus lukuun 6, jonka on Kielikelloon lyhentänyt ja muokannut Sari Maamies.

Kimmo Koskenniemi