Kielikello on kielenhuollon tiedotuslehti, jossa
kirjoitetaan kielestä ja kielenkäytön kysymyksistä.
Kielikello on tarkoitettu kaikille kielestä kiinnostuneille.

Kielikello 2/2009

Kimmo Koskenniemi

Kieliteknologia ja suomen kieli

Kielipoliittinen toimintaohjelma Suomen kielen tulevaisuus käsittelee kielen asemaa yhteiskunnan eri aloilla. Seuraavassa on tiivistetty katsaus ohjelman kieliteknologia-alueeseen.

Kieliteknologialla tarkoitetaan niitä keinoja, joilla tietokone saadaan käsittelemään ihmiskieltä, ymmärtämään sitä ja jopa tuottamaan sitä. Tällainen tekniikka leviää nopeasti ja tulee yhä kiinteämmäksi osaksi arkipäiväämme. Suomen kielen käyttökelpoisuus uusien teknisten sovellusten kielenä säilyy, jos Suomi on mukana kieliteknologian kehityksessä.

viiva.gif

Kieliteknologiaa tarvitaan, jotta tietokoneella olisi mahdollista tunnistaa ja tuottaa kieltä. Konetta ei ehkä täysin saa ymmärtämään kieltä, mutta tavoitteena on, että se esimerkiksi tunnistaa taivutetuista sananmuodoista, millaisia muotoja ne ovat ja mikä on niiden perusmuoto. Sanoista muodostuu lauseita, joista koneen tulee tunnistaa tekstin syntaktista rakennetta: mitkä sanat määrittävät toisiaan ja miten. Koneen tulisi osata taivuttaa sanoja ja muodostaa niistä kieliopillisesti oikeita lauseita ja virkkeitä. Kirjoitetun kielen lisäksi koneen tulisi tunnistaa myös ihmisten puhumaa kieltä ja tuottaa ihmiselle ymmärrettävää puhetta.

Kieliteknologian tyypillisiä sovelluksia ovat erilaiset kirjoittajan apuvälineet kuten tekstinkäsittelyohjelmiin liitetyt oikeinkirjoituksen tarkistimet ja tavutusalgoritmit. Arjen työtä helpottavia ovat myös kääntäjiä hyödyttävät kielenkääntämisen apuvälineet ja terminologiset työkalut, esimerkiksi sähköiset sanakirjat ja käännösmuistit. Myös kielten oppimisessa ja opettamisessa käytetään kieliteknologiaa. Suomea opiskelevalle ovat hyödyllisiä mm. lukijaa avustavat välineet, joilla pystyy ymmärtämään tekstiä puutteellisesta kielitaidosta huolimatta. Väsymätön kone voi auttaa oppilasta sanaston ymmärtämisessä, sanojen taipumisessa ja ääntämisessä. Monille kielille on kehitetty myös tietokonepelejä, jotka auttavat kielen rakenteen ja kieliopillisten käsitteiden kuten sanaluokkien ja lauseenjäsenten oppimisessa. Tulevaisuuden arkea ovat myös puhetta tunnistavat ja tuottavat järjestelmät, joiden avulla voi esimerkiksi tilata lippuja tai tiedustella aikatauluja.

Kieliteknologia ja kielen säilyminen

Kieliteknologian kehittäminen on välttämätöntä, jotta kieli säilyisi käyttökelpoisena kaikissa niissä tehtävissä, joita nykyaikainen yhteiskunta sille asettaa. Jos kieltä ei voi käyttää kaikissa päivittäisissä toiminnoissa, se menettää tilaa käyttökelpoisemmalle kielelle ja sen arvostus heikkenee. Imagonsa menettänyt kieli tai murre on vaarassa syrjäytyä suhteellisen nopeasti. Kieliteknologian kehittäminen ei ole ongelma suurille kieliyhteisöille, sillä niissä alan liiketoiminta on kannattavaa. Tällaisista kielistä on myös saatavilla laajoja kieliresursseja eli kieliaineistoja: tekstikorpuksia, puheaineistoja, tietokonemuotoisia sanakirjoja sekä ennen kaikkea valmiiksi lause- ja muoto-opillisesti analysoituja aineistoja eli ns. puupankkeja. Ilman tällaisia kieliaineistoja kieliteknologisten sovellusten kehittäminen ei ole mahdollista.

Jotkin pienehköt kieliyhteisöt, esimerkiksi saamelaiset, ovat ymmärtäneet kieliteknologian kehittämisen tärkeyden, ja niissä on ryhdytty toimiin. Väliinputoajia ovatkin monet keskikokoiset kieliyhteisöt, kuten Pohjoismaiden valtakielten yhteisöt. Ne eivät ole tunteneet asemaansa uhatuksi ja ovat olleet passiivisempia. Keskikokoisissakaan kieliyhteisöissä kieliteknologian kehittäminen ei onnistu ilman yhteiskunnan tukea. Kielestä riippumatta kieliteknologian ja sen edellyttämien kieliaineistojen kehittäminen on kallista, eivätkä pienet markkina-alueet kykene tuottamaan kaupallisia sovelluksia ilman tukea. Kansainväliset yritykset eivät kustanna pienten maiden kieliteknologian kehitystä mutta ottavat useinkin sitä mieluusti käyttöön, jos sitä on tarjolla.

Kieliaineistojen tarve

Kieliteknologian kehittämisen yhteys kielten käyttökelpoisena säilymiseen on ymmärretty Euroopassa yleisesti. Alan toimijoiden kesken on kehitetty käsite kielen hengissä säilymisen välineistö (Basic Language Resource Kit) eli BLARK. Se määrittelee sellaiset digitaalisessa muodossa olevat kieliaineistot, joiden saatavuus on ehdottoman tärkeää kieliteknologian kehittämiseksi ja siten kielen käytettävyyden tukemiseksi. Tällaisia  aineistoja ovat mm. annotoidut eli merkatut aineistot, joissa tekstiin on lisätty koodeja (esim. lauseenjäseniä  ja sanojen taivutusmuotoja koskevia), ja laajat, yleensä miljardien saneiden mittaiset tekstikorpukset. Tarvitaan myös puhekorpuksia sekä multimodaalisia korpuksia, joissa puheen lisäksi tarkkaillaan keskustelijoiden eleitä ja muita nonverbaalisia keinoja.

Digitaalisia aineistoja tarvitaan rakennettaessa kieliteknologisia ohjelmia eli kielimoduuleja, joita BLARK mainitsee 43. Niitä ovat esimerkiksi jäsentimet, jotka tunnistavat taivutetun sanan perusmuodon ja päättelevät, millaisista lausekkeista tekstin virkkeet koostuvat, paikantavat tekstistä termeiksi tulkittavia sanoja ja lausekkeita tai etsivät henkilöiden, yritysten tai tuotteiden nimiä tekstivirrasta. Kielimoduulien avulla voidaan rakentaa varsinaisia sovellusohjelmia vaikkapa kielenopetuksen tai kääntämisen avuksi.

Suomesta puuttuu monia tärkeitä BLARKin määrittelemiä kieliaineistoja.  Etenkään kieliopillisesti merkattuja tekstiaineistoja (puupankkeja) ei ole juuri lainkaan. Myös digitaalisia sanakirjoja on niukasti, samoin puhe- ja keskusteluaineistoja. Tesauruksia, jotka suhteuttavat samanmerkityksisiä sanoja ja niiden ylä- ja alakäsitteitä toisiinsa, ei ole tehty suomea varten lainkaan.

Yksi keskeinen este suomen kieliteknologian kehittymiselle on vapaasti käytettävien digitaalisten sanakirja-aineistojen vähyys. Kaupallisesti toimitettuja sanakirjoja ei luovuteta helposti edes tutkimuksen käyttöön. Myös julkisin varoin rahoitetuille sanakirjoille käy usein samoin, sillä teoksen kustantaja saa yksinoikeuksia, jotka käytännössä estävät sanakirjamateriaalin muun hyödyntämisen. Merkittävä este on myös Suomen ankara tekijänoikeuslainsäädäntö, joka rajoittaa 1900-luvun ja sitä myöhempien tekstien tutkimuskäyttöä.

Suomen kielen toimintaohjelma suosittaakin, että rahoittajien pitäisi omaksua käytäntö, joka mahdollistaa  hankkeissa syntyvien digitaalisten aineistojen saamisen tutkijoiden yhteiseen käyttöön. Vastaava käytäntö tulisi edellyttää kaikilta julkisrahoitteisilta sanakirjoilta ja niiden kaltaisilta aineistoilta. Myös Suomen tekijänoikeuslainsäädäntöä pitäisi muuttaa niin, että se sallisi aineistojen käytön sellaisiin tarkoituksiin, jotka eivät loukkaa oikeuksien haltijan ensisijaisia taloudellisia intressejä.

Mitä on tekeillä?

 Kieliteknologian kehittämisen tärkeys on tiedostettu myös Euroopan unionissa, jossa on perustettu infrastruktuurihanke CLARIN (Common Language Resources and Technologies Infrastucture). Se pyrkii parantamaan eri kielten kieliaineistojen saatavuutta, yhteensopivuutta ja käytettävyyttä. Hanke liittyy Euroopan unionin tavoitteeseen tukea kansallisten kielten säilymistä ja monikielisyyttä.

Suomessa puolestaan on perustettu ns. kieliresurssikonsortio eli FIN-CLARIN, jonka tavoitteena on  rakentaa kansallinen kieliaineistojen infrastruktuuri. Mukana ovat Kotimaisten kielten tutkimuskeskus, Tieteen tietotekniikan keskus CSC sekä Helsingin, Tampereen, Joensuun, Oulun ja Jyväskylän yliopistot. Kieliaineistot on tarkoitus sijoittaa kansalliseen kielipankkiin CSC:n yhteyteen siten, että ne ovat helposti löydettävissä ja käytettävissä. Kieliaineistojen aikaansaaminen on tärkeää, sillä ne parantaisivat suuresti suomen kielen kieliteknologian, kielentutkimuksen ja kielenhuollon mahdollisuuksia kehittyä. Tällöin ne voisivat myös tukea suomen kielen säilymistä elinvoimaisena.

 

Kirjoitus perustuu teoksen Suomen kielen tulevaisuus lukuun 6, jonka on Kielikelloon lyhentänyt ja muokannut Sari Maamies.




Kielikello 2/2009
Alkuun

Jaa

Lehdet »

Anna palautetta »

Kotimaisten kielten keskus


Tilaa uusi Kielikello!
Kielikello siirtyy kokonaan verkkojulkaisuksi (osoite edelleen www.kielikello.fi) vuoden 2018 alussa, kun painetun lehden julkaiseminen loppuu. Uusi verkkolehti on ilmainen.

Kielikello ilmestyy verkossakin neljästi vuodessa, ensimmäisen kerran helmi-maaliskuussa 2018. Varsinaisten lehden numeroiden ilmestymisen välissä voidaan julkaista ajankohtaisia havaintoja, vastauksia kysymyksiin tai muuta juuri sillä hetkellä kielikeskustelussa pinnalla olevaa aineistoa.

Jos haluat sähköpostiisi tiedon Kielikellon ilmestymisestä tai julkaistusta uudesta sisällöstä, osoitteessa www.kotus.fi/tilaakielikello on lomake, jolla voit ilmoittaa sähköpostiosoitteesi.

Tervetuloa mukaan Kielikellon lukijajoukkoon!

Suomen kielen lautakunta

Suomen kielen lautakunnan suosituksia ja kannanottoja

Yhteiskunta tarvitsee kaksipäiväisen äidinkielen ylioppilaskokeen (2/2017)
Evankelisluterilainen vai evankelis-luterilainen? (2/2016)



Lue lisää

Julkaisut

13.6.2017
Kielitoimiston oikeinkirjoitusoppaasta uusi painos

Kielitoimiston oikeinkirjoitusoppaasta on maaliskuussa 2017 ilmestynyt 13., korjattu painos.

Kielitoimisto kouluttaa

13.6.2017
Kesä marraskuussakin!

Kielenhuollon kesäpäivät 15.–16.11.2017

 

Ajankohtaista

3.10.2017
Kielitoimisto Facebookissa

Kielitoimisto on avannut oman Facebook-sivunsa.

30.6.2017
Lähetä kielihavaintosi Kielitoimistoon!

Kielitoimisto kerää kielenkäyttäjiltä havaintoja yleiskielestä.

Lisää ajankohtaisia »