Kielikello on kielenhuollon tiedotuslehti, jossa
kirjoitetaan kielestä ja kielenkäytön kysymyksistä.
Kielikello on tarkoitettu kaikille kielestä kiinnostuneille.

Kielikello 4/2005

Mickel Grönroos

Käännösmuistista käännösälyyn

Tietokone mullistaa käännösalan. Näin on uskottu jo 60 vuotta. Mutta konekäännösohjelma kääntää vieläkin hyvin vain tiettyjen erikoisalojen tekstejä ja perinteisten käännösmuistienkin hyödyt jäävät vähäisiksi, ellei käännettävä teksti vastaa lähes täsmälleen jo ennestään käännettyä tekstiä. Eikö tietokone olekaan kääntäjän paras ystävä?

---

Idea käyttää tietokonetta tekstien kääntämiseen on peräisin 1940-luvulta. Konekääntämistä (engl. Machine Translation, MT) on tutkittu 1950-luvulta lähtien eri puolilla maailmaa – aluksi maanpuolustuksen tarpeita varten. Yhdysvalloissa yritettiin kehittää venäjästä englantiin kääntävää automaattista konekäännösjärjestelmää. Olihan kylmä sota käynnistymässä, ja haluttiin ymmärtää vihollisen kieltä. Vaisun 1960-luvun jälkeen konekäännöstutkimus virkistyi Euroopassa ja Kanadassa. Käännekohta on vuosi 1976, jolloin kanadalainen säätiedotuksia kääntävä Méteo-järjestelmä syntyi ja Euroopan komissio otti käyttöön Systran-konekäännösjärjestelmän.

Mutta miksi tietokonetta sitten käytettäisiin kääntämiseen? Ja miksi ihmeessä haluttaisiin sulkea ihminen pois käännösprosessista? Täysin vieraskielisen tekstin ymmärtämisen kannalta käyttö on ilmeinen: saadaan nopeasti ja automaattisesti raakakäännös, josta lähdetekstin idea hahmottuu kielellä, jota itse ymmärtää. Tällaiseen tarpeeseen verkosta löytyvät ”kevyet” käännösohjelmat voivat olla ihan käyttökelpoisia. Mutta laadukkaiden käännösten tekemiseen konekäännös on usein kömpelöhkö ja kallis ratkaisu. Vaikka käytössä olisi hyväkin konekäännösohjelmisto, sen tuottama käännös on yleensä editoitava. Tämä pitää paikkansa varsinkin silloin, jos käännettävä teksti edustaa konekäännösjärjestelmälle vierasta tekstilajia. Koneen tekemien (samankaltaisten) virheiden korjaaminen asiakirjasta toiseen on rasittavaa. Kääntäjästä tulee rutiinivirheiden tarkistaja ja korjaaja.

Ohjelma ehdottaa käännöstä

Käännösmuistitutkimus alkoi 1970-luvulla. 1980-luvulla ilmestyivät käännösmuistiin (engl. Translation Memory, TM) perustuvat ensimmäiset kaupalliset tuotteet, ja 1990-luvulta lähtien käännösmuistiohjelmien käyttö on yleistynyt varsinkin suurissa käännösorganisaatioissa, kuten Euroopan komission käännöspääosastossa.

Perinteinen käännösmuistiohjelma jäsentää, tai segmentoi, käännettävän tekstin erotinmerkkien tai ladontatietojen mukaan virkkeiksi tai virkkeenkaltaisiksi yksiköiksi. Kääntäjän tehtäväksi jää kääntää kyseiset segmentit kohdekielelle, jolloin käännösmuistiohjelma tallentaa lähdekielisen tekstisegmentin ja ihmisen syöttämän käännöksen tietokantaan ns. käännösyksiköksi (engl. translation unit, TU). Kun vastaava lähdekielinen virke tulee vastaan uudessa tekstissä, käännösmuistiohjelma osaa ehdottaa kääntäjälle edellisellä kerralla tehtyä käännöstä. Kääntäjän ei siis tarvitse kääntää samaa virkettä uudestaan.

Käännösmuistiohjelmat ovat hyödyllisiä silloin, kun käännettävä teksti on samankaltaista kerrasta toiseen, esimerkiksi kun käännetään saman pesukonevalmistajan käyttöohjeen uusia versiota. Vaatimus tietenkin on, että käännösmuistiohjelman tietokantaan on jo ehtinyt kerääntyä riittävästi (satoja tuhansia tai jopa yli miljoona) käännösyksiköitä, sillä jos tietokanta on tyhjä, käännösmuistiohjelmisto ei tietenkään osaa ehdottaa yhtään mitään.

Liikkeelle tyhjästä

Perinteinen käännösmuistiohjelma on käyttöönottovaiheessa tyhjä. Tietokannassa ei siis aluksi ole yhtään käännösyksikköä, joten ohjelmasta ei alkuvaiheessa ole kääntäjälle apua. Yleistä tietokantaa (johon sisältyy virkkeenkokoisia käännösyksiköitä) ei myöskään voida toimittaa kaikille asiakkaille käännösmuistiohjelman kanssa, sillä tekstilajittomia virkkeitä on varsin vähän; pesukoneen käyttöohjeessa olevasta virkkeestä tuskin on hyötyä paperitehtaan vuosikertomusta käännettäessä.

Käyttäjälle ei siis jää muuta vaihtoehtoa kuin kartuttaa käännösmuistitietokantaansa itse omista teksteistään. Se on yksinkertaisin ja hitain tapa, ja saattaa kestää vuosia ennen kuin siitä on näkyvää hyötyä. Karttumista voidaan myös jouduttaa käyttämällä aluksi erilaisia työkaluja, joilla omista vanhoista rinnakkaisdokumenteista (lähdekieliset tekstit käännöksineen, engl. parallel texts) saadaan tuotettua erilaisten kohdistusmenetelmien avulla kohtuullisen hyviä käännösyksiköitä tietokantaan. Kolmas vaihtoehto on ostaa kohdistuspalvelu sopivalta palveluntarjoajalta markkinahintaan.

Kahdella jälkimmäisellä vaihtoehdolla saadaan suhteellisen nopeasti tuotettua käyttökelpoinen eli riittävän iso käännösmuistitietokanta, jos rinnakkaisdokumentteja on tallessa sähköisessä muodossa ja jos tietotaitoa tai yhteistyökumppani kohdistamiseen löytyy. Kohdistustyöhön tarvitaan kuitenkin resursseja, siis rahaa tai ihmisiä, joita muuten voisi käyttää käytännön käännöstyöhön.

Hankaluuksia tuottaa myös se, että perinteiset käännösmuistiohjelmat eivät tiedä kielestä mitään – käännösyksikkö on niissä vain kaksi kielikoodilla merkittyä merkkijonoa kiinnitettynä toisiinsa. Se, että käännösmuistiohjelmat eivät perustu kielellisiin rakenteisiin, on sikäli hyvä asia, että se tekee ohjelmista kielistä riippumattomia, jos mahdollisia merkistökoodausongelmia ei huomioida. Mutta se tarkoittaa myös sitä, että käännösmuistiohjelma osaa käyttää uudelleen käännösyksiköitä vain pintatasolla. Jos ohjelmalla olisi kieliälyä, se voisi hyödyntää käännösyksiköitä myös niiden kieliopillisten rakenteiden pohjalta.

Oppisiko kone vertaamaan?

Käännösmuistiohjelmien perusongelmia on pyritty ratkaisemaan mm. suomalaisessa käännösmuistiohjelmassa, joka käyttää ns. käännösälyä (engl. Translation Intelligence). Se ei perustu perinteisissä käännösmuistiohjelmissa käytettyyn virkesidonnaisuuteen. Lähdekielinen tekstisegmentti voi koostua yhdestä sanasta, lausekkesta tai lauseenosasesta tai kokonaisesta virkkeestä. Sopivankokoinen segmentti valitaan tekoälyyn pohjautuvan menetelmän avulla vertaamalla lähdetekstin tarkastelussa olevan virkkeen osia tietämyskannassa (engl. Knowledge Base) jo oleviin rakenteisiin. Tällainen järjestelmä on joustavampi kuin perinteinen käännösmuistiohjelma.

Yleensä neljän viiden sanan kokoisen lauseenosasen on todettu olevan sopivan pituinen segmentti eli sellainen, joka toistuu tekstissä toiseen riittävän usein ja on yksiselitteisesti käännettävissä. Lyhyemmistä, joustavankokoisista käännösyksiköistä koostuva käännösmuistitietokanta voi siis olla monin verroin pienempi kuin perinteisen käännösmuistiohjelman tietokanta ilman että kattavuus (engl. coverage), eli tietokannan avulla käännettävissä oleva uusi teksti, kutistuisi. Näin ollen kattavuus kasvaa paljon tavanomaista käännösmuistia nopeammin.

Perustietämyskannalla heti alkuun

Perinteisen käännösmuistiohjelman tietokannan tyhjyys käyttöönottovaiheessa on käännösälyä käytettäessä ratkaistu siten, että käännösohjelman mukana on valmis perustietämyskanta. Se sisältää käännösmuistitietokannan, joka koostuu joustavankokoisista käännösyksiköistä, sekä sanaston. Koska lyhyemmät segmentit – kuten lauseenosaset ja lausekkeet – eivät ole läheskään yhtä sidottuja tekstilajiin kuin virkkeet, tällaisen yhteisen perustietämyskannan kokoaminen kaikille käyttäjille on mahdollista ja suotavaa. Esimerkkinä voisi mainita segmentin sulje luukku, joka voi esiintyä monessa eri yhteydessä. Sen sijaan lauseen ”Sulje luukku ja avaa vesihana ennen kuin käynnistät pesukoneen” voisi olettaa löytyvän vain ja ainoastaan pesukoneen käsikirjasta.

Ohjelma tehtävän mukaan

Uudessa käännösälyohjelmassa sovelletaan kieliteknologiaa mm. niin, että käännösyksiköiden joustavankokoisia segmenttejä voidaan käyttää myös kieliopillisina käännösrakenteina käännösvastineiden tuottamiseen. Jos ihminen on esimerkiksi kääntänyt lausekkeen ”during the game” suomeksi lausekkeeksi ”pelin aikana”, käännösälyohjelma oppii, että englannin kielessä on rakenne during + the + substantiivi-nominatiivi-yksikkö, joka vastaa suomenkielistä rakennetta substantiivi-genetiivi-yksikkö + aikana. Tätä käännösrakennetta voidaan sitten hyödyntää esimerkiksi lausekkeen ”during the presentation” suomentamiseksi muotoon ”esitelmän aikana” – ja lukemattomien muiden esimerkkien kääntämiseksi englannista suomeen ja myös suomesta englantiin. Perinteisen käännösmuistiohjelman pitäisi tallentaa kaikki nämä yksittäiset pintatason käännökset tietokantaansa pystyäkseen samaan.

Ohjelmassa on lisäksi kevyt konekäännöstoiminto, johon turvaudutaan, kun tietämyskannan käännösyksiköt eivät riitä käännösehdotuksen tuottamiseksi: ohjelma osaa siis aina antaa jonkinlaisen käännösehdotuksen.

Käännösohjelmia, kuten muitakin kieliteknologisia sovelluksia, on helppo moittia, ja näin usein tehdään. Oikolukuohjelmista hakemalla haetaan esiin virheitä, kielioppitarkistimia testataan epätavallisilla lauseilla, ja käännösohjelmiin syötetään mahdollisimman monitulkintaista tekstiä. Ohjelmilla on kuitenkin paikkansa, ja niiden avulla voidaan tehdä tekstin tuottamisesta mielekkäämpää ja tehokkaampaa. Oleellista on, että käyttäjä tietää, mitä eri ohjelmilta voi odottaa, ja valitsee työkalunsa käyttötarpeensa mukaan. Eihän säilyketölkkiäkään normaalisti avata ruuvimeisselillä, vaikka se olisi ihan mahdollista.

Konekäännösohjelma voi olla hyödyllinen vaihtoehto joidenkin tekstilajien isojen tekstimassojen kääntämisessä sekä vieraskielisen tekstin ymmärtämisessä. Perinteinen käännösmuisti taas soveltuu paljon i toistoa sisältävän tekstin (esimerkiksi saman tekstin eri versioiden) kääntämiseen, varsinkin ammattikääntäjien työkaluna isoissa käännösorganisaatioissa. Satunnaiselle kääntäjälle - esimerkiksi pienessä tai keskisuuressa yrityksessä työskentelevälle toimihenkilölle, joka kääntää aika ajoin varsinaisten työtehtäviensä ohella – käännösälyyn perustuva ohjelma sopii hyvin lyhyen sisäänajovaiheensa ja perustietämyskantansa ansiosta.

Kirjoittaja on kieliteknologi, joka toimii suomalaisessa kieliteknologiayrityksessä projektijohtajana.




Kielikello 4/2005
Alkuun

Jaa

Lehdet »

Anna palautetta »

Kotimaisten kielten keskus


Tilaa uusi Kielikello!
Kielikello siirtyy kokonaan verkkojulkaisuksi (osoite edelleen www.kielikello.fi) vuoden 2018 alussa, kun painetun lehden julkaiseminen loppuu. Uusi verkkolehti on ilmainen.

Kielikello ilmestyy verkossakin neljästi vuodessa, ensimmäisen kerran helmi-maaliskuussa 2018. Varsinaisten lehden numeroiden ilmestymisen välissä voidaan julkaista ajankohtaisia havaintoja, vastauksia kysymyksiin tai muuta juuri sillä hetkellä kielikeskustelussa pinnalla olevaa aineistoa.

Jos haluat sähköpostiisi tiedon Kielikellon ilmestymisestä tai julkaistusta uudesta sisällöstä, osoitteessa www.kotus.fi/tilaakielikello on lomake, jolla voit ilmoittaa sähköpostiosoitteesi.

Tervetuloa mukaan Kielikellon lukijajoukkoon!

Suomen kielen lautakunta

Suomen kielen lautakunnan suosituksia ja kannanottoja

Yhteiskunta tarvitsee kaksipäiväisen äidinkielen ylioppilaskokeen (2/2017)
Evankelisluterilainen vai evankelis-luterilainen? (2/2016)



Lue lisää

Julkaisut

13.6.2017
Kielitoimiston oikeinkirjoitusoppaasta uusi painos

Kielitoimiston oikeinkirjoitusoppaasta on maaliskuussa 2017 ilmestynyt 13., korjattu painos.

Kielitoimisto kouluttaa

13.6.2017
Kesä marraskuussakin!

Kielenhuollon kesäpäivät 15.–16.11.2017

 

Ajankohtaista

3.10.2017
Kielitoimisto Facebookissa

Kielitoimisto on avannut oman Facebook-sivunsa.

30.6.2017
Lähetä kielihavaintosi Kielitoimistoon!

Kielitoimisto kerää kielenkäyttäjiltä havaintoja yleiskielestä.

Lisää ajankohtaisia »