Käännösmuistista käännösälyyn

Idea käyttää tietokonetta tekstien kääntämiseen on peräisin 1940-luvulta. Konekääntämistä (engl. Machine Translation, MT) on tutkittu 1950-luvulta lähtien eri puolilla maailmaa – aluksi maanpuolustuksen tarpeita varten. Yhdysvalloissa yritettiin kehittää venäjästä englantiin kääntävää automaattista konekäännösjärjestelmää. Olihan kylmä sota käynnistymässä, ja haluttiin ymmärtää vihollisen kieltä. Vaisun 1960-luvun jälkeen konekäännöstutkimus virkistyi Euroopassa ja Kanadassa. Käännekohta on vuosi 1976, jolloin kanadalainen säätiedotuksia kääntävä Méteo-järjestelmä syntyi ja Euroopan komissio otti käyttöön Systran-konekäännösjärjestelmän.

Mutta miksi tietokonetta sitten käytettäisiin kääntämiseen? Ja miksi ihmeessä haluttaisiin sulkea ihminen pois käännösprosessista? Täysin vieraskielisen tekstin ymmärtämisen kannalta käyttö on ilmeinen: saadaan nopeasti ja automaattisesti raakakäännös, josta lähdetekstin idea hahmottuu kielellä, jota itse ymmärtää. Tällaiseen tarpeeseen verkosta löytyvät ”kevyet” käännösohjelmat voivat olla ihan käyttökelpoisia. Mutta laadukkaiden käännösten tekemiseen konekäännös on usein kömpelöhkö ja kallis ratkaisu. Vaikka käytössä olisi hyväkin konekäännösohjelmisto, sen tuottama käännös on yleensä editoitava. Tämä pitää paikkansa varsinkin silloin, jos käännettävä teksti edustaa konekäännösjärjestelmälle vierasta tekstilajia. Koneen tekemien (samankaltaisten) virheiden korjaaminen asiakirjasta toiseen on rasittavaa. Kääntäjästä tulee rutiinivirheiden tarkistaja ja korjaaja.

Ohjelma ehdottaa käännöstä

Käännösmuistitutkimus alkoi 1970-luvulla. 1980-luvulla ilmestyivät käännösmuistiin (engl. Translation Memory, TM) perustuvat ensimmäiset kaupalliset tuotteet, ja 1990-luvulta lähtien käännösmuistiohjelmien käyttö on yleistynyt varsinkin suurissa käännösorganisaatioissa, kuten Euroopan komission käännöspääosastossa.

Perinteinen käännösmuistiohjelma jäsentää, tai segmentoi, käännettävän tekstin erotinmerkkien tai ladontatietojen mukaan virkkeiksi tai virkkeenkaltaisiksi yksiköiksi. Kääntäjän tehtäväksi jää kääntää kyseiset segmentit kohdekielelle, jolloin käännösmuistiohjelma tallentaa lähdekielisen tekstisegmentin ja ihmisen syöttämän käännöksen tietokantaan ns. käännösyksiköksi (engl. translation unit, TU). Kun vastaava lähdekielinen virke tulee vastaan uudessa tekstissä, käännösmuistiohjelma osaa ehdottaa kääntäjälle edellisellä kerralla tehtyä käännöstä. Kääntäjän ei siis tarvitse kääntää samaa virkettä uudestaan.

Käännösmuistiohjelmat ovat hyödyllisiä silloin, kun käännettävä teksti on samankaltaista kerrasta toiseen, esimerkiksi kun käännetään saman pesukonevalmistajan käyttöohjeen uusia versiota. Vaatimus tietenkin on, että käännösmuistiohjelman tietokantaan on jo ehtinyt kerääntyä riittävästi (satoja tuhansia tai jopa yli miljoona) käännösyksiköitä, sillä jos tietokanta on tyhjä, käännösmuistiohjelmisto ei tietenkään osaa ehdottaa yhtään mitään.

Liikkeelle tyhjästä

Perinteinen käännösmuistiohjelma on käyttöönottovaiheessa tyhjä. Tietokannassa ei siis aluksi ole yhtään käännösyksikköä, joten ohjelmasta ei alkuvaiheessa ole kääntäjälle apua. Yleistä tietokantaa (johon sisältyy virkkeenkokoisia käännösyksiköitä) ei myöskään voida toimittaa kaikille asiakkaille käännösmuistiohjelman kanssa, sillä tekstilajittomia virkkeitä on varsin vähän; pesukoneen käyttöohjeessa olevasta virkkeestä tuskin on hyötyä paperitehtaan vuosikertomusta käännettäessä.

Käyttäjälle ei siis jää muuta vaihtoehtoa kuin kartuttaa käännösmuistitietokantaansa itse omista teksteistään. Se on yksinkertaisin ja hitain tapa, ja saattaa kestää vuosia ennen kuin siitä on näkyvää hyötyä. Karttumista voidaan myös jouduttaa käyttämällä aluksi erilaisia työkaluja, joilla omista vanhoista rinnakkaisdokumenteista (lähdekieliset tekstit käännöksineen, engl. parallel texts) saadaan tuotettua erilaisten kohdistusmenetelmien avulla kohtuullisen hyviä käännösyksiköitä tietokantaan. Kolmas vaihtoehto on ostaa kohdistuspalvelu sopivalta palveluntarjoajalta markkinahintaan.

Kahdella jälkimmäisellä vaihtoehdolla saadaan suhteellisen nopeasti tuotettua käyttökelpoinen eli riittävän iso käännösmuistitietokanta, jos rinnakkaisdokumentteja on tallessa sähköisessä muodossa ja jos tietotaitoa tai yhteistyökumppani kohdistamiseen löytyy. Kohdistustyöhön tarvitaan kuitenkin resursseja, siis rahaa tai ihmisiä, joita muuten voisi käyttää käytännön käännöstyöhön.

Hankaluuksia tuottaa myös se, että perinteiset käännösmuistiohjelmat eivät tiedä kielestä mitään – käännösyksikkö on niissä vain kaksi kielikoodilla merkittyä merkkijonoa kiinnitettynä toisiinsa. Se, että käännösmuistiohjelmat eivät perustu kielellisiin rakenteisiin, on sikäli hyvä asia, että se tekee ohjelmista kielistä riippumattomia, jos mahdollisia merkistökoodausongelmia ei huomioida. Mutta se tarkoittaa myös sitä, että käännösmuistiohjelma osaa käyttää uudelleen käännösyksiköitä vain pintatasolla. Jos ohjelmalla olisi kieliälyä, se voisi hyödyntää käännösyksiköitä myös niiden kieliopillisten rakenteiden pohjalta.

Oppisiko kone vertaamaan?

Käännösmuistiohjelmien perusongelmia on pyritty ratkaisemaan mm. suomalaisessa käännösmuistiohjelmassa, joka käyttää ns. käännösälyä (engl. Translation Intelligence). Se ei perustu perinteisissä käännösmuistiohjelmissa käytettyyn virkesidonnaisuuteen. Lähdekielinen tekstisegmentti voi koostua yhdestä sanasta, lausekkesta tai lauseenosasesta tai kokonaisesta virkkeestä. Sopivankokoinen segmentti valitaan tekoälyyn pohjautuvan menetelmän avulla vertaamalla lähdetekstin tarkastelussa olevan virkkeen osia tietämyskannassa (engl. Knowledge Base) jo oleviin rakenteisiin. Tällainen järjestelmä on joustavampi kuin perinteinen käännösmuistiohjelma.

Yleensä neljän viiden sanan kokoisen lauseenosasen on todettu olevan sopivan pituinen segmentti eli sellainen, joka toistuu tekstissä toiseen riittävän usein ja on yksiselitteisesti käännettävissä. Lyhyemmistä, joustavankokoisista käännösyksiköistä koostuva käännösmuistitietokanta voi siis olla monin verroin pienempi kuin perinteisen käännösmuistiohjelman tietokanta ilman että kattavuus (engl. coverage), eli tietokannan avulla käännettävissä oleva uusi teksti, kutistuisi. Näin ollen kattavuus kasvaa paljon tavanomaista käännösmuistia nopeammin.

Perustietämyskannalla heti alkuun

Perinteisen käännösmuistiohjelman tietokannan tyhjyys käyttöönottovaiheessa on käännösälyä käytettäessä ratkaistu siten, että käännösohjelman mukana on valmis perustietämyskanta. Se sisältää käännösmuistitietokannan, joka koostuu joustavankokoisista käännösyksiköistä, sekä sanaston. Koska lyhyemmät segmentit – kuten lauseenosaset ja lausekkeet – eivät ole läheskään yhtä sidottuja tekstilajiin kuin virkkeet, tällaisen yhteisen perustietämyskannan kokoaminen kaikille käyttäjille on mahdollista ja suotavaa. Esimerkkinä voisi mainita segmentin sulje luukku, joka voi esiintyä monessa eri yhteydessä. Sen sijaan lauseen ”Sulje luukku ja avaa vesihana ennen kuin käynnistät pesukoneen” voisi olettaa löytyvän vain ja ainoastaan pesukoneen käsikirjasta.

Ohjelma tehtävän mukaan

Uudessa käännösälyohjelmassa sovelletaan kieliteknologiaa mm. niin, että käännösyksiköiden joustavankokoisia segmenttejä voidaan käyttää myös kieliopillisina käännösrakenteina käännösvastineiden tuottamiseen. Jos ihminen on esimerkiksi kääntänyt lausekkeen ”during the game” suomeksi lausekkeeksi ”pelin aikana”, käännösälyohjelma oppii, että englannin kielessä on rakenne during + the + substantiivi-nominatiivi-yksikkö, joka vastaa suomenkielistä rakennetta substantiivi-genetiivi-yksikkö + aikana. Tätä käännösrakennetta voidaan sitten hyödyntää esimerkiksi lausekkeen ”during the presentation” suomentamiseksi muotoon ”esitelmän aikana” – ja lukemattomien muiden esimerkkien kääntämiseksi englannista suomeen ja myös suomesta englantiin. Perinteisen käännösmuistiohjelman pitäisi tallentaa kaikki nämä yksittäiset pintatason käännökset tietokantaansa pystyäkseen samaan.

Ohjelmassa on lisäksi kevyt konekäännöstoiminto, johon turvaudutaan, kun tietämyskannan käännösyksiköt eivät riitä käännösehdotuksen tuottamiseksi: ohjelma osaa siis aina antaa jonkinlaisen käännösehdotuksen.

Käännösohjelmia, kuten muitakin kieliteknologisia sovelluksia, on helppo moittia, ja näin usein tehdään. Oikolukuohjelmista hakemalla haetaan esiin virheitä, kielioppitarkistimia testataan epätavallisilla lauseilla, ja käännösohjelmiin syötetään mahdollisimman monitulkintaista tekstiä. Ohjelmilla on kuitenkin paikkansa, ja niiden avulla voidaan tehdä tekstin tuottamisesta mielekkäämpää ja tehokkaampaa. Oleellista on, että käyttäjä tietää, mitä eri ohjelmilta voi odottaa, ja valitsee työkalunsa käyttötarpeensa mukaan. Eihän säilyketölkkiäkään normaalisti avata ruuvimeisselillä, vaikka se olisi ihan mahdollista.

Konekäännösohjelma voi olla hyödyllinen vaihtoehto joidenkin tekstilajien isojen tekstimassojen kääntämisessä sekä vieraskielisen tekstin ymmärtämisessä. Perinteinen käännösmuisti taas soveltuu paljon i toistoa sisältävän tekstin (esimerkiksi saman tekstin eri versioiden) kääntämiseen, varsinkin ammattikääntäjien työkaluna isoissa käännösorganisaatioissa. Satunnaiselle kääntäjälle - esimerkiksi pienessä tai keskisuuressa yrityksessä työskentelevälle toimihenkilölle, joka kääntää aika ajoin varsinaisten työtehtäviensä ohella – käännösälyyn perustuva ohjelma sopii hyvin lyhyen sisäänajovaiheensa ja perustietämyskantansa ansiosta.

Kirjoittaja on kieliteknologi, joka toimii suomalaisessa kieliteknologiayrityksessä projektijohtajana.