Kotoistushanke laajenee sekä sisällöltään että toteutusalustoiltaan
Artikkeli 2/2014

Erkki Kolehmainen

Kotoistushanke laajenee sekä sisällöltään että toteutusalustoiltaan

Kotoistushankkeen ja sen kansainvälisen isovelihankkeen (Unicoden Common Locale Data Repository, CLDR) tavoitteena on tuoda tietojärjestelmissä toteutettavat käytänteet ja terminologia mahdollisimman lähelle sitä, mihin käyttäjät ovat omassa kieli- ja kulttuuriympäristössään tottuneet. Kansainvälisessä hankkeessa ovat nyt mukana kaikki merkittävät ohjelmistoyritykset, kun myös Microsoft osallistuu tästä lähtien kansainväliseen CLDR-kehitykseen. Tähänkin asti Microsoft on pääsääntöisesti toteuttanut antamamme suomea koskevat suositukset.

Kotoistushanke on osallistunut CLDR:n ohella moniin eri tietotekniikan standardointiprojekteihin. Alussa hanke keskittyi suomenkielisen käyttäjäkunnan tarpeisiin, mutta nykyisin se kattaa myös suomenruotsin. Tänä keväänä hankkeessa tuettuihin kieliin oli tarkoitus lisätä myös Suomessa puhutut saamen kielet. Tässä on osittain onnistuttukin EU:n tukeman, yhteispohjoismaisen Sámi Giellagaldu ‑projektin ansiosta, etenkin pohjoissaamen osalta. Sen sijaan inarinsaamen tiedot ovat vielä perin puutteelliset ja koltansaamen tiedot puuttuvat kokonaan. Projektin jatkosta kansallisella tasolla ei ole varmuutta.

Lähes kaikissa tietojärjestelmissä on nykyisin toteutettu ns. universaalimerkistö, johon kuuluu jo yli 100 000 merkkiä kaikkiaan noin sadasta eri kirjoitusjärjestelmästä. Näillä pystytään käsittelemään yhdessä mitä tahansa monikielistä aineistoa. Toteutusten hallittavuus paranee kuitenkin sillä, että merkistö ryhmitellään loogisiin osiin. Niinpä esimerkiksi suomen kielelle on määritelty niin sanottu perusmerkistö, jonka kirjaimet tarvitaan suomenkielisen tekstin oikein kirjoitusta varten. Tähän perusmerkistöön (abcdefghijklmnopqrsštuvwxyzžåäö) tai sen lajittelujärjestykseen (nykyisin v ja w erikseen, mutta s ja š sekä z ja ž yhteen) ei ehdoteta muutoksia. Sen sijaan Kotoistushankkeen ohjausryhmä ehdottaa nyt laajennettavaksi lisämerkistöä, jota tarvitaan muun muassa vieraskielisten nimien kirjoittamiseen sanomalehdissä ja esimerkiksi väestörekisterissä.

Uudeksi lisämerkistöksi ehdotetaan valikoitua osajoukkoa vuonna 2008 vahvistetun kansallisen näppäimistöstandardin SFS 5966 tukemasta kirjainvalikoimasta. Tähän valikoimaan kuuluvat latinalaisaakkosin kirjoitettujen EU-kielten ja rajoitetusti EU-asioihin hyväksyttyjen alueellisten ja vähemmistökielten nykykäytössä olevat kirjaimet sekä muita kirjoitusjärjestelmiä käyttävien EU-kielten (bulgaria ja kreikka) latinaistamiseen tarvittavat kirjaimet. Näiden lisäksi valikoimaan kuuluvat EU:n ulkopuolisten pohjoismaisten pääkielten (norja ja islanti) ja alueellisten ja kansallisten vähemmistökielten kirjaimet. Lisämerkistöön mukaan otettavaksi esitetään tässä ehdotuksessa myös turkin kielen kirjoittamiseen tarvittavaa merkistöä.

Lisämerkistön laajentamista koskevaan ehdotukseen toivotaan nyt kommentteja. Mielipiteensä ehdotuksesta voi ilmaista kuka tahansa.  Kaikki ehdotukseen sisältyvät kirjaimet, joille kullekin annetaan myös esimerkkikieli, esitetään avoimessa kannanottopyynnössä, joka löytyy osoitteesta kotoistus.fi. Kannanotot tulee esittää mitä pikimmin.

Kirjoittaja on Kotoistushankkeen ohjausryhmän konsultti.

Erkki Kolehmainen