Kaiken takana tietotekniikan standardit
Keskustelua 3/2003

Klaas Ruppel

Kaiken takana tietotekniikan standardit

Suomessa on pitkään noudatettu tietotekniikassa standardia 8859-1 (Latin 1), joka on laajasti käytössä Länsi_Euroopassa. Standardiin eivät sisälly aakkoset š, Š, ž eikä Ž, joten niitä ei tarvinnut ottaa huomioon Suomeen ja suomen kieleen räätälöidyissä tietoteknisissä ratkaisuissa. Vähemmän tunnettua lienee, että Latin 1:stä ei koskaan tehty Suomen kansallista standardia.

Vuonna 2000 julistettiin Suomen kansalliseksi merkkistandardiksi standardi 8859-15 (Latin 9), joka sisältää mainitut hattukirjaimet. Ainoana Latin-sarjan standardina se sisältää virallisesti myös euron merkin €.

Vuodesta 2000 tietotekniset ratkaisut, jotka eivät sisällä mainittuja hattukirjaimia, eivät ole olleet Suomen merkkistandardin mukaisia, eli nämä ratkaisut eivät tue suomen kieltä.

Käytännössä Latin 9 ei kuitenkaan ole vallitsevaa tilannetta muuttanut. Pian Latin-sarja korvautuu (niin kuin muutkin perinteiset merkkistandardit) kokonaan uudella maailmanlaajuisella standardilla. Uusi standardi ei rajoita enää samanaikaisesti käytössä olevien merkkien määrää n. 250:een, vaan merkkien määrä on käytännöllisesti rajaton (n. 2 miljardia). Tämä standardi on nimeltään Unicode, ja sen uusin versio 4 on juuri ilmestynyt. Uusi versio sisältää tähän asti standardista puuttuneet suomalais-ugrilaisen tarkekirjoituksen merkit.

Eri käyttöjärjestelmät ovat käyttäneet Unicode-mukaista koodausta jo vuosia. Käytännön hyötyä on toistaiseksi vähentänyt Unicodea tukevien sovellusten, ohjelmien, puuttuminen. Tilanne on kuitenkin nopeasti parantumassa. Unicode on universaali ratkaisu, jossa tietty merkki saa aina täsmälleen saman koodauksen riippumatta siitä, missä päin maailmaa ja millä koneella merkki kirjoitetaan. Koodi pysyy aina samana, eikä muuntamisia kooditaulusta toiseen enää tarvita. Tekniikka hattukirjainten tuottamiseen on tähänkin asti ollut olemassa, tulevaisuudessa kirjainten käyttö toivottavasti helpottuu siitä syystä, että uusi Suomen näppäimistöstandardi sisältää useampia tarkenäppäimiä, joilla hatutkin saa helposti paikoilleen.

Sananen vielä arkistoista yms. Arkistoinnissa on tärkeää se, että tallennettu tieto löytyy. Kun tosiasia on se, että nimiä translitteroidaan eri kieliin eri tavalla, hyvä tietokanta sisältää mahdollisuuden tallentaa nimi eri muodossa, jolloin esim. suomenkielisestä arkistosta ”Tšehov” löytyy myös hakemalla ”Tsehov”, ”Chekhov” jne.

Ja aivan lopuksi vielä: merkkiasiat eivät koske vain translitterointia vieraista latinalaisiin aakkosiin, vaan latinalaisin kirjaimin kirjoitetut nimet on syytä muutenkin kirjoittaa oikein; Turkin pääministerin nimi ei ole Erdogan vaan Erdoğan.

Klaas Ruppel