Kirjaimet ja merkit järjestykseen standardin avulla
Artikkeli 3/2011

Tero Aalto, Erkki I. Kolehmainen

Kirjaimet ja merkit järjestykseen standardin avulla

Aakkosjärjestys ei ole niin yksinkertainen asia kuin äkkiseltään voisi kuvitella. Ihmiset tulevat yleensä toimeen äidinkielensä mukana oppimallaan järjestyksellä, mutta tietokoneiden on osattava aakkostaa eli  lajitella kaikki niille määritellyt yli 100 000 merkkiä. Tämä on välttämätöntä erityisesti käsiteltäessä monikielisiä aineistoja.

Euroopassa käytettäväksi on laadittu standardi EN 13710, jonka taustalla on maailmanlaajuinen standardi ISO/IEC 14651. EN-standardissa on muokattu sen määrityksiä.  Kielet ja käytännöt tosin ovat Euroopan sisälläkin vaihtelevia, minkä vuoksi standardin mukainen järjestys toimii sellaisenaan lähinnä vain englannin ja italian kielissä. Näin ollen muissa maissa on EN-standardin määrityksiä vielä muokattava siten, että ne toteuttavat kansalliskielten erityispiirteet.

Suomen Standardisoimisliiton SFS:n julkaisema uusi standardi SFS-EN 13710 on eurooppalaisen standardin kansallinen mukautus. Siihen liittyy suomenkielinen esipuhe ja kuvaus siitä, kuinka meikäläinen järjestys eroaa yleiseurooppalaisesta, eli että suomessa ja ruotsissa kirjaimilla å, ä ja ö on vakiintunut sijaintinsa aakkoston lopussa. Eurooppalaisessa standardissa å ja ä rinnastetaan a:han ja ö o:hon, koska tämä vastaa useimpien eurooppalaisten kielten käytäntöä. Suomessa markkinoitavien tietoteknisten toteutusten odotetaan olevan standardin mukaisia. Vastaavalla tavalla standardiin voitaisiin liittää myös Suomessa puhuttujen saamen kielten aakkostus.

Suomessa on myös muita lajittelustandardeja, kuten Aakkostaminen ja siihen liittyvä ryhmittely (SFS 4600) sekä Bibliografinen lajittelu (SFS 5050). SFS 4600 on SFS-EN 13710:n tapaan yleiskäyttöinen mutta edellyttää aakkostettavan tekstisisällön merkityksen huomioon ottamista. Siksi sitä ei ole toteutettu täysin automaattisesti. Perusaakkostuksessa SFS-EN 13710 poikkeaa SFS 4600:sta siten, että kirjaimet v ja w lajitellaan kahtena eri kirjaimena eikä yhteen. Yhteen lajitteleminen noudattaa alkujaan ruotsalaista käytäntöä, josta Ruotsin akatemia kuitenkin luopui vuonna 2005.

 

Tero Aalto työskentelee CSC:ssä ja on kotoistushankkeen koordinaattori. Erkki I. Kolehmainen toimii hankkeen riippumattomana konsulttina.

Kotoistushankkeesta kerrotaan Kielikellossa 1/2011: Tietojärjestelmien kotoistus – yhteistyötä ja unilukkarina toimimista.

Tero Aalto
Erkki I. Kolehmainen