CD-Perussanakirja – uuden ajan sanasampo
Artikkeli 1/1997

Marja Lehtinen

CD-Perussanakirja – uuden ajan sanasampo

Kotimaisten kielten tutkimuskeskuksen vuosina 1990–1994 julkaiseman Suomen kielen perussanakirjan sähköinen versio CD-Perussanakirja on valmis. Sähköisen muodon ansiosta CD-Perussanakirjassa on monia sellaisia ominaisuuksia, jotka tekevät siitä uudenlaisen monipuolisen työkalun ammatikseen kirjoittaville ja kaikille kielestä kiinnostuneille. CD-Perussanakirjan syntyvaiheita ja ominaisuuksia esittelee seuraavassa toinen sen päätoimittajista Marja Lehtinen.

CD-Perussanakirja – tuoreinta tietoa nykysuomen sanoista

CD-Perussanakirjan noin 100 000 sana-artikkelin sisältö on pääosin sama kuin painetussa Suomen kielen perussanakirjassa, laajassa ajantasaisessa nykysuomen sanavarat esittelevässä sanakirjassa.¹ CD-Perussanakirja on kuitenkin sisällöltään vielä painettua edeltäjäänsäkin tuoreempi: siihen on lisätty noin 2 000 uutta sana-artikkelia ja noin 3 000 sana-artikkelin sisältöä on päivitetty. – CD-Perussanakirjan uusinta sanastoa esittelee tässä Kielikellon numerossa tarkemmin Risto Haarala, toinen CD-Perussanakirjan päätoimittajista (Karpaasit alppimajassa – CD-Perussanakirjan uusista sanoista, ks. Lue myös).

Painetun edeltäjänsä tavoin CD-Perussanakirja antaa tietoa kielenhuollon normeista. Myös nämä tiedot on saatettu ajan tasalle. Ajan tasalla ovat myös tiedot suomen sanojen taipumisesta.

Sähköinen sanakirja ei synny ”napin painalluksella”

Vaikka painetun Suomen kielen perussanakirjan teossa hyödynnettiin jo automaattisen tietojenkäsittelyn menetelmiä, ei aineiston muokkaaminen sähköiseksi tuotteeksi ole sujunut hetkessä. Ennen kuin sanakirja-aineiston pohjalta voitiin ruveta tekemään varsinaista sanakirjaohjelmaa, tavallisella tekstinkäsittelyohjelmalla tehdyt Perussanakirjan tiedostot oli muunnettava uudenlaiseen standardoituun muotoon, sellaiseen, jossa sana-artikkelin rakenneosat merkittiin täsmällisin tunnistein.

Samalla aineiston esitystapaan tehtiin joitakin muutoksia: mm. hakusanoja ei enää korvata sana-artikkeleiden esimerkistössä lyhenteillä niin kuin painetussa kirjassa, vaan kaikissa hakusanojen käyttöesimerkeissä niiden tärkein sana, hakusana, on kirjoitettu kokonaisena näkyviin. Niinpä mm. näitä kokonaisia sanoja on helppo etsiä sanakirjan tekstistä tietokoneen avulla.

CD-Perussanakirjan toimittajien työ ei ole ollut ohjelman kehittelyvaiheessa pelkästään sana-artikkeleiden kirjoittamista ja sanakirjan sisällöstä huolehtimista. Työ on vaatinut toimittajilta jatkuvaa yhteydenpitoa atk-asiantuntijoiden kanssa niin tutkimuskeskuksessa kuin talon ulkopuolellakin. Piirteet, jotka on valittu toteutettavaksi ohjelman ensimmäiseen versioon, ovat löytyneet tiiviissä vuorovaikutuksessa toimittajien, ohjelmoijien ja kustantajan edustajien kesken. Tavoitteena on ollut tuote, jossa uusi muoto palvelee sisältöä eikä päinvastoin. Kotimaisten kielten tutkimuskeskuksen yhteistyökumppaneina ovat CD-Perussanakirjan kehittelyssä olleet suomen – ja monen muun kielen – koneelliseen käsittelyyn erikoistunut kotimainen ohjelmistoyritys Lingsoft Oy ja niin painetun kuin sähköisenkin Perussanakirjan kustantaja Oy Edita Ab.

Erityisen haasteellista on ollut kehittää CD-Perussanakirjan niitä piirteitä, joiden avulla ohjelma antaa tietoja suomen sanojen taivutuksesta. Taivutusta käsittelevää ohjelmanosaa, jonka Lingsoft Oy toteutti jo sanakirjan prototyyppiin vuonna 1994, pidettiin niin hyvänä, että se haluttiin mukaan myös valmiiseen tuotteeseen. Ominaisuuden hiominen valmiiksi vaati kuitenkin vielä paljon työtä ohjelmoijilta ja toimittajilta – ja pitkämielisyyttä hankkeen rahoittajilta. CD-Perussanakirjan taivutusominaisuuksia esittelee tutkija Riitta Eronen tämän Kielikellon kirjoituksessa Taivutusmuotoja ikkunassa, ks. Lue myös.

Tiedonhakua uudella tavalla

Painetulla Perussanakirjalla on sähköiseen nähden omat etunsa: kirjan voi ottaa käteen missä tahansa, eikä käyttäjä joudu sen ostettuaan tekemään lisäinvestointeja. Sähköinen sanakirja taas vaatii tietokoneen ja siltä tiettyjä ominaisuuksia. Ohjelman käytön opetteluunkin on varauduttava: on tutustuttava eri ikkunoiden toimintoihin ja luettava käyttöohjeet, jotta ohjelmasta saisi parhaan mahdollisen hyödyn. Mutta sen jälkeen ohjelma palkitsee käyttäjänsä: siinä missä painetun sanakirjan käyttäjä hakee tietoa aakkosjärjestyksessä olevien hakusanojen perusteella ja joutuu käyttämään moniosaista teosta, sähköisen sanakirjan käyttäjä voi sukkuloida sanakirjan tekstissä ristiin rastiin ja etsiä tietoa muutenkin kuin yhdestä hakusanasta kerrallaan. Tietoa voi etsiä selitteistä, esimerkeistä, erikoisalojen sanastosta, suosituksista jne., ja tekstissä olevien hyperlinkkien avulla käyttäjä voi siirtyä paikasta toiseen vaivattomasti. Napin painalluksesta puhuminen ei tässä yhteydessä ole liioiteltua!

Ikkunat

CD-Perussanakirja on Windows-ohjelma, ja niinpä sen toiminta perustuu erilaisiin ikkunoihin. Tärkein näistä on Haku-ikkuna. Sillä on kaksi muotoa, iso ja pieni. Pienen ikkunan avulla etsitään tietoa sanakirjan hakusanoista: haun voi kohdistaa kerrallaan yhteen tai useampaan hakusanaan. Kun painaa tässä ikkunassa olevaa Taivuta-painiketta, saa haluamansa sanan taivutuksen suoraan toiseen ikkunaan. – Haku-ikkunasta saa halutessaan käyttöön myös isomman version: sen avulla hakuja voi kohdistaa monipuolisesti koko sanakirjan tekstiin tai sen valittuihin osiin.

Muita CD-Perussanakirjan ikkunoita ovat Osumat-ikkuna, jossa hakujen tulokset ovat selailtavissa, ja varsinainen teksti-ikkuna eli Näkymä-ikkuna, johon sana-artikkelista saa nähtäväkseen koko tekstin tai vain sanan käyttöä kuvaavat esimerkit tai sanan merkitysten selitykset. Hakusanat-ikkunassa voi puolestaan selata hakusanoja aakkosjärjestyksessä.

Vihjeitä käyttäjille

Seuraavassa muutamia esimerkkejä tapauksista, joissa CD-Perussanakirjan käyttö poikkeaa painetun kirjan käytöstä.

– Kun tietoa halutaan hakea useasta hakusanasta kerrallaan, hakukenttään voi kirjoittaa ns. korvausmerkkejä: * eli asteriski tarkoittaa, että sen paikalla voi haettavassa muodossa olla yksi kirjain tai muu merkki tai useita merkkejä tai ei yhtään merkkiä, ? eli kysymysmerkki tarkoittaa, että sen paikalla voi olla yksi kirjain tai muu merkki. Haku ”h???e” tuo näkyviin kaikki ne CD-Perussanakirjan viisikirjaimiset hakusanat, jotka alkavat h-kirjaimella ja päättyvät e-kirjaimeen (siis haave, haite, halme, hanke, harme, haude, haite, helke, helle, herne jne.). Vastaavasti haku ”*mies” näyttää, mitä mies-loppuisia hakusanoja kirjassa on hakusanana (aikamies, ajomies, aliperämies, ammattimies jne.). Haku ”*hdella, *hdellä” tuo ruutuun kaikki hakusanat, jotka loppuvat jompaankumpaan merkkijonoon (ailahdella, heilahdella, helähdellä, herahdella, hiihdellä, hirnahdella jne.). Tällaisista ominaisuuksista on hyötyä mm. suomen kielen tutkijoille, ja niistä ilahtunevat myös esimerkiksi sanaristikoiden ratkaisijat ja laatijat.

– Haku ”h*” ja ”hakusanasta suositus” näyttää, mihin h-alkuisiin sanoihin liittyy kielenhuollon suositus. Näin sanakirjaan sisältyvät kielenhuollon suositukset ovat löydettävissä nopeammin kuin painetusta kirjasta.

– Jos halutaan etsiä synonyymejä vaikkapa sanalle juosta, haku kohdistetaan merkityksen selityksiin. Haun tulokset eli osuman tuottaneiden sana-artikkeleiden hakusanat näkyvät Osumat-ikkunassa, jossa näkyy lisäksi myös katkelma siitä ympäristöstä, missä tarkasteltava sana esiintyy.

– Sana-artikkeleista saa Näkymä-ikkunassa halutessaan katseltavaksi joitakin artikkelin osien yhdistelmiä, ns. näkymiä. Sana-artikkelin voi lukea ikkunasta kokonaisenakin, niin kuin painetusta kirjasta, mutta sana-artikkelista voi valita näytettäväksi esimerkiksi vain selitteet: näin monimerkityksisen sanan merkitysrunko on havainnollisesti tarkasteltavissa. Ikkunan vasemmassa laidassa olevia painikkeita painamalla näkymää voi vaihtaa. Yksi näkymistä tuottaa taivutusmuotosarjan.

Päivittyvä tietokanta

Jo painetun Perussanakirjan I osan esipuheessa kerrottiin, että Kotimaisten kielten tutkimuskeskukseen on syntymässä Perussanakirjan tietojen pohjalta nykysuomen sanojen tietokanta. Näin on käynytkin: tutkimuskeskuksen tietokoneissa on nyt aineisto, josta voidaan tuottaa määrävälein erilaisia uusia ajantasaisia painettuja ja sähköisiä sanakirjoja. Tietokannan sisältöä päivitetään jatkuvasti, ja jatkuvasti kartutetaan myös sana-arkistoa, jonka pohjalta uusia sana-artikkeleita voidaan kirjoittaa ja vanhoja tarvittaessa muokata. Perussanakirja ei siis jää kerralliseksi tuotteeksi niin kuin on käynyt monelle muulle sanakirjalle

Palautetta tekijöille!

Toimitus odottaa kiinnostuneena palautetta CD-Perussanakirjan käyttäjiltä. Palautteen antamista varten on käytettävissä toimituksen sähköpostiosoite cdps@kotus.fi. Myös kirjalliset kommentit ovat tervetulleita (osoite: CD-Perussanakirjan toimitus, Kotimaisten kielten tutkimuskeskus, Sörnäisten rantatie 25, 00500 Helsinki). Käyttäjäpalaute auttaa toimittajia kehittämään sanakirjan tulevia versioita entistä paremmiksi.

CD-Perussanakirjasta saa lisätietoja Internetin WWW-osoitteesta http://www.edita.fi/cdps

CD-Perussanakirjan laitteistosuositus:

PC/Windows 3.1 tai uudempi (myös Windows 95),
486-prosessori, 8 MB keskusmuistia,
CD-ROM-asema (2x)

¹ Painettua Suomen kielen perussanakirjaa on esitelty tarkemmin Kielikellon numerossa 3/1994.

Marja Lehtinen