Sähköiset hetket – Kotuksen aineistoja verkkoon
Artikkeli 4/2006

Toni Suutari

Sähköiset hetket – Kotuksen aineistoja verkkoon

Kotimaisten kielten tutkimuskeskuksessa on laajat sähköiset kielenaineistot, joista osa avataan pian vapaaseen verkkokäyttöön aineistopalvelu Kainossa.

– – työlamppu palaa,
ihmishenki ikävöi,
sähkön valta säkenöi,
tunne suuri suitsuaa ja haave heljä halaa.
(Eino Leino)

Aineistopalvelu Kainossa on alkuvaiheessa tarjolla suomenkielisiä tekstejä 1500-luvulta 1900-luvun alkuun, suomalaisia sananparsia, sähköinen Paikannimikartasto ja saamen sanojen etymologinen tietokanta Álgu. Myöhemmin julkaistaan myös Suomen kielen nauhoitearkiston kokoelmatietokanta. Vapaaseen käyttöön tarjottavien sähköisten aineistojen ja luetteloiden määrää pyritään jatkuvasti lisäämään. Esimerkiksi Karjalan kielen sanakirjasta on tekeillä verkkoversio, joka julkaistaan lähivuosina.

Agricolasta Eino Leinoon

Aineistopalvelun keskeisenä sisältönä ovat vanhan kirjasuomen ja varhaisnykysuomen tekstit, joita on koottu sähköiseksi aineistoksi eli korpukseksi jo 1980-luvulla Vanhan kirjasuomen sanakirjan toimittamisen tarpeisiin. Myöhemmin aineistoa on täydennetty nykysuomen varhaisvaiheen klassikkokirjallisuudella. Ajallisesti aineistopalvelun tekstit ulottuvat 1540-luvulta 1900-luvun alkuun, joten ne tarjoavat oivan keinon suomen kirjakielen kehittymisen tarkastelemiseen. Teksteissä on yhteensä yli 11 miljoonaa sanaa.

Vanhan kirjasuomen tekstit koostuvat Agricolan teoksista (1543–1552), ensimmäisestä kokonaisesta Raamatusta (1642) sekä laeista, asetuksista, virsistä, saarnoista ja almanakkateksteistä 1500-luvulta 1800-luvun alkuun. Uskonnollisten ja juridisten tekstien lisäksi kokoelmaan kuuluu myös muuta tietokirjallisuutta, kuten J. A. Frosteruksen Hyödyllinen Huwitus Luomisen Töistä, Kristfrid Gananderin Suomalaiset Arwotuxet, Wastausten kansa ja Antti Lizeliuksen toimittama ensimmäinen suomenkielinen sanomalehti Suomalaiset Tieto-Sanomat.

1810–1880-lukujen kieltä nimitetään varhaisnykysuomeksi, ja enin osa korpuksen teksteistä on peräisin tältä ajalta. Mukana on lukuisia eri alojen teoksia, aikakaus- ja sanomalehtien vuosikertoja, asetus- ja almanakkatekstejä sekä joitakin sanakirjoja, esimerkiksi Oulun Viikko-Sanomia vuosilta 1829–1833, Henrik Renqvistin Viinan kauhistus, Gustaf Erik Eurénin Suomalainen kielioppi Suomalaisille, Minna Canthin lehtikirjoituksia ja puheita vuosilta 1874–1896 sekä Aleksis Kiven teokset.

Aineistoon kuuluvat suomalaisen kirjallisuuden klassikot ovat nykysuomen ajan alun eli 1800-luvun lopun ja 1900-luvun alun proosaa, runoja ja kansansatuja. Aineistopalvelun käyttäjä voi viihdyttää itseään Jalmari Finnen Kiljusen herrasväellä tai syventyä Eino Leinon runoihin, vaikka palvelu onkin suunniteltu sähköisen lukusopen sijasta ensisijaisesti kielentutkijan apuvälineeksi.

Tekstiaineiston käyttö

Teksteistä voi hakea tietoa yhdestä tai useasta sanasta koostuvalla hakulausekkeella. Hakutuloksena saa joko ehdot täyttävät virkkeet, konkordanssin tai taajuuslistan. Konkordanssissa haettu sana tulee keskelle riviä ja sanan kummallekin puolelle muutaman sanan konteksti eli pala tekstiä. Taajuuslista puolestaan kertoo esiintymien määrän. Tekstejä pääsee lukemaan myös kokonaisina joko hakutuloksen yhteydessä olevista linkeistä tai suoraan aineistojen esittelysivuilta. Tarkemmat ohjeet ovat luettavissa aineistopalvelussa.

Vanhan kirjasuomen kiemurat

Erityisesti vanhan kirjasuomen teksteistä tietoa haettaessa alkuperäisen kirjoitusasun tietäminen voi olla vaikeaa. Agricolan teksteissä ä:n merkkinä on usein e, u:n merkkinä v tai w, j:n merkkinä i ja pitkät vokaalit kirjoitetaan yleensä yhdellä merkillä eikä kirjoitustapa monessa muussakaan suhteessa vastaa nykyistä ääntämystä. Pienen totuttelun jälkeen vanhimmat suomenkieliset tekstit ovat kuitenkin nykylukijallekin ymmärrettäviä. Agricolan suomentamaa Uutta testamenttia tai vuonna 1642 julkaistua ensimmäistä suomenkielistä Raamattua lukiessaan voi käyttää apuna uusia käännöksiä, jotka ovat sähköisinä esimerkiksi Suomen evankelis-luterilaisen kirkon verkkosivuilla. Eriaikaisten käännösten vertaaminen kertoo kielessä tapahtuneista muutoksista.

Uskotaanko päälle?

Aineiston avulla voi selvittää jonkin kielenkäytön piirteen kehittymistä ja muuttumista. Tutkittavaksi voidaan ottaa vaikkapa postpositio päälle. Vanhalle kirjasuomelle on tyypillistä runsas postpositioiden käyttö. Muun muassa uskoa-verbin yhteydessä ei yleensä käytetä illatiivia, kuten nykykielessä (”uskoa johonkin”), vaan genetiiviä sekä lisäksi postpositiota päälle (”uskoa jonkin”). Tällaista ruotsin mukaista rakennetta Agricola käyttää Uuden testamentin käännöksessä: Ja iocainen quin elepi / ia Usko minun päleni – – (Joh. 11:26). Vastaava kohta on vanhimmassa ruotsinkielisessä Raamatussa vuodelta 1541 asussa Och hwar och en som leffuer och troor på migh – –.

Vanha kirjasuomi on suurelta osin käännöskieltä. Vieraanvoittoisuus ja horjuva oikeinkirjoitus eivät ole merkkejä Agricolan ja kirjoittajien huonosta suomen kielen taidosta. Lähtökielten vieraita rakenteita ja ilmauksia käytettiin, kun kirjakieltä ja uskonnollisen kielen terminologiaa luotiin. Kaikenlaisia vierasperäisyyksiä karsittiin seuraavien vuosisatojen aikana, mutta vielä 1800-luvun lopussa keskusteltiin muun muassa siitä, onko uskoa Jumalan päälle hyvää suomea. August Ahlqvist ottaa asiaan kantaa vuonna 1875 toimittamassaan Kieletär-julkaisussa, joka sekin on luettavissa Kotuksen aineistopalvelussa.

[S]ananparrella Jumalan päälle on se etuisuus, että viisitoista miespolvea Suomalaisia on sitä käyttänyt – –. Aivan turhaa ja mieletöintä on siis ruveta näin juurtunutta asiata repoistelemaan, ‑ ‑ . Saman-merkityksellistäpä sananpartta kuin Jumalan päälle ”opetusisämme” Lutherkin on käyttänyt lauseessa glauben an Gott, sillä Saksan kielen prepositioni an on ulkopaikallista luonnetta.

Samantyyppistä keskustelua uskonnolliseen kieleen vakiintuneiden ilmausten säilyttämisestä käytiin, kun uusinta Raamatun suomennosta pari vuosikymmentä sitten tehtiin.

Maassa vai maan päällä?

Jouluevankeliumissa Agricola on kääntänyt

Cunnia olcon Jumalan corkiuxijs Ja maasa Rauha / Ja inhimisis hyue Tachto (Luuk. 2:14).

Samantyyppinen käännös on myös vuoden 1642 Raamatussa. Vuoden 1938 käännös kuuluu

Kunnia Jumalalle korkeuksissa ja maassa rauha ihmisten kesken, joita kohtaan hänellä on hyvä tahto!

Uusimmassa vuoden 1992 käännöksessä maassa-muoto on vaihtunut postpositiorakenteeseen:

Jumalan on kunnia korkeuksissa, maan päällä rauha ihmisillä, joita hän rakastaa.

Vaihdoksen taustalla on maassa ja maan päällä ‑ilmauksille kehittynyt merkitys- ja käyttöero. Maan päällä esiintyy taajaan jo vanhemmissakin käännöksissä, joten uusimmassa käännöksessä on vain pyritty johdonmukaisuuteen.

Samantyyppisiä havaintoja voi tehdä muistakin kielen ilmiöistä. Aineistopalvelun tekstit ovat pohjaton lähde kaikille tutkijoille, opiskelijoille ja kielestä kiinnostuneille maallikoille.

Sisältökin kiehtoo

Tutkimuksessa ja sanakirjojen toimittamisessa sähköisiä aineistoja on hyödynnetty viime vuosikymmeninä varsin paljon. Korpuksesta on helppo etsiä tiettyjen sanojen tai muotojen esiintymisiä ja tehdä päätelmiä esimerkiksi kielen muuttumisesta tai kirjoittajien erilaisista kielenkäytön tavoista. Hakuja voi käyttää myös kiinnostavien aiheiden etsimiseen.

Karl Gustaf Samuel ’Samuli’ Suomalainen on kirjoittanut vuonna 1885 ensimmäisen osan Suomalaisia Keskusteluja Ajan ratoksi suomenkieltä suosiville Suomen naisille. Tuohon aikaan monessa perheessä kotikieli vaihdettiin ruotsista suomeksi ja naisten piti opetella arkipäivän sanastoa. Kiireinen leipominen, siivoaminen ja silittäminen ovat yhä erottamaton osa jouluvalmisteluja, mutta monen lainasanan on korvannut kotoperäinen, suomenkielinen vastine.

Kyllä joulu on herttainen juhla, erittäin herttainen, mutta kyllä sen edellä on puuhaa. Herrainen aika, sitä viimeistäkin jouluaattoa! Ajatelkaas! Meillä oli kaikilla semmoinen hirmuinen kiire! Laura oli lasten kamarissa ja baadasi pikku veikkoa; täti Malén itse paistoi bullia; Miina oli steedaamassa isän kamaria ja minun täytyi stryykätä, – stryykätä, stryykätä ihan kello kuudesta alkain hämäriin asti! Ja kaiken lisäksi vielä kaasi Laura kiireisään baadi-bunkan maahan! Voi sentään!

Sananparsia

Tekstien lisäksi aineistopalvelu Kaino sisältää ylioppilaskuntien 1930-luvulla keräämiä sananparsia Alatornion, Enon, Hailuodon, Hausjärven, Isonkyrön, Juvan, Kalannin, Kiuruveden, Kivennavan, Kurkijoen, Laukaan, Nivalan, Paltamon, Pälkäneen, Riistaveden, Rovaniemen, Tyrvään, Ulvilan ja Valkealan pitäjistä. Suurin osa koko Suomen kattavasta sananparsikokoelmasta on kuitenkin vain käsin kirjoitetuilla paperilipuilla.

Sananparsista päätellen joulun alla on kiirettä riittänyt, mutta toisaalta juhlaa ja pitopöydän antimia on odotettu. Sananparsien yhteydessä ilmoitetaan keruupitäjä, kerääjä ja keruuvuosi.

Joulu tulee, ettei ehli naamajaakaa pestä. (Valkeala, A. Stenroth, 1932.)

Ei niin kouvuaa puuta ole, ku kataja ja koivu, ei niin suurta juhluaa ole ku juhannus ja joulu. (Joutseno, A. Pekurinen, 1932.)

Joulu tulla jollottaa, oluttynnyri olala, juustokakku kainalossa, lamphaan lapa käessä! (Alatornio, A. Anundi, 1933.)

Kirjoittaja työskentelee Kotimaisten kielten tutkimuskeskuksessa tietohuolto-oosaston arkistojaoksessa mm. sähköisten aineistojen parissa.

Kainostelematta Kainoon

Aineistopalvelu Kaino julkistetaan Kotuksen uusien verkkosivujen ohessa joulukuun 2006 aikana osoitteessa http://kaino.kotus.fi. Ottakaa palvelu käyttöön ja antakaa palautetta!

Digitoituja äänitteitä

Kotuksessa Suomen kielen nauhoitearkistossa on äänitteitä yli 23 000 tuntia. Tästä määrästä on digitaalisessa muodossa jo yli 10 000 tuntia. Suurin osa kokoelmasta on 1960- ja 1970-luvulla kerättyjä suomen murteiden äänitteitä, joita toimitetaan asiakkaille digitaalisina kopioina tilausten perusteella. Näytteitä on kuunneltavissa myös Internetissä mm. nauhoitearkiston sivuilla osoitteessa www.kotus.fi, ja tämä palvelu laajenee vuoden 2007 aikana. Lisäksi arkiston kokoelmatietokanta eli luettelo arkistossa olevista kokoelmista avataan soveltuvin osin myös asiakkaiden käyttöön, mikä helpottaa tilausten tekemistä.

Toni Suutari