Kielen sanaluvusta
Artikkeli 5/1972

Matti Sadeniemi

Kielen sanaluvusta

Kielitoimistosta tiedustellaan usein, kuinka monta sanaa suomessa on. Kummassa on enemmän sanoja, suomessa vai ruotsissa? Suomessa vai englannissa? Tällaisiin kysymyksiin ei voi antaa sinnepäinkään tarkkaa vastausta.

Jos sanaksi katsotaan kirjakielessä yhteen kirjoitettu ilmaus taivutusmuotoineen, olemme monessa tapauksessa horjuvan oikeinkirjoituksen armoilla. Onko usein nähty ilmaus viimeksimainittu sana? Sitähän suositellaan kirjoitettavaksi erilleen. Entä kuolleeksijulistaminen, hedelmientuonti, metrinpituinen? Myös merkitykseltään erikoistuneen muodon käsittäminen omaksi sanakseen on joskus ehdonvaltaista. Onko kovaa ’nopeasti, äänekkäästi’ eri sana kuin kova, samassa ’yhtäkkiä’ eri sana kuin sama? Onko ajaminen ajaa-sanan muoto vai eri sana?

Paikannimet tarjoavat lähes rajattomia mahdollisuuksia. Niistä voi yleensä johtaa lainen-, läinen-loppuisen adjektiivin. Voi ottaa jonkin paikannimiluettelon käteensä ja aloittaa: aabyläinen, aabybrolainen, aachilainen... Näistä voi vielä johtaa ominaisuudennimiä: aabyläisyys, aabybrolaisuus jne. – sanoja, jotka ovat mahdollisia, mutta joita ylen harvoin, jos koskaan, tarvitaan. Sellaisia ovat myös monet aineennimistä johdetut adjektiivit, esim. litiuminen ja kryptoniton. Onkohan niitä ollut olemassa tätä ennen? Entä sana tunturikoivumainen? Sana höyryturbiiniveli tuntuu olemattomalta, mutta kuitenkin Nykysuomen laitoksen arkistossa on poimielma, jossa se esiintyy täysin luontevasti: Höyrykone on viime aikoina saanut ruveta väistymään höyryturbiiniveljensä tieltä. Ilmeisesti veli näin voisi liittyä hyvin moneen substantiiviin.

Juuri yhdyssanojen muodostaminen on suomessa niin vapaata, että jo se tekee kielen sanojen lukumäärän laskemisen aivan mahdottomaksi. Joitakin esimerkkejä. Tyyppi rautanaula, siis aineennimi + esineennimi, on hyvin tuttu, ja koska sekä aineen- että esineennimiä on ylen paljon, kombinaatioita on tarjolla lähes rajaton määrä. – Kauppaa tehdään kovin monilla hyödykkeillä, ja kauppa-loppuisia yhdyssanoja on myös koko liuta: paitsi sellaisia tavallisia kuin kiinteistö-, puutavara-, viljakauppa myös sellaisia kuin multa-, nitriitti-, yttriumkauppa. Sanat yksin-, kaksin-, kolminkertainen ovat kielen vakinaista sanastoa, mutta miten pitkälle sarja jatkuu? Teoriassa rajattomiin.

Jos ei suomen sanojen lukua voida laskea, sitä ei myös voida verrata muiden kielten sanavaroihin. Selvää kyllä on, että jos sanaksi katsotaan vain yhteen kirjoitettu ilmaus, semmoisella synteettisellä kielellä kuin suomella on tiettyä etumatkaa analyyttisemmistä kielistä. Kivitalo on englanniksi osa osalta vastaavasti stone house, mutta osat kirjoitetaan erilleen, ”kivi talo”. Oikeinkirjoitusero ei ole satunnainen: kun englannissa adjektiiviattribuutti ei taivu, on ero sanaliiton ja yhdyssanan välillä hämärtynyt ja sana stone ’kivi’ käsitetään ilmauksessa a stone house adjektiiviattribuutiksi kuten big ’iso’ sanaliitossa a big house. Ranskan vastaava ilmaus maison de pierre ’talo kivestä’ ja venäjän kamennyi dom ’kivinen talo’ ovat jo rakenteeltaankin selviä sanaliittoja. Käsite ”kivitalo” voidaan näin ilmaista aivan näppärästi kaikissa näissä kielissä, vaikka sitä merkitsevä sana puuttuu. Tämä ei koske ainoastaan yhdyssanoja. Esim. suomen matkustella on ruotsiksi resa omkring, huudahtaa ropa till jne. Sanalukua ei siis voi käyttää kielen ilmaisukyvyn mittana, niin kuin usein halutaan.

Sen sijaan voidaan tietysti laskea, kuinka monta sanaa on jossakin sanakokoelmassa. Nykysuomen sanakirja käsittää noin 206 000 hakusanaa. Se on kuitenkin vain suhteellisen suppea valikoima kielen sanoista: sanakirjan ilmestyessä laskettiin, että sen nelisen miljoonaa poimintoa käsittävässä aineksessa oli edustuneena noin 840 000 eri sanaa. Näistä on suurin osa yhdyssanoja, erityisesti yhdyssubstantiiveja. Tuomo Tuomen toimittama ”Suomen kielen käänteissanakirja” sisältää Nykysuomen sanakirjan hakusanat. On laskettu, että se käsittää vain noin 71 600 yhdistämätöntä sanaa, siis perussanaa (esim. kala) ja johdosta (esim. kalainen, kalaton, kalastaa) – loppu on yhdyssanoja.

Ruotsin akatemian ”sanalistan” uusin laitos sisältää noin 160 000 hakusanaa. Se ei tietysti sekään ole muuta kuin valikoima.

Lisäksi voidaan laskea, kuinka monta eri sanaa sisältyy johonkin tiettyyn määrään tekstiä. Sture Allenin toimittama ”Nusvensk frekvensordbok baserad på tidningstext” perustuu miljoona juoksevaa sanaa käsittävään tekstiotokseen. Siitä on kertynyt noin 71 000 eri sanaa.

Tällaiset luvut osoittavat aivan karkein piirtein, millaisiin määriin nousee suomen ja ruotsin keskeinen, kiinteä sanavarasto.
Matti Sadeniemi