Yliopistologo

YTM Riitta Alkulan informaatiotutkimuksen alaan kuuluva väitöskirja

Merkkijonoista suomen kielen sanoiksi

tarkastetaan 25.8.2000 klo 12 Tampereen yliopiston Pinnin kiinteistön Paavo Koli -salissa, osoitteessa Kehruukoulunkatu 1.

Vastaväittäjänä on professori Pasi Tyrväinen (Jyväskylän yliopisto). Kustoksena toimii professori Kalervo Järvelin.

***

Alkula on syntynyt Padasjoella. Hän on suorittanut ylioppilastutkinnon Padasjoen lukiossa 1979. Alkula on valmistunut yhteiskuntatieteiden maisteriksi Tampereen yliopistosta 1988. Hän on toiminut tutkijana VTT:llä 1985-1996, projektipäällikkönä ICL Datassa 1996-1999 ja Account Managerina TietoEnatorissa 1999 lähtien.

Alkulan väitöskirja ilmestyy sarjassa Acta Universitatis Tamperensis; 763, Tampereen yliopisto, Tampere 2000. ISBN 951-44-4885-5, ISSN 1455-1616. Ilmestyy myös sähköisenä sarjassa Acta Electronica Universitatis Tamperensis; 51, Tampereen yliopisto 2000. ISBN 951-44-4886-3, ISSN 1456-954X.

Väitöskirjan tilausosoite: Virtuaalinen kirjakauppa Granum tai Tampereen yliopiston julkaisujen myynti, PL 617, 33101 Tampere, puh. (03) 215 6055, e-mail: taju@uta.fi.

Lisätietoja: Riitta Alkula, 040-528 7012 (työ), riitta.alkula@tietoenator.com

TIIVISTELMÄ

Suurten tekstiaineistojen tallentaminen ja arkistoiminen elektronisesti on tullut yhä edullisemmaksi. Samalla perinteiset tekstin tallennus- ja hakumenetelmät ovat alkaneet jäädä tehottomiksi.

Tallennus- ja hakutulosten voidaan olettaa paranevan, kun käytetään menetelmiä, jotka ottavat kunkin kielen erityisominaisuudet huomioon. Tutkimuksessa selvitettiin, miten suomen kielen morfologisten tulkintaohjelmien eli sanoja tunnistavien ja muokkaavien tietokoneohjelmien avulla voidaan ratkaista ongelmia, jotka johtuvat suomen kielen erityispiirteistä. Morfologisten tulkintaohjelmien avulla voidaan muun muassa toteuttaa hakujärjestelmä, jossa otetaan huomioon suomen sanojen taipuminen ja jaetaan yhdyssanat osiinsa.

Tutkimus oli luonteeltaan laboratorioympäristössä toteutettu evaluointitutkimus. Siinä rakennettiin erityinen testausympäristö, jossa samasta tekstiaineistosta tuotettiin joukko erilaisia tietokantoja. Aineistona oli otos suomalaisesta sanomalehtiarkistosta.

Kun hakujärjestelmän hakemistoon tallennettavat sanat normalisoitiin eli kaikki taivutusmuotoiset sanat palautettiin perusmuotoonsa, ts. sanakirjamuotoon (esimerkiksi: kaupoissa -> kauppa), hakemisto tarvitsi vähemmän tietokoneen muistitilaa kuin vastaava, normalisoimaton hakemisto.

Kun tekstin sanat morfologisilla tulkintaohjelmilla palautettiin perusmuotoon ja perusmuodot tallennettiin hakemistoon, tiedonhakujen tulokset olivat tarkempia kuin silloin, kun sanoja ei ollut perusmuotoistettu. Toisaalta havaittiin, että on tärkeää hakea myös perusmuotojen rinnakkaisilmaukset, kuten johdokset (vero -> verottaminen, verotus) ja yhdyssanat (vero -> autovero), jotta olennaista tietoa ei jäisi löytymättä.

Tutkimuksen perusteella sanojen perusmuotoistaminen kannattaa, koska perusmuotohakemistosta tehtyjen tiedonhakujen tulokset ovat yhtä hyvät tai paremmatkin kuin silloin, kun tulkintaohjelmia ei ole käytetty. Hakemista helpottaa, ettei hakijan tarvitse välittää sanojen taipumisesta. Toisaalta sanojen perusmuotoistaminen tekee mahdolliseksi hyödyntää uusia tallennus- ja hakumenetelmiä, joita on kehitetty muissa kielissä, joissa sanojen taipuminen ja yhdyssanojen esiintyminen on vähäisempää kuin suomessa.


Väitökset    Tampereen yliopiston kirjasto   Tampereen yliopisto