Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Morfologiset indeksityypit

Tiedonhaun kielelliset ongelmat johtuvat pääasiassa morfologisista ja / tai leksikologisista ilmiöistä. Allaolevassa taulukossa on esitetty eräitä yleisiä ongelmia.

Osajärjestelmä

Ilmiö

Esimerkki

morfologia

sanojen taipuminen

käsi : käden : kättä

morfologia / leksikologia

johdokset

opiskelija : opiskella

morfologia / leksikologia

yhdyssanat

suklaakakku : suklaakermakakk

leksikologia

sanaliitot

suomen kieli

leksikologia

sanojen rakenteelliset variantit

puiden : puitten

Miten kattaa hakutermin variaatio?

Morfologinen ja leksikologinen muuntelu tuo ongelmia tiedonhaulle, ja hakuavainten muuntelu on otettava jotenkin huomioon sekä hakemistoa (indeksiä) rakennettaessa että hakuavaimia annettaessa. Hakuavaimia annettaessa on tiedettävä, millainen indeksityyppi on kyseessä. Indeksiä rakennettaessa on voitu noudattaa jotain seuraavista periaatteista:

  • ei tehdä mitään eli tallennetaan sanat hakemistoon sellaisenaan -> taivutusmuotoindeksi
  • sanojen pääteainesten karsiminen, "stemmaus" (stemming) -> stemmattu indeksi
  • sanojen perusmuotoistaminen eli lemmatointi (lemmatization) -> perusmuotoindeksi
  • ei-kielellisen menetelmät (esim. n-grammit, tilastolliset menetelmät)

Stemmaus ja lemmatointi ovat molemmat normalisointimenetelmiä. Koska normalisoinnin tarkoituksena on  vähentää taivutusmuotoja, niitä voidaan kutsua myös reduktiivisiksi menetelmiksi.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.27 Muokkaa