Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Perusmuotoistettu (lemmattu) indeksi

Perusmuotohakemistossa sanat ovat perusmuotoonsa palautettuina.

alue
aluee
aluearkkitehti
alueasiamies
alueavustus
aluebarometri
...

Perusmuotoisen hakemiston tuottamiseen tarvitaan morfologista ohjelmaa (lemmatoijaa), joka käy tekstiaineksen lävitse. Morfologisen ohjelman toiminta perustuu leksikkoon, eli k.o. kielen sanastoon. Leksikon ulkopuoliset sanat jäävät perusmuotoistamatta, ja ne tallennetaan yleensä hakemistoon sellaisenaan, kuten ylläolevan esimerkin sana aluee. Kaikki perusmuotoindeksissä esiintyvät sanat eivät siis välttämättä ole perusmuodossaan. Esimerkiksi  vieraskieliset nimet, väärin kirjoitetut sanat ja useimmat erisnimet jäävät perusmuotoistamatta.

Hakija voi antaa sanat perusmuodossa tai taivutusmuodossa riippuen siitä, onko hakusovellukseen liitetty perusmuotoistava ohjelma.

Perusmuotoistavan ohjelman toiminta perustuu ohjelmaan liittyvään sanakirjaan ja sääntöihin. Kehittyneet morfologiset ohjelmat antavat myös tietoa sanojen sanaluokista ja taivutuskategorioista. Stemmausta voi pitää puolitiehen jääneenä perusmuotoistamisena. Perusmuotoistamisessa morfologinen ohjelma tuottaa taivutusmuotoisista sanoista perusmuodot ja pilkkoo yleensä myös yhdyssanat osiinsa.

Suomen kielen morfologisia ohjelmia ovat Morfo (Kielikone), TWOL (Lingsoft) ja Ment (Lanser Data).

Esimerkkejä perusmuotoistamisesta

TWOL-ohjelma

Syöte Palaute
autossa auto N INE SG
   
alusta
  alku N ELA SG
  alusta N NOM SG
  alustaa V PRES ACT NEG
  alustaa V IMPV ACT SG2
  alustaa V IMPV ACT NEG SG
  alunen N PTV SG
  alus N PTV SG
   
autotallista
  auto#talli N ELA SG

Koodien tulkinnat

N noun substantiivi
INE inessive inessiivi
SG singular yksikkö
ELA elative elatiivi
NOM nominative nominatiivi
V verb verbi
PRES present tense preesens
ACT active aktiivi
NEG negative form kielteinen
IMPV imperative imperatiivi
SG2 2nd person sg yksikön 2. persoona
PTV partitive partitiivi

FINTWOLin www-versio

Muita esimerkkejä perusmuotoistamisesta

Kstem-ohjelma

Englantia käsittelevä Kstem käsittelee taivutusmuotojen (esim. effects ---> effect) lisäksi johdoksia. Ohjelma muuttaa johdokset ja taivutusmuodot samaan (perus)muotoon:

Esim. foreigners, foreigner, foreign ---> foreign

Perusmuotoistamisessa käsiteltävän sanaluokka voi muuttua:

  • cystic : cyst
  • manipulation : manipulate
  • treatment : treat
  • manufacturer : manufacture
  • mortality : mortal


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.39 Muokkaa