Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Yhdyssanat tiedonhaussa

Sanoja on mahdollista yhdistää lukemattomilla tavoilla yhdyssanoiksi. Uusia yhdyssanoja syntyy kielenkäyttäjien keskuudessa jatkuvasti (suklaakakku, suklaapähkinäkakku, suklaabanaanikakku, pähkinäbanaanikakku...) On siis selvää, ettei mikään sanakirja voi sisältää kaikkia kielen potentiaalisia yhdyssanavariantteja. 

Jollei yhdyssanoja pilkota indeksointivaiheessa osiinsa, yhdyssanojen loppuosat jäävät tiedonhaussa piiloon. Yhdyssanojen loppuosat ovat arvokkaita hakusanoja, usein koko yhdyssanan hyperonyymeja. Huom. yhdyssanojen pilkkominen on yleensä mahdollista vain silloin, kun indeksoinnissa sovelletaan lemmausta.

Esimerkki: halutaan tietoa sokereista -> sokeri, hedelmäsokeri, ruokosokeri,rypälesokeri... Kun yhdyssanat pilkotaan, indeksissä on 

  • alkuperäiset yhdyssanat (hedelmäsokeri, ruokosokeri,rypälesokeri)
  • yhdyssanojen komponenttiosat (hedemä, ruoko, rypäle, sokeri)

Tällöin haettaessa sanalla sokeri saadaan myös esim. dokumentti, jossa esiintyy sana hedelmäsokeri.

Yhdyssanat saattavat aiheuttaa ongelmia kieltenvälisessä tiedonhaussa. Asiaa käsitellään CLIR-jaksossa.


n


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.41 Muokkaa