Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Sanojen merkitysten disambiguoinnin perusmenetelmät (Word sense disambiguation, WSD)

Kertauksen vuoksi ensin yksi esimerkki sanallisen monitulkintaisuuden aiheuttamasta ongelmasta.

palm

Homonymia ei yleensä aiheuta kielessä ongelmia, koska sanat esiintyvät erilaisissa konteksteissa ja niiden merkitykset ovat yleensä myös hyvin erilaiset. Merkitykseltään läheisiä homonyymejä ei ole. Ihmiset kykenevät ratkaisemaan homonyymin merkityksen aiemmin omaksutun tiedon ja päättelyn avulla kussakin asiayhteydessä yleensä koko monitulkintaisuutta tiedostamatta.

Luonnollisen kielen tietokoneistetussa käsittelyssä (NLP, Natural language processing) merkityksen monitulkintaisuus aiheuttaa kuitenkin ongelmia. Polysemian ja homonymian ratkaiseminen automaattisessa tekstianalyysissa vaatiikin sanojen merkityksen yksikäsitteistämistä, disambiguaatiota.

Tiedonhaussa homonymia ja polysemia aiheuttavat ongelmia lähinnä haun tarkkuudelle. Jos haluamme tietoa vaaroista (merkityksessä mäki), hakuun tulee mukaan myös tietoa vaaroista toisessa merkityksessä (tilanne, jossa uhkaa onnettomuus tai vahinko).

WSD, word sense disambiguation, on automaattinen luonnollisen kielen käsittelyn menetelmä, jonka päämärä on löytää sanan oikea merkitys useista tarjolla olevista merkityksistä. WSD:llä on kaksi eri tapaa disambiguoida sanojen merkityksiä:

  • manuaalisesti tehdyt säännöt
  • sanakirjaan, tekstikorpukseen tai tesaurukseen perustuvat menetelmät


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.38 Muokkaa