Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Sanakirjaan perustuva disambiguointi

Sanakirjaan perustuvassa menetelmässä käytetään yksikielisen sanakirjan määritelmiä. Ratkaisevia tekijöitä disambiguoinnissa ovat:

  • sanakirjojen sanojen määritelmät
  • kontekstisanat
  • määritelmissä esiintyvien yhteisten sanojen määrä

Esimerkkikyselyn disambiguointi: There was ash from the coal fire

Kyselystä poistettiin ensin stop-sanat, ja jäljelle jäivät vain sanat ash, coal ja fire. Sanoille haettiin seuravaksi selitykset sanakirjasta ja ne perusmuotoistettiin. Sanakirja antaa sanoille seuraavat merkitykset:

Ash(1): The soft grey powder that remains after something has been burnt
Ash(2): A forest tree common in Britain
Coal: A black mineral which is dug from the earth, which can be burnt to give heat
Fire: The condition of burning; flames, light and great heat

Ash-sanan selitykset katsottiin pieneksi dokumenttikokoelmaksi (kaksi dokumenttia), koska juuri kyseinen sana on monitulkintainen. Kyselyssä sanalla oli kaksi kontekstisanaa: coal ja fire. Näiden kontekstisanojen selitykset tulkittiin kyselyksi. Sen jälkeen kysely suoritettiin ash-sanan kahteen merkitykseen ja ne järjestettiin tulosjoukoksi. Kärkeen sijoittunut merkitys valittiin ashin merkitykseksi. Täsmäytys perustui yhteisiin sanoihin kyselyssä ja dokumentissa.

Ash-sanan ensimmäisessä selityksessä esiintyi sana fire, joka esiintyi myös sanan coal selityksessä. Näin saatiin ratkaistuksi ashin monimerkityksisyys. (M. Lesk 1988).

Menetelmää on laajennettu käyttämällä erilaisia sanakirjoja (muun muassa ulkomaalaisille tarkoitettua yksinkertaistettua sanakirjaa), laajentamalla ylä,- ala- tai rinnakkaiskäsitteillä. (Wilks 1990). Tulokset paranivat Leskin tuloksista.

Sanakirjaperustainen disambiguointi ei kuitenkaan ole toiminut kovin tehokkaasti ja on kyseenalaista, tuleeko se koskaan toimimaankaan muussa kuin kokeellisessa ympäristössä.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.42 Muokkaa