Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Leksikaaliset tietokannat

Leksikaalinen tietokanta on organisoitu kuvaus kielen lekseemeistä ja niiden välisistä semanttisista ja leksikaalisista suhteista. Se eroaa ontologiasta siinä, että ontologia sisältää eksplisiittiseen päättelyyn tarvittavaa tietoa, leksikaalinen tietokanta taas on leksikaalisesti orientoitunut. Tesauruksen ja leksikaalisen tietokannan ero on puolestaan siinä, että tesaurus on suunniteltu tiedonhakua varten ja sisältää kuvailutermejä, kun taas leksikaalinen tietokanta ei rajoitu kuvailutermeihin.

Leksikaaliset tietokannat ovat resursseja, jotka on suunniteltu pääasiassa tietokonekäyttöisiksi. Esimerkiksi hakukone voi käyttää hyväkseen leksikaalista tietokantaa tarjotessaan käyttäjille leksikaalista informaatiota. Muita käyttökohteita ovat mm. NLP-sovellukset (Natural Language Processing) ja tietokoneavusteinen kielenoppiminen.

WordNet

Tunnetuin leksikaalinen tietokanta on englanninkielinen WordNet. Se on systeemi, joka perustuu psykolingvistisiin teorioihin ihmisen leksikaalisesta muistista. WordNet on manuaalisesti tehty semanttinen verkosto tai leksikaalinen tietokanta tai käsitemalli (semantic net, lexical database, conceptual model). Wordnetissa sanat on ryhmitelty synonyymiryhmiksi (synonym sets) eli synseteiksi (synsets). Jokainen synsetti edustaa yhtä käsitettä. Esimerkiksi kaikki walk-verbin synonyymit ovat samassa synsetissä. Wordnetissa on käytössä neljä pääsanaluokkaa: substantiivit, verbit, adjektiivit ja adverbit.

Sanojen välillä on Wordnetissä useita semanttisia suhteita: synonymia, hyponymia, antonymia ja meronymia. Yksi sana (esim. substantiivi bank) voi kuulua useaan synsettiin ja useaan päähierarkiaan. Kokonaisuutena Wordnet käsittää kymmeniä tuhansia synsettejä.

Esimerkki: Wordnetin sana on polyseeminen, jos se esiintyy useammassa synsetissä. Sana base esiintyy monessa substantiivisynsetissä:

  • {base, alkali} = 'emäs'
  • {base, basis, foundation} = 'perusta'
  • ....

ja yhdessä verbisynsetissä {establish, base, found} = 'perustaa'.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 12.56 Muokkaa