Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Sumea merkkijonotäsmäytys

Merkkijonotäsmäytys ei tarkkaan ottaen kuulu tiedonhaun lingvistisiin menetelmiin, koska se ei perustu  kielitieteeseen. Käsittelemme kuitenkin merkkijonotäsmäytysmenetelmiä tällä kursilla, koska niitä voidaan käyttää hyödyksi silloin kun lingvistiset menetelmät eivät toimi.

Merkkijonotäsmäytyksestä on hyötyä silloin, kun on kyse kirjoitusvarianteista. Esimerkiksi OCR-tunnistettua (Optical Character Recognition) tekstiä voidaan korjata merkkijonotäsmäytyksen avulla. Menetelmää voidaan soveltaa myös kirjoitusvirheiden korjaamiseen, samoin kuin translitteroitujen erisnimien tunnistamiseen. Leksikon ulkopuolisia sanoja (lemmatoijan leksikon tai sanakirjan leksikon) voidaan täsmäyttää leksikkoon merkkijonotäsmäytysmenetelmien avulla.Tiedonhakutilanteessa täsmäyttäminen kannattaa tehdä indeksin sanalistan kanssa.

Merkkijonotäsmäytysmenetelmät voivat perustua joko foneettiseen samankaltaisuuteen, merkkijonojen väliseen etäisyyteen tai alimerkkijonojen samanlaisuusmittaan. Foneettinen menetelmä voi olla hyödyllinen erisnimien täsmäytyksessä, koska nimet voivat kuulostaa samanlaisilta huolimatta erilaisesta kirjoitusasusta. Merkkijonojen välinen etäisyys tarkoittaa pienintä operaatioiden (merkin lisääminen, poistaminen, korvaaminen tai siirtäminen) määrää, jolla merkkijono voidaan muuntaa toiseksi.

n-grammausta ja s-grammausta voidaan käyttää esim. siten, että yritetään löytää indeksistä merkkijono tai merkkijonot, jotka mahdollisimman hyvin vastaavat kyselyssä esiintyvää sanaa. Tätä varten lasketaan kyselyn sanan ja kunkin indeksin sanan välille samanlaisuusaste. Tällaisen menetelmän käyttö edellyttää, että käytettävissä on kohdeindeksin sanalista. Väärää sanalistaa hyväksi käyttäen valitut kirjoitusvariantit saattavat olla täysin epärelevantteja (eivät siis välttämättä esiinny kohdeindeksissä ollenkaan). 



Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.53 Muokkaa