Merkkijonotäsmäytys ei tarkkaan ottaen kuulu tiedonhaun lingvistisiin menetelmiin, koska se ei perustu kielitieteeseen. Käsittelemme kuitenkin merkkijonotäsmäytysmenetelmiä tällä kursilla, koska niitä voidaan käyttää hyödyksi silloin kun lingvistiset menetelmät eivät toimi.
Merkkijonotäsmäytyksestä on hyötyä silloin, kun on kyse
kirjoitusvarianteista. Esimerkiksi OCR-tunnistettua (Optical Character
Recognition) tekstiä voidaan korjata merkkijonotäsmäytyksen avulla.
Menetelmää voidaan soveltaa myös kirjoitusvirheiden korjaamiseen,
samoin kuin translitteroitujen erisnimien tunnistamiseen. Leksikon
ulkopuolisia sanoja (lemmatoijan leksikon tai sanakirjan leksikon)
voidaan täsmäyttää leksikkoon merkkijonotäsmäytysmenetelmien
avulla.Tiedonhakutilanteessa täsmäyttäminen kannattaa tehdä indeksin
sanalistan kanssa.
Merkkijonotäsmäytysmenetelmät voivat perustua joko foneettiseen samankaltaisuuteen, merkkijonojen väliseen etäisyyteen tai alimerkkijonojen samanlaisuusmittaan. Foneettinen menetelmä voi olla hyödyllinen erisnimien täsmäytyksessä, koska nimet voivat kuulostaa samanlaisilta huolimatta erilaisesta kirjoitusasusta. Merkkijonojen välinen etäisyys tarkoittaa pienintä operaatioiden (merkin lisääminen, poistaminen, korvaaminen tai siirtäminen) määrää, jolla merkkijono voidaan muuntaa toiseksi.
n-grammausta ja s-grammausta voidaan käyttää esim. siten, että
yritetään löytää indeksistä merkkijono tai merkkijonot, jotka
mahdollisimman hyvin vastaavat kyselyssä esiintyvää sanaa. Tätä varten
lasketaan kyselyn sanan ja kunkin indeksin sanan välille samanlaisuusaste. Tällaisen menetelmän käyttö edellyttää, että käytettävissä on kohdeindeksin sanalista. Väärää sanalistaa
hyväksi käyttäen valitut kirjoitusvariantit saattavat olla täysin epärelevantteja (eivät siis välttämättä
esiinny kohdeindeksissä ollenkaan).