Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Tutkimusta n-grammauksesta ja s-grammauksesta

n-grammeja ja s-grammeja on käytetty monella tapaa tiedonhaun tutkimuksessa.

Tampereen yliopistossa kehitetyssä UTACLIR-kyselynkäännössysteemissä voidaan käyttää s-grammausta kääntymättömien sanojen käsittelyyn. Kun siis jotain sanaa ei löydy sanakirjasta, oletetaan kyseessä olevan erisnimen, ja etsitään s-gram-täsmäytyksen avulla eniten k.o. sanaa muistuttavia indeksin sanoja. 

Harding ja kolleegat tutkivat 1997 n-grammausta OCR:n yhteydessä. Kirjoittajat tutkivat kahta grammiyhdistelmää indeksointiin ja hakuun: 1) di- ja trigrammit, ja 2) di-, tri- 4- ja 5-grammit. Molemmissa tapauksessa myös koko alkuperäinen sana indeksoitiin. Kirjoittajat sovelsivat menetelmiä eri kokoelmissa. Tulokset vaihtelivat kokoelmasta toiseen. Molemmat menetelmät paransivat kuitenkin tulosta verrattuna hakuun ilman n-grammeja.

The Hopkins Automated Information Retriever for Combing Unstructured Text (HAIRCUT) -systeemi perustuu n-grammeihin (Mayfield ja McNamee, 2005): niitä käytetään sekä indeksoinnissa että haussa. Systeemi on kieliriippuumaton. Mayfield ja McNamee tutkivat vuonna 2005 n-grammeja n:n arvoilla 3-7 yksikielisessä tiedonhaussa (englanti, saksa, ranska, espanja, italia, ruotsi, suomi ja hollanti). n-grammeja käytettiin siis sekä indeksoinnissa että haussa. Trigrammit ja 7-grammit eivät pärjänneet kovin hyvin, mutta 4-grammeilla ja 5-grammeilla saatiin hyvä tulos kaikilla kielillä.

Järvelin & Järvelin ovat käyttäneet s-grammeja kyselyjen kääntämiseen sukulaiskielten välillä. Tästä kerrotaan tarkemmin kurssin CLIR-osiossa. 


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.56 Muokkaa