YTM Anni Järvelinin informaatiotutkimuksen alaan kuuluva väitöskirja

Applications of S-grams in Natural Language Information Retrieval (S-grammien sovelluksia luonnollisen kielen tiedonhaussa)

tarkastetaan 18.12.2014 klo 12 Tampereen yliopiston Pinni B-rakennuksen luentosalissa 1097, Kanslerinrinne 1, Tampere.

Vastaväittäjänä on professori Paul Clough (Sheffieldin yliopisto, UK). Kustoksena toimii professori Eero Sormunen.

Menetelmiä luonnollisen kielen variaation hallintaan tiedonhaussa


Tiedonhakujärjestelmät perustuvat ajatukseen, että dokumenteissa esiintyvät sanat kuvaavat niitä aihepiirejä joihin dokumentti liittyy. Tiedonhakujärjestelmät toimivat sitten siten että tiedonhakijan (käyttäjän) järjetelmälle esittämiä hakusanoja verrataan dokumenttien sanoihin. Dokumentit joiden sanastossa  hakusanat ovat keskeisiä liittyvät todennäköisesti siihen aihepiiriin jota hakusanat kuvaavat ja ovat siten mahdollisesti relevantteja tiedonhakijalle.

Sanat esiintyvät teksteissä monissa eri muodoissa: sanat taipuvat ja sisältävät virheitä, niiden kirjoitusasu vaihtelee ajan myötä ja eri kielissä. Väitöskirjassani tutkin menetelmiä joiden avulla luonnollisessa kielessä esiintyvää variaatiota voidaan hallita siten että tiedonhakujärjestelmät voivat tunnistaa saman sanan eri muodot yhteenkuuluviksi. Esimerkiksi perusmuodossa esitetty hakusana pitäisi tunnistaa samaksi sanaksi kuin dokumenteissa esiintyvät taivutusmuodot. Olen keskittynyt tutkimuksessani yhden sumean merkkijonotäsmäytysmenetelmän, s-grammien, eri sovellusalueiden tutkimiseen. Olen käyttänyt menetelmää käännöksessä läheisten sukulaiskielten välillä, monikielisessä kuvatiedonhaussa, sekä historiallisten dokumenttien haussa.

Tutkimustulokseni osoittavat että yksinkertaisilla ja kieliriippumattomilla menetelmillä voidaan saavuttaa hyviä tuloksia. Etenkin s-grammit ovat sovellettavissa tilanteissa joissa korkealaatuisia kielitieteellistä informaatiota soveltavia menetelmiä ei ole syystä tai toisesta saatavilla.

                                               ******

Anni Järvelin on suorittanut yhteiskuntatieteiden maisterin tutkinnon Tampereen yliopistossa.

Järvelinin väitöskirja ilmestyy sarjassa Acta Universitatis Tamperensis; 2010, Tampere University Press, Tampere 2014. ISBN 978-951-44-9674-5, ISSN 1455-1616. Väitöskirja ilmestyy myös sähköisenä sarjassa Acta Electronica Universitatis Tamperensis; 1499, Tampere University Press 2014. ISBN 978-951-44-9675-2, ISSN 1456-954X.
http://tampub.uta.fi.

Väitöskirjan tilausosoite: Verkkokirjakauppa Granum, http://granum.uta.fi, tai e-mail: kirjamyynti@juvenes.fi.