Yliopistologo

YTL Jaana Kekäläisen informaatiotutkimuksen alaan kuuluva väitöskirja

The Effects of Query Complexity, Expansion and Structure on Retrieval Performance in Probabilistic Text Retrieval (Hakukyselyjen kompleksisuuden, laajentamisen ja rakenteen vaikutukset hakujen tuloksellisuuteen todennäköisyyslaskentaan perustuvassa tekstihaussa)

tarkastetaan 18.6.1999 klo 12 Tampereen yliopiston Pinnin kiinteistön Paavo Koli -salissa, osoitteessa Kehruukoulunkatu 1.

Vastaväittäjänä on professori Micheline Beaulieu University of Sheffieldistä. Kustoksena toimii professori Kalervo Järvelin.

***

Kekäläinen on syntynyt Sumiaisissa 13.3.1960. Hän on suorittanut ylioppilastutkinnon Jyväskylän Lyseon lukiossa 1979 ja valmistunut yhteiskuntatieteiden lisensiaatiksi Tampereen yliopistosta 1992. Kekäläinen on toiminut Tampereen yliopistossa informaatiotutkimuksen laitoksen assistenttina 1990-95, tutkijana KaMu-projektissa 1996-98 ja tutkijana Suomen Akatemian rahoittamassa TEQIR-projektissa 1998-2001.

Kekäläisen väitöskirja ilmestyy sarjassa Acta Universitatis Tamperensis, Vammalan Kirjapaino Oy, Vammala 1999. ISBN 951-44-4596-1 ISSN 1455-1616

Väitöskirjan tilausosoite: Tampereen yliopiston julkaisujen myynti, PL 617, 33101 Tampere, puh. (03) 215 6055, e-mail: taju@uta.fi.

Lisätietoja: Jaana Kekäläinen, puh. (03) 215 6546 (työ), (03) 261 7116 (koti), sähköposti: lijakr@uta.fi, kotisivu: http://www.uta.fi/~lijakr/

 

TIIVISTELMÄ

Väitöskirjatutkimus käsittelee elektronisten dokumenttien tekstihakua. Hakijan hakuaihe voidaan muotoilla tietokantaan syötettäväksi kyselyksi eri tavoin. Tutkimuksessa kyselyjä muunneltiin kolmella eri ulottuvuudella: (1) Kyselyjen kompleksisuus. Hakuaiheen käsitteet tunnistettiin ja niiden määrää vaihdeltiin kyselyissä (kompleksiset ja epäkompleksiset kyselyt). (2) Kyselyjen hakusanamäärä. Haun käsitteitä voidaan kuvata yhdellä tai useammalla hakusanalla. Kyselyistä tehtiin laajentamattomia (yksi hakusana käsitettä kohti) ja laajennettuja (useita synonyymisia, tai muuten semanttisesti läheisiä hakusanoja käsitettä kohti) versioita. (3) Kyselyjen rakenne. Kyselyn rakenteen avulla ilmaistaan hakusanojen keskinäiset suhteet ja se, miten kyselyjä ja dokumentteja täsmäytetään tulosjoukon muodostamiseksi. Rakenne ilmaistaan esimerkiksi operaattoreiden ja painojen avulla. Kyselyt olivat rakenteeltaan joko heikkoja (hakusanojen välisiä suhteita ei ilmaistu) tai vahvoja (hakusanat ryhmitelty edustamansa käsitteen mukaan).

Testitietokantana oli sanomalehtiartikkeleita sisältävä tekstikanta. Hakuaiheet edustivat sanomalehtiarkistojen käyttäjien (toimittajien) hakupyyntöjä. Hakujärjestelmänä oli todennäköisyyslaskentaan perustuva osittaistäsmäytys-järjestelmä (Inquery). Tutkimus osoitti, että kun kyselyt ovat lyhyitä (hakusanamäärä on pieni, tyypillisiä käyttäjien hakuja), kyselyn rakenne ei vaikuta paljonkaan hakutuloksiin. Kun hakuja laajennetaan (hakusanamäärää lisätään), rakenteen vaikutus on selvä: vahvarakenteisilla (käsiteperusteisilla) kyselyillä saadaan parhaat hakutulokset. Laajennettujen, vahvarakenteisten kyselyjen tuloksellisuus oli myös huomattavasti parempi kuin laajentamattomien (lyhyiden), heikkorakenteisten kyselyjen. Kompleksisuuden vaihtelu ei juurikaan vaikuttanut tuloksiin.

Näin ollen tekstikantojen käyttöliittymiä kannattaisi kehittää tukemaan käyttäjiä hakusanojen valinnassa ja haun muotoilussa. Usein hakusanojen muistaminen tai keksiminen on työlästä. Käyttäjän kannalta miellyttävintä olisi valita käsitteet, joista hän on kiinnostunut. Hakujärjestelmä voisi tarjota käyttäjälle käsitteitä kuvaavia hakuavaimia valittavaksi tai liittää ne automaattisesti kyselyyn. Järjestelmä voisi myös automaattisesti valita kyselylle rakenteen, joka on oletettavasti paras hakusanamäärän ja hakujärjestelmän huomioon ottaen.


Väitökset    Tampereen yliopiston tiedotus   Tampereen yliopisto