Yliopistologo

YTM Ari Pirkolan informaatiotutkimuksen alaan kuuluva väitöskirja

Studies on Linguistic Problems and Methods in Text Retrieval: The Effects of Anaphor and Ellipsis Resolution in Proximity Searching, and Translation and Query Structuring Methods in Cross-Language Retrieval (Tutkimuksia tekstihaun lingvistisistä ongelmista ja menetelmistä: Anaforien ja ellipsien resoluution vaikutus läheisyysoperaatiohauissa, sekä käännösmenetelmien ja kyselyjen strukturointimenetelmien vaikutus kielten välisessä tiedonhaussa)

tarkastetaan 12.6.1999 klo 12 Tampereen yliopiston Attilan kiinteistön luentosalissa B 661, osoitteessa Yliopistonkatu 38.

Vastaväittäjänä toimii professori Timo Honkela Taideteollisesta korkeakoulusta. Väitöstilaisuuden kustoksena on professori Kalervo Järvelin.

***

Pirkola on syntynyt Jämsänkoskella 8.1.1956. Hän on suorittanut ylioppilastutkinnon Hakalehdon yhteiskoulussa Espoossa 1975 ja valmistunut yhteiskuntatieteiden maisteriksi Tampereen yliopistosta 1994. Pirkola on toiminut TISE-tutkijakoulun tutkijana 1.9.1995-31.8.1999, tutkijana Suomen Akatemian rahoittamassa TEQIR-projektissa 1999-2001 ja opettajana Tampereen yliopiston informaatiotutkimuksen laitoksella 1999 alkaen, erikoisalana tiedonhaku ja lingvistiikka.

Pirkolan väitöskirja ilmestyy sarjassa Acta Universitatis Tamperensis, Vammalan Kirjapaino Oy, Vammala 1999. ISBN 951-44-4582-1 ISSN 1455-1616

Väitöskirjan tilausosoite: Tampereen yliopiston julkaisujen myynti, PL 617, 33101 Tampere, puh. (03) 215 6055, e-mail: taju@uta.fi.

Lisätietoja: Ari Pirkola, puh. (014) 762 278 (koti), kotisivu: http://www.jyu.fi/~pirkola/

 

TIIVISTELMÄ

Väitöskirjatutkimus käsittelee tekstihakuun liittyviä lingvistisiä ongelmia. Tekstihaussa elektronisia dokumentteja haetaan tekstikannasta dokumenttien tekstisisällön perusteella luonnollista kieltä käyttäen. Luonnollisen kielen monimuotoisuus ja monitulkintaisuus aiheuttavat sen että relevantin tiedon löytäminen tekstikannoista on vaikeaa. Työssä tutkittiin (1) ellipsien (vaillinaisten ilmaisujen) ja anaforien (esim. pronominien, joka viittaavat aikaisempiin tekstielementteihin) resoluution vaikutusta läheisyysoperaatiohakujen tuloksiin tutkimustietokantana sanomalehtiartikkeleita sisältävä tekstikanta ja (2) kieltenvälistä tiedonhakua tutkimustietokantana n. 1/2 miljoonaa englanninkielistä dokumenttia sisältävä tekstikanta.

Tekstihaussa läheisyysoperaatioilla rajataan hakusanojen sallittua etäisyyttä dokumenteissa pyrkimyksenä taata hakusanojen semanttinen yhteys. Läheisyysoperaatiohauissa relevantteja dokumentteja voi jäädä löytymättä sen vuoksi, että osa hakusanoista on elliptisessä tai anaforisessa muodossa. Ellipsien ja anaforien resoluutio tarkoittaa niiden viittausten kohteiden (korrelaattien) tunnistamista. Ellipsit ja anaforat luokitettiin korrelaattien perusteella toisaalta erisnimiin ja yleisnimiin viittaaviin ja toisaalta yksittäisiin sanoihin, yhdyssanoihin ja sanaliittoihin viittaaviin ellipseihin ja anaforiin. Työssä osoitettiin, että läheisyysoperaatiohakujen tulokset paranevat resoluution ansiosta merkittävästi silloin, kun hakusanat ovat tyypiltään erisnimisiä sanaliittoja. Muissa tilanteissa resoluution vaikutukset olivat vähäiset. Tutkimuksessa osoitettiin myös, että erisnimisten sanaliittojen ellipsien ja anaforien resoluutio voidaan suorittaa tehokkaasti ilman syntaktisen tason kielen analyysia.

Kieltenvälisessä tiedonhaussa (cross-language information retrieval, CLIR) dokumentteja haetaan eri kielellä kuin millä tekstikannan dokumentit on kirjoitettu. Sanakirjaperusteisessa kieltenvälisessä tiedonhaussa lähdekielen (tutkimuksessa suomi) kyselyjen sanat käännetään kohdekielelle (tutkimuksessa englanti) elektronisten sanakirjojen avulla. Työssä tutkittiin mm. kyselyjen strukturoinnin vaikutusta CLIR-kyselyjen tehokkuuteen. Strukturoidut kyselyt ovat kyselyjä, joissa hakusanojen keskinäiset suhteet ilmaistaan sopivilla hakuoperaattoreilla. Tulokset osoittivat, että kyselyjen automaattinen strukturointi sanakirjojen antamien tulostietueiden perusteella samoin kuin käsiteanalyysin perustuva strukturointi parantavat CLIR-kyselyjen tehokkuutta merkittävästi. Strukturoidut CLIR-kyselyt olivat huomattavasti tehokkaampia kuin strukturoimattomat CLIR-kyselyt. Parhaalla käännösmenetelmällä käännettyjen strukturoitujen CLIR-kyselyjen tehokkuus oli samalla tasolla kuin vastaavien yksikielisten kyselyjen tehokkuus.


Väitökset    Tampereen yliopiston tiedotus   Tampereen yliopisto