Yliopistologo

YTL, DI Eero Sormusen informaatiotutkimuksen alaan kuuluva väitöskirja

A Method for Measuring Wide Range Peformance of Boolean Queries in Full-Text Databases (Menetelmä Boolen kyselyiden tehokkuuden mittaamiseen tekstitietokannoissa)

tarkastetaan 13.5.2000 klo 12 Tampereen yliopiston Pinnin kiinteistön Paavo Koli -salissa, osoitteessa Kehruukoulunkatu 1.

Vastaväittäjänä on professori Stephen Robertson (Microsoft Research Laboratory/City University, Englanti). Kustoksena toimii professori Kalervo Järvelin.

***

Sormunen on syntynyt Kontiolahdella 24.1.1953. Hän on suorittanut ylioppilastutkinnon 1972 Joensuun Normaalilyseossa. Sormunen on valmistunut diplomi-insinööriksi Tampereen teknillisestä korkeakoulusta 1978 ja yhteiskuntatieteiden lisensiaatiksi Tampereen yliopistosta 1994. Hän on toiminut tutkimusapulaisena Tampereen teknillisen korkeakoulun kirjastossa 1979, tutkijana VTT Tietopalvelussa Espoossa, Oulussa ja Tampereella 1980-1988, erikoistutkijana VTT Tietopalvelussa Tampereella 1988-1990 ja apulaisprofessorina (mvs) Tampereen yliopiston informaatiotutkimuksen laitoksella 1990-1991. Sormunen on toiminut erikoistutkijana ja tutkimusjaoston päällikkönä VTT Tietopalvelussa Tampereella 1991-1994, apulaisprofessorina (mvs) Tampereen yliopiston informaatiotutkimuksen laitoksella 1994-1995, yliassistenttina (mvs) Tampereen yliopiston informaatiotutkimuksen laitoksella 1995-1996, apulaisprofessorina (mvs) Tampereen yliopiston informaatiotutkimuksen laitoksella 1996-1998 ja professorina (mvs) Tampereen yliopiston informaatiotutkimuksen laitoksella 1998 lähtien.

Sormusen väitöskirja ilmestyy sarjassa Acta Universitatis Tamperensis; 748, Tampereen yliopisto, Tampere 2000. ISBN 951-44-4820-0, ISSN 1455-1616. Ilmestyy myös sähköisenä sarjassa Acta Electronica Universitatis Tamperensis; 34, Tampereen yliopisto 2000. ISBN 951-44-4732-8, ISSN 1456-954X.

Väitöskirjan tilausosoite: Virtuaalinen kirjakauppa Granum tai Tampereen yliopiston julkaisujen myynti, PL 617, 33101 Tampere, puh. (03) 215 6055, e-mail: taju@uta.fi.

Lisätietoja: Eero Sormunen, (03) 215 6972 (työ), (03)316 0552 tai 0400-739 061 (koti), lieeso@uta.fi, http://www.info.uta.fi/~lieeso/

TIIVISTELMÄ

Tiedonhakujärjestelmillä on rajansa - Mutta mikä olisi paras hakulauseke?

Väitöskirjatutkimuksessa kehitettiin uusi menetelmä tiedonhakujärjestelmien toiminnallisen tehokkuuden mittaamiseen, havainnollistettiin menetelmän soveltamismahdollisuuksia suuriin tekstitietokantoihin liittyvän tutkimuksen avulla sekä arvioitiin menetelmän käyttökelpoisuutta.

Tiedonhakujärjestelmät ovat vuorovaikutteisia atk-sovelluksia, joiden avulla hakijaa kiinnostavien dokumenttien löytäminen pyritään tekemään mahdollisimman vaivattomaksi. Suuriin dokumenttiaineistoihin liittyvät tiedonhaun ongelmat ovat tuttu ilmiö esimerkiksi Internetin sanahakupalveluja (esim. AltaVista tai Ihmemaa) käyttäville. Tiedonhaun kokeellisessa tutkimuksessa pyritään selvittämään miten hyvin tiedonhakujärjestelmät toimivat käyttäjän näkökulmasta ja löytämään uusia menetelmiä hakujen tehostamiseksi. Teknisen järjestelmän toiminnan arviointi on ollut kuitenkin hankalaa, koska perinteiset tutkimusmenetelmät eivät ole selkeästi pystyneet erottelemaan hakijan ja teknisen järjestelmän vaikutusta.

Kehitetty tutkimusmenetelmä perustuu testikokoelman käyttöön, joka sisältää tekstidokumenttien tietokannan, suurehkon joukon määriteltyjä testihakutehtäviä sekä relevanssiarviot siitä, mitkä dokumentit sisältävät testihakutehtävien edellyttämää informaatiota. Väitöskirjatutkimus tuotti kaksi merkittävää menetelmäinnovaatiota:

Testihakutehtävät annetaan yhden tai useamman ammattihakijan analysoitavaksi ja he laativat niistä hyvin kattavat hakusuunnitelmat. Kattavat hakusuunnitelmat kuvaavat periaatteessa kaikki vaihtoehtoiset tavat muotoilla järkeviä kyselyjä annetusta testitehtävästä. Kattavien hakusuunnitelmien perusteella voidaan muodostaa ns. kyselyjen säätelyavaruus. Perinteisissä menetelmissä testitehtäviä edustavat kyselyt tuotetaan melko sattumanvaraisesti ja kattavat vain suppeita osia kyselyjen säätelyavaruudesta.

Toinen innovaatio liittyy kaikkein parhaiten toimivan kyselyn löytämiseen kaikkien tarjolla olevien joukosta. Tämä perustuu kahteen automaattiseen prosessiin, joissa hakusuunnitelmat pilkotaan ensin alkeiskyselyiksi, joista koostetaan parhaiten toimiva alkeiskyselyjen yhdistelmä optimointialgoritmia käyttäen. Optimoinnissa käytetään hyväksi relevanssitietoja ja sen optimointitavoite voidaan määritellä eri hakutilanteita vastaavasti. Optimoinnin tavoitteeksi voidaan esimerkiksi asettaa kysely, joka minimoi käyttäjän selailuvaivan hänen etsiessään kaikki relevantit dokumentit tai vain kymmenen parasta. Menetelmä pystyy näin kartoittamaan teknisen tiedonhakujärjestelmän toiminnallisen tehokkuuden ylärajan eri tilanteissa. Hakija ei missään oloissa voi ylittää tuota tasoa olipa hän kuinka taitava hakija tahansa.

Väitöskirjatutkimuksessa on raportoitu laaja esimerkkitutkimus, jossa menetelmällä selvitettiin suurten tekstitietokantojen tiedonhakuongelmien luonnetta. Tutkimuksessa pystyttiin löytämään uutta tietoa mm. parhaiten eri hakutilanteissa toimivista kyselyrakenteista sekä näyttämään missä tilanteissa perinteiset Boolen kyselyt toimivat hyvin, missä tilanteissa kohdataan ongelmia. Tietokannan suuruus, esimerkiksi Internetin sadat miljoonat dokumentit, eivät yleensä ole ongelma teknisen hakujärjestelmän kannalta, jos haetaan rajattua määrää, vaikkapa 10 tietyn aihepiirin dokumenttia. Sen sijaan käyttäjä voi pitää vastaavaa tilannetta ongelmallisena, jos hän ei keksi miten hyödyntää tehokkaasti järjestelmän mahdollisuuksia.

Tutkimusmenetelmän käyttökelpoisuutta arvioitiin mm. esittelemällä sen soveltamismahdollisuuksia, vertaamalla menetelmän käytön tehokkuutta ja taloudellisuutta perinteisiin menetelmiin ja testaamalla empiirisesti kattavien hakusuunnitelmien ja optimointituloksen uskottavuutta. Voitiin todeta, että menetelmä täyttää keskeiset tieteellisessä tutkimuksessa menetelmille asetetut kriteerit.

Tutkimuksen keskeinen tieteellinen hyöty on siinä, että se kaataa raja-aitoja laboratorio- ja käyttäjäsuuntautuneiden tutkimuslinjojen väliltä. Tiedonhaun ilmiöitä voidaan tutkia laboratorioympäristössä niin, että hakija kyselyjen muotoilun asiantuntijana otetaan mukaan tiedonhakuprosessiin eikä eristetä siitä. Käytännön hakijan näkökulmasta tutkimuksessa pystyttiin hahmottelemaan perinteisten Boolen-hakujärjestelmien maksimaalista toimintamekanismia suurissa tekstitietokannoissa. Yksittäiseen tiedonhakuun liittyvää vastausta tutkimus ei luonnollisesti voi antaa mutta se auttaa huomaamaan eri tilanteissa, mistä suunnasta parhaiten toimivaa Boolen lauseketta kannattaa lähteä hakemaan.


Väitökset    Tampereen yliopiston kirjasto   Tampereen yliopisto