Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Tiedonhaun kieliteknologia - johdantoa

Tiedonhaun kieliteknologiassa liikutaan usean tieteen alueella. Oleellisimpia ovat luonnollisestikin tiedonhaku, kielitiede sekä kieliteknologia. Rajat alojen välillä eivät ole selkeitä, vaan alalta toiselle liikutaan melkein huomaamatta. On myös huomattava, että tiedonhaku on tieteellisestä luonteestaan huolimatta hyvin käytännöllinen ala: sillä pyritään ihmisten käytännön tiedontarpeiden tyydyttämiseen, olkoonkin että toiminnan takana on teorioita.

Keskeisesti tällä kurssilla käsitellään asioita, joista on selkeää hyötyä tiedonhaussa, siis sellaista kielitieteellistä ja kieliteknologista tietämystä ja osaamista, jota voidaan soveltaa tiedonhaun arjessa. Tiedonhaun kannalta toimivat ratkaisut voivat olla kieliteknologisesti hyvinkin yksinkertaisia. Monivaiheinen kieliteknologinen käsittely ei välttämättä tuo lisäarvoa tiedonhakuun.

Kielitiede

Lingvistiikka eli yleinen kielitiede on niin sanottujen luonnollisten kielten tutkimusta. Luonnollisilla kielillä tarkoitetaan ihmisyhteisöjen käyttämiä kieliä, olipa kyse puhutuista, viitotuista tai kirjoitetuista kielimuodoista.

Kieliteknologia

Kieliteknologia on vanhalta nimeltään tietokonelingvistiikka. Siinä yhdistyvät kielitiede ja tietotekniikka. Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen automaattiseen käsittelyyn. Kieliteknologian sovellusalueita ovat mm. puheteknologia, luonnollisen kielen käyttöliittymät, tietokoneavusteinen kielenoppiminen, kielenkääntämisen apuvälineet, automaattinen kääntäminen, automaattinen morfologinen ja syntaktinen analyysi.

Tiedonhaku

Tiedonhaku (information retrieval, IR) on yksi informaatiotutkimuksen osa-alueista. Tiedonhaun tarkoituksena on löytää relevantteja dokumentteja, jotka täyttävät tiedonhakijan tiedontarpeen. Tiedonhaku tapahtuu tietokoneiden avustuksella erilaisissa tiedonhakujärjestelmissä, jotka pohjautuvat erilaisiin matemaattisiin menetelmiin (katso esimerkiksi kurssia Tiedonhaun menetelmät verkossa).

Tiedonhaun tavoitteena on tiedontarpeiden tyydyttäminen. Tiedonhaussa pyritään löytämään tiedontarpeiden tyydyttämistä mahdollisimman hyvin palveleva dokumentti tai dokumenttijoukko. Löydettävien dokumenttien tulee olla rakenteensa, sisältönsä ja ulkoasunsa puolesta tiedontarvitsijoille sopivia ja hyödyllisiä. Nykyisten tiedonhakujärjestelmien avulla ei tähän tavoitteeseen vielä päästä. Perinteisesti vaikein ongelma on ollut dokumenttien sisällön sopivuus. (Järvelin & Kekäläinen 2002)

Tiedonhakija kohtaa ainakin seuraavat ongelmat:

  • luonnollisella kielellä esitetty hakutehtävä on epätäydellinen, epätäsmällinen ja moniselitteinen
  • mahdollisesti sopivia hakuavaimia on monia
  • nämä hakuavaimet esiintyvät usein myös tiedontarvitsijalle hyödyttömissä dokumenteissa
  • hakuohjelmien täsmäytysmekanismi on rajoittunut: vain suhteellisen yksinkertaisia ilmaisuja, kuten sanoja ja sanaliittoja, voidaan etsiä ja ilmiasultaan sopivia ilmaisuja ei aina voida erotella sopimattomista ilmaisuista.

(Järvelin & Kekäläinen 2002)

Näistä syistä hakijalle jää vastuu hakutehtävän ymmärtämisestä, oikeiden hakuavainten huomaamisesta ja sopivan hakutavan valinnasta hakuohjelman ja tietokannan asettamissa rajoissa. Lyhyesti sanottuna tiedon tallennus- ja hakujärjestelmät ovat yksinkertaisia järjestelmiä, joiden tuloksellinen käyttö edellyttää fiksuja käyttäjiä.

Luonnollisen kielen automaattisen käsittelyn vaiheita (ja samalla kielen tasoja) ovat seuraavat (Järvelin & Kekäläinen 2002):

  • Sananmuotojen morfologinen analyysi (morphological analysis): sanojen palauttaminen perusmuotoon ja tietoihin taivutuspiirteistä. Esimerkiksi sananmuoto "menisi" on "mennä" -verbin konditionaalin preesensin 3. persoonan muoto ("hän men+isi") tai sen kieltomuoto ("hän ei men+isi").
  • Morfologisten moniselitteisyyksien ratkonta eli disambiguointi, esimerkiksi lauseessa "hän menisi sinne" sananmuodon "menisi" oikea tulkinta on 1:ssä mainittu verbin konditionaalin preesensin 3. persoonan muoto, ei sen kieltomuoto.
  • Morfologisesti analysoitujen lauseiden syntaktinen analyysi eli lauseenjäsennys, jossa määritellään kunkin sananmuodon syntaktinen tehtävä lauseessa. Lauseessa "hän menisi sinne" sananmuoto "hän" on subjekti, "menisi" on predikaatti ja "sinne" on adverbiaali.
  • Lauseiden kirjaimellisen merkityksen (literal meaning) tulkinta. Esimerkiksi verbi "mennä" edellä tarkoittaa konkreettista liikettä, joka ei ole kovin nopeaa, jonka myötä elävä olio siirtyy, usein paikasta toiseen. Verbillä mennä on muitakin merkityksiä kuten "sujua".
  • Lauseen kontekstimerkityksen (contextual meaning) tulkinta. Sana "hän" edellisessä lauseessa tarkoittaa tekstiyhteydessään henkilöä, josta ilmeisesti on aiemmin ollut puhetta ja joka siten voidaan kenties tarkasti tunnistaa. Samaten sana "sinne" viitannee paikkaan, joka selvinnee kontekstin avulla.

Tekstin merkityksen automaattisesta tulkinnasta (kaksi viimeistä vaihetta) ei ole vielä suurta apua tiedonhaussa. Toisaalta jo pelkästään kolmen ensimmäisen käsittelyvaiheen automaattisilla menetelmillä on merkittävää käyttöä tiedon tallennuksessa ja haussa. Haun ongelmat eivät edes oleellisilta osiltaan ratkeaisi, vaikka aiheittensa ja muotonsa puolesta rajoittamattomien dokumenttien tekstin merkityksen automaattinen tulkinta onnistuisikin.

"Information goes beyond meaning" — tiedonhaun tarkoitus ei ole merkitysten haku vaan sellaisen tiedon (käsiterakenteiden) haku, joka voi muokata vastaanottajan tietämystä (Ingwersen 1992). Tällainen informaatio tulkitaan tekstistä eivätkä sen tulkinnan ehdot ole vain tekstissä itsessään vaan myös tulkitsijan ongelmallisessa tilanteessa. On usein vaikea ellei mahdotonta kuvata ennen dokumenttien löytämistä, millaisia merkityksiä niiden tekstissä pitäisi lingvistisen tulkintaohjelman tulkitsemana olla, jotta ne olisivat relevantteja.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 1.9.2009 16.59 Muokkaa