Tiedonhaun kieliteknologiassa liikutaan usean tieteen alueella. Oleellisimpia ovat luonnollisestikin tiedonhaku, kielitiede sekä kieliteknologia. Rajat alojen välillä eivät ole selkeitä, vaan alalta toiselle liikutaan melkein huomaamatta. On myös huomattava, että tiedonhaku on tieteellisestä luonteestaan huolimatta hyvin käytännöllinen ala: sillä pyritään ihmisten käytännön tiedontarpeiden tyydyttämiseen, olkoonkin että toiminnan takana on teorioita.
Keskeisesti tällä kurssilla käsitellään asioita, joista on selkeää hyötyä tiedonhaussa, siis sellaista kielitieteellistä ja kieliteknologista tietämystä ja osaamista, jota voidaan soveltaa tiedonhaun arjessa. Tiedonhaun kannalta toimivat ratkaisut voivat olla kieliteknologisesti hyvinkin yksinkertaisia. Monivaiheinen kieliteknologinen käsittely ei välttämättä tuo lisäarvoa tiedonhakuun.
Lingvistiikka eli yleinen kielitiede on niin sanottujen luonnollisten kielten tutkimusta. Luonnollisilla kielillä tarkoitetaan ihmisyhteisöjen käyttämiä kieliä, olipa kyse puhutuista, viitotuista tai kirjoitetuista kielimuodoista.
Kieliteknologia on vanhalta nimeltään tietokonelingvistiikka. Siinä yhdistyvät kielitiede ja tietotekniikka. Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen automaattiseen käsittelyyn. Kieliteknologian sovellusalueita ovat mm. puheteknologia, luonnollisen kielen käyttöliittymät, tietokoneavusteinen kielenoppiminen, kielenkääntämisen apuvälineet, automaattinen kääntäminen, automaattinen morfologinen ja syntaktinen analyysi.
Tiedonhaku (information retrieval, IR) on yksi informaatiotutkimuksen osa-alueista. Tiedonhaun tarkoituksena on löytää relevantteja dokumentteja, jotka täyttävät tiedonhakijan tiedontarpeen. Tiedonhaku tapahtuu tietokoneiden avustuksella erilaisissa tiedonhakujärjestelmissä, jotka pohjautuvat erilaisiin matemaattisiin menetelmiin (katso esimerkiksi kurssia Tiedonhaun menetelmät verkossa).
Tiedonhaun tavoitteena on tiedontarpeiden tyydyttäminen. Tiedonhaussa pyritään löytämään tiedontarpeiden tyydyttämistä mahdollisimman hyvin palveleva dokumentti tai dokumenttijoukko. Löydettävien dokumenttien tulee olla rakenteensa, sisältönsä ja ulkoasunsa puolesta tiedontarvitsijoille sopivia ja hyödyllisiä. Nykyisten tiedonhakujärjestelmien avulla ei tähän tavoitteeseen vielä päästä. Perinteisesti vaikein ongelma on ollut dokumenttien sisällön sopivuus. (Järvelin & Kekäläinen 2002)
Tiedonhakija kohtaa ainakin seuraavat ongelmat:
(Järvelin & Kekäläinen 2002)
Näistä syistä hakijalle jää vastuu hakutehtävän ymmärtämisestä, oikeiden hakuavainten huomaamisesta ja sopivan hakutavan valinnasta hakuohjelman ja tietokannan asettamissa rajoissa. Lyhyesti sanottuna tiedon tallennus- ja hakujärjestelmät ovat yksinkertaisia järjestelmiä, joiden tuloksellinen käyttö edellyttää fiksuja käyttäjiä.
Luonnollisen kielen automaattisen käsittelyn vaiheita (ja samalla
kielen tasoja) ovat seuraavat (Järvelin & Kekäläinen 2002):
Tekstin merkityksen automaattisesta tulkinnasta (kaksi viimeistä vaihetta) ei ole vielä suurta apua tiedonhaussa. Toisaalta jo pelkästään kolmen ensimmäisen käsittelyvaiheen automaattisilla menetelmillä on merkittävää käyttöä tiedon tallennuksessa ja haussa. Haun ongelmat eivät edes oleellisilta osiltaan ratkeaisi, vaikka aiheittensa ja muotonsa puolesta rajoittamattomien dokumenttien tekstin merkityksen automaattinen tulkinta onnistuisikin.
"Information goes beyond meaning" — tiedonhaun tarkoitus ei ole merkitysten haku vaan sellaisen tiedon (käsiterakenteiden) haku, joka voi muokata vastaanottajan tietämystä (Ingwersen 1992). Tällainen informaatio tulkitaan tekstistä eivätkä sen tulkinnan ehdot ole vain tekstissä itsessään vaan myös tulkitsijan ongelmallisessa tilanteessa. On usein vaikea ellei mahdotonta kuvata ennen dokumenttien löytämistä, millaisia merkityksiä niiden tekstissä pitäisi lingvistisen tulkintaohjelman tulkitsemana olla, jotta ne olisivat relevantteja.