Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Kieltenvälinen tiedonhaku

Monikielisyyden lisääntyessä (esim. Internet, digitaalisen tekstimateriaalin määrän yleinen kasvu) on käynyt tarpeelliseksi kehittää tiedonhakua, jossa kysely ja dokumentit ovat erikielisiä. Kieltenvälisestä tiedonhausta on kyse silloin, kun tiedonhakija esittää kyselyn eri kielellä kuin millä hakujärjestelmässä olevat dokumentit on kirjoitettu. Esimerkiksi suomi-englanti -CLIR-järjestelmässä järjestelmä antaa palautteena suomenkieliseen kyselyyn englanninkielisiä dokumentteja.

Kyselyn kieltä nimitetään lähtökieleksi (source language) ja dokumenttien kieltä/kieliä kohdekieleksi/kohdekieliksi (target language).

CLIR:ssä yhdistyvät erilaiset kielelliset menetelmät, kuten sanakirjat, morfologinen käsittely, WSD jne., yksikieliseen tiedonhakuun. Kieltenvälinen tiedonhaku on melko tuore tutkimusala. CLIR-track on ollut TRECissä (Text Retrieval Conference) mukana vuodesta 1997. Kieltenvälisen tiedonhaun Workshop CLEF (Cross Language Evaluation Forum) on kokoontunut vuosittain v. 2000 lähtien.

Kaksikielinen (Bilingual) IR

Kaksikielinen tiedonhaku tarkoittaa tilannetta, jossa kaikki dokumentit on kirjoitettu samalla kielellä, joka siis eroaa lähtökielestä. Kaksikielinen tiedonhaku auttaa henkilöä, jolla on passiivinen kielitaito: hän ei ehkä osaa muotoilla kyselyä vieraalla kielellä, mutta kykenee kyllä ymmärtämään saamansa vastausdokumentit. Tiedonhakua helpottaa, kun kyselyn saa tehdä äidinkielellään.

Monikielinen (Multilingual) IR

Monikielisessä tiedonhaussa on useita kohdekieliä. Monikielisestä tiedonhausta on hyötyä henkilölle, joka osaa lukea useita kieliä ja hakee tietoa useilla kohdekielillä: hänen ei tarvitse muotoilla kyselyä kaikilla kielillä erikseen.

Monikielinen tiedonhaku soveltuu myös kuvatietokantoihin, joissa kuvatekstit voivat olla peräisin erikielisistä lähteistä.

Kyselyn ja dokumentin täsmäytys CLIR:ssä

Erikielisen kyselyn ja dokumentin täsmäyttämisessä on erilaisia vaihtoehtoja (Oard, D. W. & Diekema A. R. 1998).

  1. Kyselyn kääntäminen (query translation): suosituin ja tehokas menetelmä; ongelmana ovat lyhyet kyselyt, joissa syntyy helposti monitulkintaisuusongelma (koska ei ole kontekstisanoja)
  2. Dokumentin kääntäminen (document translation): vastakohta kyselyjen kääntämiselle - näin vältetään monitulkintaisuusongelmat ja saadaan aikaan käyttäjälle hyvä järjestelmä. Ongelmina ovat kalleus sekä tallennustilan ja ajan vieminen. Menetelmää on käytetty harvoin.
  3. Kieltenväliset menetelmät (interlingual techniques): käännetään sekä kysely että dokumentit yhtenäiselle kieliriippumattomalle keinotekoiselle kielelle, esimerkiksi dokumentointikielelle (monikielinen tesaurus). Dokumentit indeksoidaan tesauruksen avulla millä kielellä tahansa ja sitten haetaan minkä tahansa tesauruksen kielen avulla.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.47 Muokkaa