Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Kieltenvälisen tiedonhaun tutkimusta

Talvensaari ja kumppanit (2007) tutkivat paralleelikorpusten muodostamista ja korpuskääntämistä. Lähtökielisenä kokoelmana heillä oli ruotsalainen sanomalehtikokoelma. Kohdekielinen aineisto muodostui englanninkielisistä (amerikkalaisista) lehtiartikkeleista. Aluksi jokaisesta lähtökielisestä dokumentista muodostettiin kysely uuttamalla dokumenteista parhaat avaimet käyttäen RATF-kaavaa (relative average term frequency). Näin muodostetut kyselyt käännettiin sanakirjaperustaisella menetelmällä (UTACLIR). Paralleelidokumentteja valittaessa käytettiin kolmea kriteeriä: artikkelin julkaisupäivä, hakujärjestelmän antama pisteytys ja dokumentin järjestysnumero tulosjoukossa. Noin 18 % lähtödokumenteista löytyi vastinpari. Kirjoittajat vertailivat seitsemän erilaisen käännösmenetelmän tuloksia toisiinsa. Parhaiten menestyivät erilaiset sanakirjakäännöksen ja korpuskäännöksen yhdistelmät.

Järvelin ja kumppanit (2006) tutkivat merkkijonotäsmäytykseen perustuvaa kääntämistä sukulaiskielten välillä (norja-ruotsi). Menetelmä perustuu kyselyn sanojen täsmäyttämiseen indeksin sanojen kanssa, joten ulkoisia resursseja (sanakirjoja, lemmatoijia tms.) ei tarvita ollenkaan. Menetelmä perustuu siihen, että monet sukulaiskielten sanat muistuttavat toisiaan kirjoitusasultaan. Baseline oli sanakirjakäännös.Merkijonotäsmäytykseen perustuvat käännösmenetelmät pärjäsivät kohtuullisen hyvin: parhaiden grammikyselyjen tulokset eivät eronneet tilastollisesti merkittävästi baselinesta.

Airio (2006) tutki kaksikielistä tiedonhakua (englanti-suomi, englanti-saksa, englanti-ruotsi) eri tavoin muodostetuissa indekseissä. Indeksityyppejä oli kolme: 1) stemmattu indeksi, 2) perusmuotoistettu indeksi, jossa yhdyssanat esiintyivät myös pilkottuina ja 3) perusmuotoinen indeksi, jossa yhdyssanoja ei ollut pilkottu. Paras tulos kaikilla kielipareilla saatiin vaihtoehdolla 2). Syynä tähän oli se, että lähtökieliset eli englanninkieliset kyselyt sisälsivät fraaseja. Otetaan esimerkki englanti-suomi -testistä, jossa haun aiheena oli ydinjätekuljetus. Englanninkielisessä kyselyssä esiintyi fraasi nuclear transport. Kun yhdyssanojen osia ei ollut tallennettu indeksiin, haku nuclear transport (käännettynä ydin #syn( kuljetus matkanaikana rahtimaksu kulkuneuvo pika kuljettaa) ei löydä dokumenttia, jossa puhutaan ydinjätekuljetuksesta. Jos yhdyssanat ositetaan indeksointivaiheessa, sanasta ydinjätekuljetus indeksoidaan: ydinjätekuljetus, ydin, jäte, joten ydinjätekuljetuksesta kertovat dokumentit löytyvät.


Pirkola ja kumppanit (2003) tutkivat rakenteisia kyselyjä englanti-suomi -haussa. Kyselyjen kääntämiseen käytettiin sanakirjaa. Kustakin lähtösanasta käännetyt kohdesanat yhdistettiin kyselyssä SYN-operaattorilla. Rakenteiset kyselyt pärjäsivät paljon paremmin kuin rakenteettomat, jossa kaikki sanat laitettiin kyselyyn samanarvoisina. Kirjoittajat testasivat myös läheisyysoperaattorin vaikutusta yhdyssanoissa suomi-englanti -haussa. Siis kun lähtökielisessä (suomenkielisessä) kyselyssä oli yhdyssana, sen osat käännettiin ja yhdistettiin kyselyssä läheisyysoperaattorilla. Läheisyysoperaattorin käyttö ei kuitenkaan parantanut tulosta.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.54 Muokkaa