Konekääntäminen (Machine Traslation, MT) on kieltenvälisessä tiedonhaussa paljon käytetty menetelmä. Konekäännösohjelma analysoi tekstin morfologisesti, syntaktisesti ja semanttisesti erikoissanakirjoja käyttäen.
Konekäännös perustuu taustalla olevaan sanakirjaan sekä sanojen
lauseyhteyteen. Konekäännöksen ideana on kääntää annettu lause
täydelliseksi kohdekielen lauseeksi. Konekäännössovelluksia ei siis ole
suunniteltu tiedonhakua silmälläpitäen: yksittäisitä sanoista koostuva
kysely ei välttämättä anna riittävästi kontekstia hyvän käännöksen
tuottamiseksi. Lausetta muistuttavien kyselyjen kääntäminen sen sijaan
sujuu hyvin.
Muut konekääntämisen ongelmat liittyvät kääntämisessä käytettäviin sanakirjoihin: sanakirjoista puuttuvat yhdyssanat, sanaliitot ja erisnimet jäävät kääntymättä.
Konekäännösohjelmat antavat vain yhden käännösvaihtoehdon kullekin kyselyn sanalle, mikä saattaa vaikuttaa negatiivisesti saantiin. Toisaalta tarkkuus voi olla hyvä, jos käännösvaihtoehto sattuu olemaan juuri se oikea.
Konekäännöstä voidaan soveltaa kieltenväliseen tiedonhakuun kääntämällä joko kyselyt tai koko dokumenttikokoelma. Dokumenttien kääntäminen ei ole saanut suurta suosiota, koska se on suuritöistä.
Sanakirjakääntäminen on konekääntämisen ohella suosittua kieltenvälisessä tiedonhaussa. Toisin kuin konekääntäminen, sanakirjakääntäminen soveltuu myös harvinaisille kielille, koska kaksikielisiä sanakirjoja on paremmin tarjolla kuin konekäännösohjelmia.
Toisin kuin konekääntäminen, sanakirjaperustainen kääntäminen antaa
kullekin sanalle kaikki (sanakirjassa olevat) käännösvaihtoehdot.
Oikean käännöksen menettämisestä ei siis ole vaara (olettaen, että
kyseessä on hyvä sanakirja). Toisaalta tästä seuraa, että käännettyyn
kyselyyn voi tulla roskaa, jos käännettävä sana on polyseeminen tai
homonyyminen.
Sanakirjaperustaisella menetelmällä on omat ongelmansa, joista kolme on samoja kuin MT:n ongelmat: sanakirjasta puuttuvat yhdyssanat, sanaliitot ja erisnimet jäävät kääntymättä. Ongelmia aiheuttavat lisäksi käännettävässä kyselyssä mahdollisesti esiintyvät taipuneet sanat sekä sanojen mahdollinen monimerkityksisyys.
Rinnakkaiskorpukset (parallel corpora) ovat yksi vaihtoehto kääntämiselle. Rinnaikkaiskorpuksissa on kahdella kielellä kirjoitettuja dokumentteja, jotka ovat toistensa käännöksiä. Vertaiskorpukset puolestaan sisältävät saman aihepiirin dokumentteja kahdella eri kielellä.
Rinnakkaiskorpuksista (tai vertaiskorpuksista) pyritään löytämään lauseparit. Aluksi poistetaan välimerkit sekä etsitään lauseiden ja kappaleiden rajat. Lausepareista etsitään sanojen käännösvastineita. Tämä voi perustua esim. sanojen tilastolliseen yhteisesiintymiseen lauseissa. Menetelmällä voidaan esimerkiksi konstruoida "tilastollinen käännössanakirja", joka sisältää sanaparit ja todennäköisyyden sille, että käännös on oikea.
Jotta korpuksiin perustuva kääntäminen toimisi hyvin, tulee käytettävien korpusten olla tarpeeksi suuria. Toisekseen, menetelmää voidaan käyttää vain korpusten aihepiiriin kuuluvien kyselyiden kääntämiseen. Parhaimmin korpuskääntäminen sopii täydentämään muita käännösmenetelmiä.