Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Käännösmenetelmät

Konekääntäminen

Konekääntäminen (Machine Traslation, MT) on kieltenvälisessä tiedonhaussa paljon käytetty menetelmä. Konekäännösohjelma analysoi tekstin morfologisesti, syntaktisesti ja semanttisesti erikoissanakirjoja käyttäen.

Konekäännös perustuu taustalla olevaan sanakirjaan sekä sanojen lauseyhteyteen. Konekäännöksen ideana on kääntää annettu lause täydelliseksi kohdekielen lauseeksi. Konekäännössovelluksia ei siis ole suunniteltu tiedonhakua silmälläpitäen: yksittäisitä sanoista koostuva kysely ei välttämättä anna riittävästi kontekstia hyvän käännöksen tuottamiseksi. Lausetta muistuttavien kyselyjen kääntäminen sen sijaan sujuu hyvin.

Muut konekääntämisen ongelmat liittyvät kääntämisessä käytettäviin sanakirjoihin: sanakirjoista puuttuvat yhdyssanat, sanaliitot ja erisnimet jäävät kääntymättä.

Konekäännösohjelmat antavat vain yhden käännösvaihtoehdon kullekin kyselyn sanalle, mikä saattaa vaikuttaa negatiivisesti saantiin. Toisaalta tarkkuus voi olla hyvä, jos käännösvaihtoehto sattuu olemaan juuri se oikea. 

Konekäännöstä voidaan soveltaa kieltenväliseen tiedonhakuun kääntämällä joko kyselyt tai koko dokumenttikokoelma. Dokumenttien kääntäminen ei ole saanut suurta suosiota, koska se on suuritöistä.

Sanakirjaperustainen kääntäminen

Sanakirjakääntäminen on konekääntämisen ohella suosittua kieltenvälisessä tiedonhaussa. Toisin kuin konekääntäminen, sanakirjakääntäminen soveltuu myös harvinaisille kielille, koska kaksikielisiä sanakirjoja on paremmin tarjolla kuin konekäännösohjelmia.

Toisin kuin konekääntäminen, sanakirjaperustainen kääntäminen antaa kullekin sanalle kaikki (sanakirjassa olevat) käännösvaihtoehdot. Oikean käännöksen menettämisestä ei siis ole vaara (olettaen, että kyseessä on hyvä sanakirja). Toisaalta tästä seuraa, että käännettyyn kyselyyn voi tulla roskaa, jos käännettävä sana on polyseeminen tai homonyyminen. 

Sanakirjaperustaisella menetelmällä on omat ongelmansa, joista kolme on samoja kuin MT:n ongelmat: sanakirjasta puuttuvat yhdyssanat, sanaliitot ja erisnimet jäävät kääntymättä. Ongelmia aiheuttavat lisäksi käännettävässä kyselyssä mahdollisesti esiintyvät taipuneet sanat sekä sanojen mahdollinen monimerkityksisyys.

Korpuksiin perustuva kääntäminen

Rinnakkaiskorpukset (parallel corpora) ovat yksi vaihtoehto kääntämiselle. Rinnaikkaiskorpuksissa on kahdella kielellä kirjoitettuja dokumentteja, jotka ovat toistensa käännöksiä. Vertaiskorpukset puolestaan sisältävät saman aihepiirin dokumentteja kahdella eri kielellä.

Rinnakkaiskorpuksista (tai vertaiskorpuksista) pyritään löytämään lauseparit. Aluksi poistetaan välimerkit sekä etsitään lauseiden ja kappaleiden rajat. Lausepareista etsitään sanojen käännösvastineita. Tämä voi perustua esim. sanojen tilastolliseen yhteisesiintymiseen lauseissa. Menetelmällä voidaan esimerkiksi konstruoida "tilastollinen käännössanakirja", joka sisältää sanaparit ja todennäköisyyden sille, että käännös on oikea.

Jotta korpuksiin perustuva kääntäminen toimisi hyvin, tulee käytettävien korpusten olla tarpeeksi suuria. Toisekseen, menetelmää voidaan käyttää vain korpusten aihepiiriin kuuluvien kyselyiden kääntämiseen. Parhaimmin korpuskääntäminen sopii täydentämään muita käännösmenetelmiä.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.48 Muokkaa