Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Esimerkki sanakirjaperusteisesta käännössysteemistä: UTACLIR

UTACLIR-kyselynkäännössovellus on kehitetty Tampereen yliopiston informaatiotutkimuksen laitoksella. UTACLIR:n ideana on kääntää kukin kyselyn sana erikseen lähtökieleltä kohdekielelle. UTACLIR ei käytä POS-menetelmiä eikä esim. fraaseja yritetä tunnistaa. UTACLIR sinänsä on vain kehysohjelmisto, joka käyttää hyväkseen ulkopuolisia kieliresurseja:

  • lähtökielen lemmatoija (ei välttämätön, jos kyselyjen sanat annetaan perusmodossa)
  • kohdekielen lemmatoija tai stemmeri (riippuen kohdeindeksistä)
  • lähtö- ja kohdekielen sulkusanalistat (eivät välttämättömiä)
  • käännössanakirja
  • s-gram -sovellus ja lista kohdeindeksin sanoista (eivät välttämättömiä)

UTACLIR:n tavoitteena on selvitä yhdyssanojen, sanojen taipumisen, OOV-sanojen ja monitulkintaisuuden aiheuttamista ongelmista. Sanan käsittely UTACLIR:ssä etenee seuraavaan tapaan:

  • Sana normalisoidaan käyttäen lähtökielen lemmatoijaa
  • Jos sana on sulkusana, käsittely loppuu tähän
  • Yritetään kääntää sana
  • Jos sana kääntyy, se normalisoidaan käyttäen kohdekielen lemmatoijaa tai stemmeriä, riippuen kohdeindeksistä
  • Poistetaan mahdolliset kohdekielen sulkusanat
  • Jos sana ei käänny, testataan lähtökielen lemmerin avulla, onko kyseessä yhdyssana
  • Mahdollinen kokonaisena kääntymätön yhdyssana pilkotaan osiinsa, ja osat käännetään erikseen
  • Sanakirjan ulkopuolisiin menetelmiin voidaan soveltaa s-gram-menetelmiä
  • Jos sanalle löytyy useampi käännös, ne liitetään toisiinsa #syn-operaattorilla kohdekielisessä kyselyssä.

Monissa kieltenvälisen tiedonhaun tutkimuksissa rakenteisten #syn-operaattori -kyselyjen on todettu olevan tehokkaita. Niiden keskimääräinen tarkkuus on usein lähes samalla tasolla kuin vastavien yksikielisten kyselyjen. Tämä johtuu #syn-operaattorin disambiguointi-vaikutuksesta. Toisin sanoen, vaikka kohdekielen kyselyissä on usein paljon väärin käännettyjä sanoja, #syn-operaattorin johdosta huonojen sanojen vaikutus on vähäinen. (Asiasta kiinnostuneet voivat katsoa esim. artikkelia Pirkola, Hedlund, Keskustalo and Järvelin. 2001. Dictionary-based cross-language information retrieval: problems, methods, and research findings. Information Retrieval 4(3/4), 209-230).


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.51 Muokkaa