Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Fraasien tunnistus tiedonhaussa

Fraasien tunnistus on tärkeää sekä yksikielisessä tiedonhaussa että kieltenvälisessä tiedonhaussa (CLIR). CLIRissä fraasien tunnistus on erityisen tärkeää: jos fraaseja ei tunnisteta ja käännetä fraaseina, niiden merkitys voi muuttua täysin käännöksessä.

Fraasien tunnistuksen edut ilmenevät parhaiten seuraavissa tapauksissa:

  • Ei-kompositionaaliset sanaliitot: komponenttisanojen käyttö hakusanoina koko sanaliiton sijasta tuottaa usein virheellisiä tuloksia (hot dog). Ei-kompositionaalinen fraasin kokonaisuuden merkitys ei ole osien summa: hot dog:lla ei ole mitään tekemistä koiran kanssa.
  • Komponenttisanat voivat olla liian yleisiä, ja tällöin niiden erottelukyky on heikko (junior college vs.college junior)

Fraasien tunnistuksen perusmenetelmiä on kolme erilaista:

  • Tilastolliset menetelmät (kollokaatio-tilastot)
  • POS-tunnistaminen
  • Syntaktinen analyysi

Näistä keinoista POS-tunnistus on jo käsitelty aiemmin. POS-tunnistus auttaa fraasisen tunnistamisessa siten, että tyypillisissä fraaseissa on tiettyjen sanaluokkien sanoja: a red house (Det Adj Noun) = NP. Kun POS-tunnistus on tehty, voidaan lausekkeita tunnistaa etsimällä sopivia sanaluokkajonoja.

Kollokaatiolla tarkoitetaan sanan merkitykseen perustuvaa taipumusta esiintyä yhdessä tietynlaisten sanojen kanssa, sanat siis kollokoivat keskenään. Jos kaksi tai usempi sana näyttää tesktikorpuksen tilastollisen tarkastelun perusteella esiintyvän usein peräkkäin, voidaan olettaa sanojen muodostavan fraasin.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 12.05 Muokkaa