Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Anaforien ja ellipsien merkitys tiedonhaussa

Anaforien ja ellipsien merkitys on tärkein seuraavissa yhteyksissä.

  • osittaistäsmäyttävien järjestelmien relevanssilajittelussa
  • indeksitermien painotuksessa
  • läheisyysoperaatiohauissa

Osittaistäsmäyttävissä tiedonhakujärjestelmissä relevanssilajittelu saattaa suosia termin taajaa esiintymistä. Jos termi esiintyy uein tulosjoukossa, sen sija tulosjoukossa on parempi. Tällöin anaforat ja ellipsit eivät rinnastu korrelaattiinsa, vaikka tarkoittvatkin samaa.

Indeksitermien painotuksessa asetetaan suurempi paino kyselyn tärkeimmille termeille. Painotus ei mene oikein, kun anaforassa ja ellipsissä tärkeä termi voi puuttua.

Painokaava: tf * idf (= termifrekvenssi * käänteinen dokumenttifrekvenssi) ei kykene ottamaan huomioon anaforia ja ellipsejä. Tekstistä tulee indeksiin esimerkiksi hakusana  John Smith. Myöhemmin dokumentissa viitataan henkilöön pronominilla he. Painoindeksille ei tapahdu mitään, joten haun tulos voi heikentyä.

Läheisyysoperaatiohaut ovat usein tehokas hakutapa. Anafora ja ellipsi heikentävät sen tehoa. Läheisyysoperaattoreilla rajataan hakuavainten sallittua etäisyyttä toisistaan dokumenteissa. Ne parantavat haun tarkkuutta. Esimerkiksi InQueryn sentence- ja paragraph -operaattorit ovat tyypillisiä läheisyysoperaattoreita. Sentence rajaa hakutermit esiintymään samassa virkkeessä, paragraph samassa kappaleessa.

Esimerkki läheisyysoperaattorin käytöstä: haetaan dokumentteja, joissa käsitellään veriryhmiä blood AND group. Tällöin löydetään esimerkiksi dokumentti, jossa on lauseet Test subjects that had arteriosclerosis, were didived into three groups. Their blood vessels.... Tässä ei ole kyse veriryhmistä. Parempi hakulauseke syntyy läheisyysoperaattorilla: prox(blood group*)

Läheisyysoperaattorit

Hakuavaimien etäisyys toisistaan rajoitetaan niiden väliin tulevien sanojen määrän perusteella. Inquery-esimerkki: #uw3(eteläinen amerikka). Tässä avainten tulee olla dokumentissa missä tahansa järjestyksessä 3 sanan kokoisessa ikkunassa (unordered window).

Hakuavaimien etäisyyden rajoittaminen dokumentin rakenteellisten tekijöiden perusteella (esimerkiksi lause tai kappale):


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 16.33 Muokkaa