Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Syntaksi ja tiedonhaku - tutkimusta

Zhai & al. 1997

Zhain ja kumppaneiden (1997) tutkimuksessa oli käytössä syntaktinen analyysiohjelma, fraasien tunnistuksessa käytettiin myös tilastollista informaatiota. Hakuavaimia ja indeksitermejä saatiin näiden avulla neljäntyyppisiä:

  • Yksittäiset sanat --- heavy, construction, industry, group
  • Pääsana-määrite -parit (head-modifier pairs) ---- heavy construction, construction industry, industry group
  • Vierekkäiset alafraasit (adjacent subphrases) ---- heavy construction industry
  • Koko nominilauseke ---- heavy construction industry group

Käänteistiedostoa indeksoitiin eri tavoin, NP:itä hajotettiin indeksiin eri tavoin. Hakemistoon vietiin seuraavanlaisia yksiköitä:

  1. yksittäiset sanat (CLPHR0)
  2. yksittäiset sanat + pääsana-määrite parit  (CLPHR0,5)
  3. yksittäiset sanat + pääsana-määrite parit + koko lauseke  (CLPHR1)
  4. yksittäiset sanat + pääsana-määrite parit + vierekkäiset alafraasit + koko lauseke  (CLPHR2)

Tutkimuksessa analysoitiin indeksitermien lisäämisen vaikutusta perustilanteeseen (1): sekä saanti että tarkkuus paranivat tutkimuksen mukaan. Saanti parani mitä enemmän hakemistossa oli indeksitermejä. Tarkuus oli paras menetelmillä 2 ja 4.

Indeksitermien lisäämisen vaikutusta tutkittiin verrattuna perustilanteeseen (1). Parannusta tuli sekä saantiin että tarkkuuteen ja alkutarkkuuteen. Paras tulos riippui testiympäristöstä.

Saant parani, kun termien määrä lisääntyi (kun tutkimusympäristölistaa edetään alaspäin). Tarkkuus oli paras tilanteessa (2) TREC-5:n aineistolla, tai tilanteessa (4) TREC-3:n aineistolla.

Lisää tutkimustuloksia

Monet tutkimukset ovat osoittaneet, että fraasien tunnistus ja fraasien käyttö hakuavaimina parantavat hakutuloksia (esim. Buckley et al., 1995, Strzalkowski et al., 1997, Zhai et al., 1997).

Hakutulosten paraneminen ei kuitenkaan ole ollut kovin merkittävää. Fraasien käyttö hakuavaimina voi myös heikentää hakutuloksia (Mitra et al., 1997).

Jos hakupyyntö on esimerkiksi: Tobacco company advertising and the young, fraasien tunnistus (tobacco company) korostaa jo ennestään dominoivaa aspektia (tobacco company) ja haun tarkkuus heikkenee.

Tarkkaan ottaen fraasin tunnistus ei parantanut tarkkuutta tulosjoukon yläpäässä. Tämä johtuu siitä, että kun hyvä tulos saavutetaan yksittäisillä hakutermeillä, fraasien lisääminen painottaa liiaksi tiettyä aspektia kyselystä. Tulosjoukon alapäässä fraasien tunnistuksesta on kuitenkin hyötyä.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 12.06 Muokkaa