Zhain ja kumppaneiden (1997) tutkimuksessa oli käytössä syntaktinen
analyysiohjelma, fraasien tunnistuksessa käytettiin myös tilastollista
informaatiota. Hakuavaimia ja indeksitermejä saatiin näiden avulla
neljäntyyppisiä:
Käänteistiedostoa indeksoitiin eri tavoin, NP:itä hajotettiin indeksiin eri tavoin. Hakemistoon vietiin seuraavanlaisia yksiköitä:
Tutkimuksessa analysoitiin indeksitermien lisäämisen vaikutusta
perustilanteeseen (1): sekä saanti että tarkkuus paranivat tutkimuksen
mukaan. Saanti parani mitä enemmän hakemistossa oli indeksitermejä.
Tarkuus oli paras menetelmillä 2 ja 4.
Indeksitermien lisäämisen vaikutusta tutkittiin verrattuna
perustilanteeseen (1). Parannusta tuli sekä saantiin että tarkkuuteen
ja alkutarkkuuteen. Paras tulos riippui testiympäristöstä.
Saant parani, kun termien määrä lisääntyi (kun tutkimusympäristölistaa edetään alaspäin). Tarkkuus oli paras tilanteessa (2) TREC-5:n aineistolla, tai tilanteessa (4) TREC-3:n aineistolla.
Monet tutkimukset ovat osoittaneet, että fraasien tunnistus ja fraasien käyttö hakuavaimina parantavat hakutuloksia (esim. Buckley et al., 1995, Strzalkowski et al., 1997, Zhai et al., 1997).
Hakutulosten paraneminen ei kuitenkaan ole ollut kovin merkittävää. Fraasien käyttö hakuavaimina voi myös heikentää hakutuloksia (Mitra et al., 1997).
Jos hakupyyntö on esimerkiksi: Tobacco company advertising and the young, fraasien tunnistus (tobacco company) korostaa jo ennestään dominoivaa aspektia (tobacco company) ja haun tarkkuus heikkenee.
Tarkkaan ottaen fraasin tunnistus ei parantanut tarkkuutta
tulosjoukon yläpäässä. Tämä johtuu siitä, että kun hyvä tulos
saavutetaan yksittäisillä hakutermeillä, fraasien lisääminen painottaa
liiaksi tiettyä aspektia kyselystä. Tulosjoukon alapäässä fraasien
tunnistuksesta on kuitenkin hyötyä.