Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Hakujen tilastollinen laajentaminen

Jos tarkkoja ollaan, hakujen tilastollinen laajentaminen ei kuulu tämän kurssin aihepiiriin: se ei ole kielitieteeseen perustuva menetelmä. vaan perustuus tilastolliseen laskentaan. Otamme asian kuitenkin tässä yhteydessä esille, koska se liittyy läheisesti hakujen käsitteelliseen laajentamiseen.

Hakujen tilastollinen laajentaminen perustuu tilastollisiin tesauruksiin. Tällaiset tesaurukset muodostetaan sanojen kollokaatioiden perusteella. Esimerkiksi Inquery-hakujärjestelmän PhraseFinderin toiminnan takana on tilastollinen tesaurus.

Kollokaatiolla tarkoitetaan sanan merkitykseen perustuvaa taipumusta esiintyä yhdessä tietynlaisten sanojen kanssa, sanat siis kollokoivat keskenään. Kollokaatioiden perussyy on sanojen tarkoitteiden luontainen yhteenkuuluminen. Jos tekstissä esiintyy esimerkiksi sana yliopisto, niin todennäköisesti tekstissä esiintyy myös sanoja opiskella, opiskelija, lehtori, professori jne.

Englanninkielisestä lehtitekstistä on tutkittu muun muassa sanat, jotka esiintyvät useimmin verbin save oikealla puolella. Niitä ovat muun muassa:

forest, lives, enormous, annually, jobs, money, life, dollars, costs, thousands, face, son, estimated, your, billion, million, us, less, from ....

Luetellut sanat ovat saven kollokaatteja, eli niillä on taipumus esiintyä saven kanssa tavanomaista useammin.

Tilastollisten tesaurusten tekeminen on helpompaa ja halvempaa kuin varsinaisten tesaurusten, jotka vaativat ihmistyötä ja käsiteanalyysia. Tesaurus tehdään laskemalla tilastot jonkin tekstikorpuksen (esimerkiksi kyseessä olevan tietokannan) sanojen yhteisesiintymistä. Oletuksena on, että jos sanat esiintyvät normaalia useammin yhdessä, niillä on jotain tekemistä toistensa kanssa eli ne muodostavat kollokaation, kollokoivat. Jotta kollokaatioanalyysi olisi mielekäs, on aineiston kuitenkin oltava varsin suuri, kovin pienellä aineistolla erot eivät ilmene vielä luotettavasti.

Automaattisella tilastollisella analyysilla ei synny yhtä hyviä tesauruksia kuin manuaalisesti tehdyt, tilastollisesti tesaurukset kattavat lähinnä sanojen assosiaatiosuhteita. Kyselyjä kyetään kuitenkin laajentamaan assosiaatiosuhteilla.

Inqueryn PhraseFinder

Phrase finder on Inquery-hakujärjestelmän ohjelma, joka laatii automaattisesti tesauruksen analysoimalla tekstiä ja tunnistamalla tekstin piirteitä. Ohjelma tunnistaa englanninkielisestä tekstistä sanat, sanaluokat, kappaleet, lauseet ja lausekkeet (mm. nominilausekkeet). Ohjelma pitää sanojen yhteisesiintymistä sanallisen assosiaation merkkinä.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 13.30 Muokkaa