Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Sanaluokan automaattinen tunnistaminen

Sanat ovat usein monitulkintaisia sanaluokaltaan. Tekstiyhteydessä sanan sanaluokka on kuitenkin useimmiten yksiselitteinen. Sanaluokkien automaattinen tunnistaminen eli POS-tunnistaminen (POS-merkitseminen, englanniksi part-of-speech tagging tai tagging) on automaattinen lingvistinen menetelmä, jossa sanojen sanaluokat tunnistetaan tekstiyhteyden perusteella. Automaattinen sanaluokan tunnistus on rajallista lauseen jäsentämistä: lauseesta tunnistetaan sen sanojen sanaluokat ja analyysi jätetään siihen. Koska sanaluokkatunnistamisen tavoitteet ovat rajallisia, on se myös varsinaista lauseenjäsennystä helpompaa ja sanaluokkatunnistimien tarkkuus on korkea: ohjelmasta riippuen 96 - 99 % sanoista saa oikean sanaluokkamerkinnnän.

POS-tunnistamisella sanaluokaltaan monitulkintaiset sanat saadaan myös pääsääntöisesti disambiguoitua yksiselitteisiksi (part-of-speech disambiguation). POS-disambiguointi on samalla merkityksen disambiguointia. (katso esim. Manning - Schütze, 1999, Voutilainen 1994)

Esimerkki: Sana run voi olla sekä verbi että substantiivi. Lauseessa The run was then carried out POS-tunnistamisen suorittava ohjelma tulkitsee sanan substantiiviksi erityisesti artikkelin the perusteella.

POS-tunnistuksen perusta

POS-tunnistusta tekevien ohjelmien toimintaperiaatteet voivat olla erilaisia Yleensä niiden toimintaperiaate on jokin seuraavista:

1) Sääntöpohjainen tunnistus: tunnistuksen perusteena ovat erilaiset kieliopilliset säännöt (esim. ENGCG)

2a) Todennäköisyyteen perustuva tunnistus, käytössä merkitty harjoituskorpus

Pieni määrä tekstiä on tunnistettu manuaalisesti (sanaluokat merkitty korpukseen), ja sillä harjoitetaan kehitettävää ohjelmaa. Sitten ohjelmaa testataan uuden tekstin kanssa ja virheet korjataan manuaalisesti. Tämän jälkeen ohjelman kehittämistä jatketaan.Tunnistus perustuu todennäköisyyksiin.

2b) Todennäköisyyteen perustuvaan tunnistus ilman merkittyä harjoituskorpusta

POS-tunnistaminen tiedonhaussa

POS-tunnistamista voidaan hyödyntää tiedonhaussa muun muassa seuraavissa tilanteissa:

  • perusmuotoistamisen yhteydessä syntyvän monitulkintaisuuden disambiguoinnissa
  • fraasien tunnistuksessa
  • esivaiheena syntaktisessa analyysissa
  • kieltenvälisessä tiedonhaussa käännösvaiheessa

Perusmuotoistaminen ja POS-disambiguointi

Tekstitietokannan hakemistoon voidaan laittaa sanaluokkatiedot POS-ohjelman antaman palautteen perusteella. Vastaavasti kyselyn sanoille annetaan sanaluokkatiedot joko automaattisesti POS-ohjelmalla tai manuaalisesti.

POS-ohjelma analysoi dokumenttien tekstit ja merkitsee jokaiselle sanalle sen sanaluokan.

Esimerkki jäsennettävästä suomenkielisestä virkkeestä dokumentin tekstissä:

Voin (subst.) kanssa (postposit.) leipä (subst.) on (verbi) hyvää (adj.)

Sanaluokkamonitulkintaisuus: voin : voi (substantiivi) , voida (verbi) 

Sanaluokat voidaan merkitä tietokannan hakemistoon ja hakua kirjoitettaessa kyselyyn manuaalisesti tai automaattisesti.

Manuaalinen merkitseminen:

Voi (N) AND rasva (N) AND terveys (N)

POS-ohjelman suorittama merkitseminen:

Mitkä (P) ovat (V) voin (N) rasvan (N) terveysvaikutukset (N)?



Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 12.03 Muokkaa