Sanat ovat usein monitulkintaisia sanaluokaltaan. Tekstiyhteydessä sanan sanaluokka on kuitenkin useimmiten yksiselitteinen. Sanaluokkien automaattinen tunnistaminen eli POS-tunnistaminen (POS-merkitseminen, englanniksi part-of-speech tagging tai tagging) on automaattinen lingvistinen menetelmä, jossa sanojen sanaluokat tunnistetaan tekstiyhteyden perusteella. Automaattinen sanaluokan tunnistus on rajallista lauseen jäsentämistä: lauseesta tunnistetaan sen sanojen sanaluokat ja analyysi jätetään siihen. Koska sanaluokkatunnistamisen tavoitteet ovat rajallisia, on se myös varsinaista lauseenjäsennystä helpompaa ja sanaluokkatunnistimien tarkkuus on korkea: ohjelmasta riippuen 96 - 99 % sanoista saa oikean sanaluokkamerkinnnän.
POS-tunnistamisella sanaluokaltaan monitulkintaiset sanat saadaan myös pääsääntöisesti disambiguoitua yksiselitteisiksi (part-of-speech disambiguation). POS-disambiguointi on samalla merkityksen disambiguointia. (katso esim. Manning - Schütze, 1999, Voutilainen 1994)
Esimerkki: Sana run voi olla sekä verbi että substantiivi. Lauseessa The run was then carried out POS-tunnistamisen suorittava ohjelma tulkitsee sanan substantiiviksi erityisesti artikkelin the perusteella.
POS-tunnistusta tekevien ohjelmien toimintaperiaatteet voivat olla erilaisia Yleensä niiden toimintaperiaate on jokin seuraavista:
1) Sääntöpohjainen tunnistus: tunnistuksen perusteena ovat erilaiset kieliopilliset säännöt (esim. ENGCG)
2a) Todennäköisyyteen perustuva tunnistus, käytössä merkitty harjoituskorpus
Pieni määrä tekstiä on tunnistettu manuaalisesti (sanaluokat merkitty korpukseen), ja sillä harjoitetaan kehitettävää ohjelmaa. Sitten ohjelmaa testataan uuden tekstin kanssa ja virheet korjataan manuaalisesti. Tämän jälkeen ohjelman kehittämistä jatketaan.Tunnistus perustuu todennäköisyyksiin.
2b) Todennäköisyyteen perustuvaan tunnistus ilman merkittyä harjoituskorpusta
POS-tunnistamista voidaan hyödyntää tiedonhaussa muun muassa seuraavissa tilanteissa:
Perusmuotoistaminen ja POS-disambiguointi
Tekstitietokannan hakemistoon voidaan laittaa sanaluokkatiedot POS-ohjelman antaman palautteen perusteella. Vastaavasti kyselyn sanoille annetaan sanaluokkatiedot joko automaattisesti POS-ohjelmalla tai manuaalisesti.
POS-ohjelma analysoi dokumenttien tekstit ja merkitsee jokaiselle sanalle sen sanaluokan.
Esimerkki jäsennettävästä suomenkielisestä virkkeestä dokumentin tekstissä:
Voin (subst.) kanssa (postposit.) leipä (subst.) on (verbi) hyvää (adj.)
Sanaluokkamonitulkintaisuus: voin : voi (substantiivi) , voida (verbi)
Sanaluokat voidaan merkitä tietokannan hakemistoon ja hakua kirjoitettaessa kyselyyn manuaalisesti tai automaattisesti.
Manuaalinen merkitseminen:
Voi (N) AND rasva (N) AND terveys (N)
POS-ohjelman suorittama merkitseminen:
Mitkä (P) ovat (V) voin (N) rasvan (N) terveysvaikutukset (N)?