Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Automaattinen syntaktinen analyysi: ENGCG

Yksi automaattisista lauseenjäsennysohjelmista on English Constraint Grammar, ENGCG, joka on kehitetty 1990-luvun alussa. Lauseen The boys in the garage fixed the car ENGCG jäsentää seuraavasti:

EngCG-output:

"<*the>"

"the" <*> <Def> DET CENTRAL ART SG/PL @DN>
"<boys>"
"boy" N NOM PL @SUBJ
"<in>"
"in" PREP @<NOM
"<the>"
"the" <Def> DET CENTRAL ART SG/PL @DN>
"<garage>"
"garage" N NOM SG @<P
"<fixed>"
"fix" <SVO> <SVOO> <SV><P/on> V PAST VFIN @+FMAINV
"<the>"
"the" <Def> DET CENTRAL ART SG/PL @DN>
"<car>"
"car" N NOM SG @OBJ

Lauseenjäsensymbolit:

  • @DN> : determiner (artikkeli)
  • @SUBJ : subject (subjekti)
  • @<NOM : postmodifier
  • @<P : complement of preposition
  • @+FMAINV : main verb (finite main predicator) (predikaatti)
  • @OBJ : objekti

Jäsennyksen vaiheet

Automaattinen lauseenjäsennys tapahtuu vaiheittain, ohjelma muodostuu eri komponenteista:

  • Preprosessori
  • Morfologinen ohjelma ENGTWOL
  • Heuristiset morfologiset säännöt
  • Englannin kielioppi (English Constraint Grammar)
    • 1200 kielioppisääntöä
    • 200 heuristista sääntöä
  • Syntaktisten funktioiden kielioppi
    • 830 sääntöä syntaktisten monitulkintaisuuksien disambiguointiin

Preprosessori

Preprosessori käsittelee analysoitavaa lausetta, merkitsee lauseiden rajat ja tutkii välimerkit.

Morfologinen ohjelma ENGTWOL

Englannin kielen kaksitasomalliin perustuva morfologinen ohjelma analysoi lauseen sananmuodot.

Heuristiset morfologiset säännöt

Heuristinen osio liittää morfologisen tulkinnan niihin sanoihin, joita ENGTWOL ei tunnistanut. Jos sanaa ei tunneta, ohjelma arvaa tai päättelee sanan morfologisen luonteen.

Englannin kielioppi (English Constraint Grammar)

ENGCG:n varsinainen lauseenjäsennyskielioppi on kaksiosainen.

1) Morfologiset monitulkintaisuudet disambiguoidaan ensin 1200 kielioppisäännöllä ja 200 heuristisella säännöllä. Näiden vaiheiden jälkeen noin 99,5 %:lla sanoista on oikea morfologinen tulkinta.

2) Lauseenjäsennyskielioppi sisältää 830 sääntöä syntaktisten monitulkintaisuuksien disambiguointiin. Noin 85 - 90 % sanoista on tämän jälkeen syntaktisesti yksiselitteisiä. Noin 97 - 98 % sanoista saa oikean syntaktisen lauseenjäsenleiman.

ENGCG:n demoon voi tutustua Lingsoftin sivuilla.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 12.00 Muokkaa