Yksi automaattisista lauseenjäsennysohjelmista on English Constraint Grammar, ENGCG, joka on kehitetty 1990-luvun alussa. Lauseen The boys in the garage fixed the car ENGCG jäsentää seuraavasti:
EngCG-output:
"<*the>"
Lauseenjäsensymbolit:
Automaattinen lauseenjäsennys tapahtuu vaiheittain, ohjelma muodostuu eri komponenteista:
Preprosessori
Preprosessori käsittelee analysoitavaa lausetta, merkitsee lauseiden rajat ja tutkii välimerkit.
Morfologinen ohjelma ENGTWOL
Englannin kielen kaksitasomalliin perustuva morfologinen ohjelma analysoi lauseen sananmuodot.
Heuristiset morfologiset säännöt
Heuristinen osio liittää morfologisen tulkinnan niihin sanoihin, joita ENGTWOL ei tunnistanut. Jos sanaa ei tunneta, ohjelma arvaa tai päättelee sanan morfologisen luonteen.
Englannin kielioppi (English Constraint Grammar)
ENGCG:n varsinainen lauseenjäsennyskielioppi on kaksiosainen.
1) Morfologiset monitulkintaisuudet disambiguoidaan ensin 1200 kielioppisäännöllä ja 200 heuristisella säännöllä. Näiden vaiheiden jälkeen noin 99,5 %:lla sanoista on oikea morfologinen tulkinta.
2) Lauseenjäsennyskielioppi sisältää 830 sääntöä syntaktisten monitulkintaisuuksien disambiguointiin. Noin 85 - 90 % sanoista on tämän jälkeen syntaktisesti yksiselitteisiä. Noin 97 - 98 % sanoista saa oikean syntaktisen lauseenjäsenleiman.
ENGCG:n demoon voi tutustua Lingsoftin sivuilla.