Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

s-gram täsmäytys

s-grammaus on n-grammauksen muunnos. s-grammaus eroaa n-grammauksessa siinä, että s-grammauksessa otetaan huomioon perättäisten merkkien lisäksi myös ei-perättäiset merkit. s viittaa tässä ylihypättyihin merkkeihin (0, 1, 2, ..., m-2, missä m on merkkijonossa olevien merkkien lukumäärä). s-grammit ovat aina digrammeja.

Character combination index (CCI) viittaa ylihypättyjen merkkien lukumäärään s-grammeja muodostettaessa. Esimerkiksi CCI={{1, 2}} viittaa s-grammeihin, jotka on muodostettu hyppämällä yhden merkin yli sekä hyppäämällä kahden merkin yli. CCI={{0}} viittaa tavallisiin digrammeihin. Kuten n-grammeja muodostettaessa, voidaan s-grammejankin muodostettaessa ottaa huomioon alussa ja lopussa olevat tyhjät merkit. 

Esimerkki: muodostetaan s-grammit-luokat  merkkijonosta merkki, kun CCI = {{0}{1,2}} ja otetaan tyhjät merkit huomioon:

{_m, me, er, rk, kk, ki, i_} ja {_e, mr, ek, rk, ki, k_, _r, mk, ek, ri, k_}

Ensimmäinen luokka siis muodostuu tavallisista digrammeista (hypätään 0 merkin yli). Toinen luokka koostuu digrammeista, jotka on  muodostettu hyppämällä ensin yhden merkin yli, sitten kahden.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.55 Muokkaa