FM Jyri Saarikosken tietojenkäsittelyopin alaan kuuluva väitöskirja

On text document classification and retrieval using self-organising maps (Tekstidokumenttien luokittelusta ja tiedonhausta itseorganisoituvilla kartoilla)

tarkastetaan 17.11.2014 klo 12 Tampereen yliopiston Paavo Koli -salissa Pinni A rakennuksessa, Kanslerinrinne 1, Tampere.

Vastaväittäjänä on professori Tapio Salakoski (Turun yliopisto). Kustoksena toimii professori Martti Juhola.

Tekstidokumenttien automaattista luokittelua ja tiedonhakua itseorganisoituvilla kartoilla

Tutkimus käsittelee sähköisessä muodossa olevien tekstidokumenttien automaattista luokittelua ja tiedonhakua. Tekstidokumenttien automaattisessa luokittelussa tavoitteena on kehittää tietokoneohjelma, joka pystyy oppimaan saatavilla olevan valmiiksi luokitellun dokumenttiaineiston pohjalta sen eri luokkien ominaisuudet, ja tämän jälkeen ennustamaan mahdollisimman tarkasti entuudestaan tuntemattomien dokumenttien luokitukset. Tiedonhaussa puolestaan pyritään kehittämään hakukone, joka, esimerkiksi sanahaun perusteella, löytää mahdollisimman hyvin hakua vastaavia tekstidokumentteja.

Väitöskirjatutkimuksessa on keskitytty itseorganisoituvien karttojen käyttämiseen tekstidokumenttien automaattisessa luokittelussa ja tiedonhaussa. Itseorganisoituvat kartat on ohjaamaton koneoppimismenetelmä, mikä tarkoittaa, että menetelmä ei käytä oppimisvaiheessa lainkaan hyväkseen tietoa opetusaineiston näytteiden luokituksesta, vaan perustaa oppimisensa ainoastaan näytteiden ominaisuuksiin. Ohjatut menetelmät puolestaan käyttävät hyväkseen näytteiden ominaisuuksia sekä tietoa niiden luokituksesta. Itseorganisoituvia karttoja on käytetty aiemmin runsaasti erilaisten aineistojen ryhmittelyyn ja visualisointiin, mutta melko harvoin tekstidokumenttien luokittelussa ja erittäin vähän tiedonhaussa. Erityisesti vertailutuloksia muihin koneoppimismenetelmiin verrattuna on aiemmin ollut saatavilla rajoitetusti. Tutkimuksen päätavoitteena olikin verrata itseorganisoituvien karttojen suorituskykyä muihin tunnettuihin koneoppimismenetelmiin, sekä ohjattuihin että ohjaamattomiin, erilaisissa dokumenttiaineistoissa. Pääosa tutkimuksessa käytetyistä tekstidokumenttiaineistoista koostui elektronisista sanomalehtiartikkeleista, jotka jakautuivat luokkiin niihin liittyvien aihepiirien mukaisesti. Tyypillisiä luokkia olivat esimerkiksi politiikka, urheilu ja talous, sekä näiden erilaiset alakategoriat. Sanomalehtiaineistojen lisäksi käytettiin myös yhtä internetin uutisryhmän viesteistä koostuvaa aineistoa, jossa luokkina toimivat uutisryhmän aihepiirit.

Väitöstutkimus koostui viidestä osajulkaisusta, joista ensimmäinen käsitteli tekstidokumenttien tiedonhakua ja loput neljä tekstidokumenttien luokittelua. Ensimmäisessä julkaisussa tutkimuksen tekijä kehitti itseorganisoituviin karttoihin perustuvan hakukoneprototyypin, jota testattiin saksankielisellä uutisdokumenttiaineistolla. Tuloksia verrattiin kahden muun ohjaamattoman koneoppimismenetelmän hakutuloksiin. Tulokset olivat lupaavia, sillä itseorganisoituvat kartat kykenivät löytämään hyödyllisiä dokumentteja sanahakujen perusteella. Vertailumenetelmiin nähden kartat suoriutuivat tasaväkisesti. Tutkimuksessa ilmeni, että hakutulos oli hyvä, jos tiettyyn aiheeseen liittyvät dokumentit ryhmittyivät kartalla tiiviisti lähekkäin, mistä johtuen dokumenttien ryhmittelyyn perustuva luokittelu valittiin tutkimuskohteeksi myöhemmissä julkaisuissa. Itseorganisoituvien karttojen dokumenttien luokittelukykyä testattiin kaikkiaan neljässä osajulkaisussa ja neljällä eri uutisaineistolla, joihin sisältyi englanninkielisiä, saksankielisiä ja espanjankielisiä aineistoja. Luokittelua testattiin tilanteissa, joissa dokumenttiluokkien lukumäärä vaihteli välillä 2-20. Suurimmassa testatussa aineistossa oli 18774 dokumenttia. Itseorganisoituvien karttojen luokittelutuloksia verrattiin yhteensä kahdeksaan tunnettuun koneoppimismenetelmään, joista osa oli ohjattuja ja osa ohjaamattomia menetelmiä. Itseorganisoituvat kartat suoriutuivat pääosin luokittelusta erittäin hyvin, yli 90%:n luokittelutarkkuudella, ja olivat kokonaisuutena paras testatuista ohjaamattomista menetelmistä. Joissain tilanteissa kartat suoriutuivat myös vertailukelpoisesti ohjattuihin menetelmiin verrattuna. Tutkimuksen tekijä kehitti myös uuden karttajoukkoihin perustuvan luokitusmenetelmän, joka paransi itseorganisoituvien karttojen luokituskykyä ja menestyi testatussa aineistossa yhtä hyvin kuin parhaat ohjatut menetelmät.

Luokittelututkimuksen ohessa tutkittiin myös hiljattain kehitetyn scatter-menetelmän käyttöä tekstidokumenttiaineiston tiivistämisessä sekä opetusaineiston laadun vaikutusta luokittelutulokseen. Scatter-menetelmä osoittautui hyväksi vaihtoehdoksi tekstiaineistojen tiivistämisessä. Opetusaineiston laadun suhteen päätulos oli, että heikkolaatuista opetusdataa kannattaa käyttää koneoppimisessa vain, jos sitä on erittäin runsaasti saatavilla.

Väitöstutkimus osoitti, että itseorganisoituvia karttoja voidaan hyödyntää tehokkaasti tekstidokumenttien luokittelussa ja tiedonhaussa. Ilmeni myös, että kartat tuovat tiedonhakutehtäviin visuaalisuudellaan lisäarvoa, jota perinteiset menetelmät eivät tarjoa. Tutkimus tuotti lisäksi runsaasti arvokasta vertailutietoa itseorganisoituvien karttojen ja tunnetuimpien koneoppimismenetelmien luokittelutarkkuudesta erilaisissa tekstidokumenttiaineistoissa sekä avasi uusia tutkimussuuntia karttojen luokittelukyvyn kehittämiseen edelleen.

                                               ******

Jyri Saarikoski on syntynyt Seinäjoella ja hän on suorittanut filosofian maisterin tutkinnon Tampereen yliopistossa. Hän on toiminut vuosina 2005 - 2014 tutkijana ja apurahatutkijana Tampereen yliopistossa.

Saarikosken väitöskirja ilmestyy sarjassa Acta Universitatis Tamperensis; 1993, Tampere University Press, Tampere 2014. ISBN 978-951-44-9626-4, ISSN 1455-1616. Väitöskirja ilmestyy myös sähköisenä sarjassa Acta Electronica Universitatis Tamperensis; 1480, Tampere University Press 2014. ISBN 978-951-44-9627-1, ISSN 1456-954X.
http://tampub.uta.fi.

Väitöskirjan tilausosoite: Verkkokirjakauppa Granum, http://granum.uta.fi, tai e-mail: kirjamyynti@juvenes.fi.

Lisätietoja: Jyri Saarikoski, Puh. 040 830 5137, jyri.saarikoski@uta.fi, http://people.uta.fi/~jyri.saarikoski/