Ihmisten käyttämä kieli muodostuu erilaisista osajärjestelmistä. Kielitieteessä on totuttu erottelemaan ainakin seuraavat kielen osajärjestelmät, abstraktista konkreettiseen edeten:
Tiedonhaun kieliteknologiaan näistä kielen osa-alueista liittyvät oleellisimmin semantiikka, sanasto ja morfologia. Myös lauserakennetta kuvaavilla kieliteknologisilla sovelluksilla on alkanut olla käyttöä tiedonhaussa. Tämä kurssi keskittyy kuitenkin pääasiassa esittelemään kolmen keskeisen alueen sovelluksia tiedonhaussa. Muita aiheita sivutaan lyhyemmin.
Hiukan täsmällisemmin luonnehdittuna kukin kielitieteen osa-alue tutkii seuraavanlaisia kysymyksiä.
Jokainen kielenpuhuja on omalla tavallaan semantiikan asiantuntija, ihmisen kielikyky ja -taju antaa siihen valtuudet. Intuitiivisen merkitysten ymmärtämisen rinnalle semantiikan tutkimus tuo systemaattisen merkitysten tutkimisen ja esittämisen.
pohtii seuraavanlaisia kysymyksiä:
Leksikologia tutkii ja kuvaa kielen sanastoa. Sen perusasioita ovat muun muassa seuraavat:
Leksikologialle läheinen käytännön ala on leksikografia, jossa käsitellään sanakirjojen tekemistä, sanakirjatyötä.
Morfologian tutkimuksen kohteena on sanojen sisäinen rakenne. Morfologia tutkii sitä, millaisista merkityselementeistä sana muodostuu. Morfologian ja syntaksin ero on sanassa. Sanansisäiset ilmiöt kuuluvat morfologiaan, useamman sanan muodostaman kokonaisuuden tutkiminen syntaksiin.
Fonologia on kielten äännerakenteen tutkimusta, siinä tutkitaan muun muassa sitä, kuinka tietyn kielen äänteitä hyödynnetään merkitysten erottamiseen. Tarkoituksena on määrittää kielen rakenteen kannalta distinktiiviset (merkitystä erottavat) äänne-erot.
Fonologialle läheinen tiede on fonetiikka, joka tutkii puheen (fysikaalista) tuottamista ja tunnistamista. Fonetiikan tavoitteena on sellaisen järjestelmän luominen, jonka avulla maailman kielten äänteellisiä resursseja voidaan kuvata ja luokitella. Fonetiikalla ei ole vielä merkitystä tiedonhaussa, mutta tulevaisuudessa puhekäyttöliittymien yleistyessä fonetiikan merkitys kasvaa puheentunnistusjärjestelmien myötä.
Kielen osa-alueista tärkein tällä kurssilla on morfologia. Syy siihen on se, että käsittelyn näkökulma on pääasiassa suomen kielessä, joka on voimakkaasti taipuva kieli. Myös semantiikkaa ja leksikologiaa käsitellään kohtalaisen laajasti, samoin syntaksia.