Sanakirjaperustaisen CLIR:n ongelmia ovat kääntymättömät sanat, yhdyssanat, fraasit, sanojen taipuminen ja sanojen monitulkintaisuus. Näistä kaksi ensimmäistä ovat ongelmallisia myös konekääntämiselle.
Mikään sanakirja ei voi sisältää kaikkia kielen sanoja. Tähän on kolme syytä. Ensinnäkin kieli kehittyy jatkuvasti, eikä sanakirjojen päivitys ole tarpeeksi nopeaa. Joissain kielissä, kuten suomessa, uusia sanoja voidaan generoida loputon määrä muodostamalla yhdyssanoja. Kaikkia mahdollisia kombinaatioita ei ole mahdollista laittaa sanakirjaan. Toisekseen, sanakirjat eivät yleensä sisällä erisnimiä. Kieltenväliselle tiedonhaulle tuottaa ongelmia myös se, että yleissanakirjat eivät sisällä erikoissanastoa. Sekä sanakirjapohjaisessa kääntämisessä että konekääntämisessä käytetään hyväksi kaksikielistä sanakirjaa. Korpuskääntämisen suhteen sanasto on yleensä vielä rajoittuneempaa.
Monet CLIR-systeemit toimivat s.e. kääntymätön sana laitetaan sinällään
kohdekieliseeen kyselyyn. Joskus tämä toimii, toisinaan ei. Joissain
tapauksissa kääntymättömän sanan kirjoitusasu eroaa vain hiukan lähtö-
ja kohdekielessä (esim. erisnimet tai maantieteelliset nimet). Tällöin
sumeasta merkkijonotäsmäytyksestä voi olla apua: etsitään kohdeindeksin
sanojen joukosta sana tai sanat, jotka lähinnä muistuttavat
kääntymätöntä sanaa.
Sanakirjaan sisältymättömät lähtökielen yhdyssanat ovat ongelmallisia CLIR:lle. Usein yhdyssanan pilkkominen osiinsa auttaa. Tosin pilkkomisen hyöty riippuu siitä, onko yhdyssana kompositionaalinen vai ei. Jos yhdyssana kaupunginhallitus ei löydy sanakirjasta, kaupunki ja hallitus varmaan löytyvät. Näiden kääntäminen erikseen kohdekielelle antanee ihan hyvän käännöksen. Sen sijaan sanan poikamies pilkkominen ja osien kääntäminen ei antane kovin järkevää tulosta.
Jos kohdekieli on yhdyssanakieli (esim. suomi), saattaa indeksointitapa vaikuttaa suuresti kieltenvälisen tiedonhaun tuloksiin (katso tutkimusosio, Airio 2006).
Esimerkiksi englannin kielessä käytetään fraaseja yhdyssanojen sijasta. Kurssin kohdassa "Syntaksi ja tiedonhaku" puhuttiin fraasien tunnistamisesta. Jos CLIR-systeemillä siis on käytössä fraaseja sisältävä sanakirja, systeemiin on syytä liittää fraasintunnistin. Erityisesi ei-kompositionaalisten fraasien tunnistaminen on tärkeää. Toisaalta voidaan todeta, että monet sanakirjat eivät sisällä juuri ollenkaan fraaseja.Tällöin niiden tunnistamisellakaan ei ole mitään merkitystä.
Lähtökielen sanojen taipuminen aiheuttaa ongelmia sanakirjaperustaiselle CLIR:lle, koska sanakirjat sisältävät yleensä vain sanan perusmuodon. Toisaalta käyttäjiä voidaan ohjeistaa käyttämään haussa sanojen perusmuotoja, jolloin ongelma poistuu.
Sanojen monitulkintaisuus ei yleensä aiheuta ongelmia ihmisten välisessä kommunikaatiossa, koska sanan oikea merkitys selviää tilanteesta tai lauseyhteydestä. Konekäännösohjelmat pyrkivät päättelemään oikean merkityksen automaattisesti. Sen sijaan sanakirjat antavat kaikki käännösvaihtoehdot.
Sanojen monitulkintaisuuden vaikutusta sanakirjaperustaiseen CLIR:iin voidaan vähentää POS-menetelmillä (sanaluokan automaattinen tunnistaminen), korpuspohjaisella disambiguaatiolla tai rakenteisilla kyselyillä.
POS-tunnistamista sovelletaan disambiguointiin siten, että kyselyyn otetaan mukaan vain saman sanaluokan edustajia kuin mitä alkuperäinen sana oli. Jos ollaan kääntämässä suomenkielistä kyselyä englanniksi ja kyselyssä esiintyy esim. sana voi, on käännös butter, jos sanan voi sanaluokaksi tunnistetaan substantiivi. Jos taas sanaluokka on verbi, valitaan käännösvaihtoehdot can ja may. POS-tunnistaminen ei aina ratkaise monitulkintaisuutta, koska eri tulkinnat saattavat edustaa samaa sanaluokkaa.
Korpuspohjainen disambiguaatio voi perustua esim. kollokaatioon. Katsotaan, minkä käännösvaihtoehdon kanssa esiintyy eniten muita kyselyssä olevia sanoja. Esimerkki: käännetään englanninkielinen kysely suomeksi: loan bank. Sana bank on monitulkintainen: sillä on ainakin merkitykset pankki ja rantapenger. Korpuksesta etsitään nyt siis seuraavanlaisia kollokaatioita:
Ilmeisesti sana pankki esiintyy useammin sanan laina yhteydessä kuin sana rantapenger, joten kyselyyn valittaisiin sana pankki. Tämä menetelmä on epäilemättä aika monimutkainen, jos kyselyssä esiintyy useampikin monimerkityksinen sana.
Yksinkertaisin tapa vähentää monimerkityksisyyden vaikutusta on käyttää rakenteista kyselyä: samasta sanasta generoituneet käännösvaihtoehdot yhdistetään synonyymioperaattorilla. Synonyymioperaattorin yhdistämiä sanoja kohdellaan saman sanan instansseina. Myös OR-operaattorin käyttö voisi tässä olla mahdollista. Otetaan yllä oleva kyselyesimerkki: loan bank, joka käännetään suomeksi. Rakenteinen kysely olisi tällainen:
laina SYN (pankki rantapenger)
Siis kyselyn sanat ikäänkuin suorittavat disambiguoinnin, koska tällä kyselyllä löydetään dokumentit, joissa esiintyy sana laina joko sanan pankki tai sanan rantapenger kanssa. Mitä ilmeisimmin hakutuloksessa esiintyy dokumentteja, joissa esiintyy sana laina ja pankki, muttei juurikaan sellaisia, joissa olisi sanat laina ja rantapenger.