Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos INFIM Informaatiotutkimuksen ja interaktiivisen median laitos Tampereen yliopisto

Hakuavaimen katkaisu (merkkijonokatkaisu) ja merkkijonon korvaaminen

Hakuavaimen katkaisu ja merkkijonon korvaaminen ovat mahdollisia vain joissakin hakujärjestelmissä. Mikään nykyinen Web-hakukone ei tue näitä toimintoja. 

Merkkijonokatkaisussa hakija katkaisee merkkijonon halumastaan kohdasta ja antaa täsmentymättömän lopun tilalle jokerimerkin (wild card). Tällä voidaan korvata joko yksittäinen merkki tai merkkijono. Merkkijonon korvaaminen voi kohdistua mihin hakuavaimen osaan tahansa. Se, mitä merkkiä katkaisumerkkinä käytetään, vaihtelee hakujärjestelmästä toiseen. Suosittuja katkaisumerkkejä ovat olleet *, ? tai #.

Katkaisu- ja korvaamismahdollisuudet vaihtelevat hakujärjestelmästä toiseen:

  • Ei ollenkaan katkaisua
  • Katkaisu merkkijonon lopusta
  • Katkaisu lopusta ja alusta
  • Katkaisu lopusta, alusta ja merkkien korvaaminen

Hakuavaimen katkaisu sopii esim. hakuavainten vaihtelevanpituisten etu- ja loppuliitteiden korvaamiseen, taipuneiden sanojen hakemiseen ja yhdyssanojen osien hakemiseen. Merkkijonon korvaaminen sopii esim. hakuavainten erilaisten kirjoitusasujen hakemiseen.

Merkkijonokatkaisua käyttäen muodostuu ns. merkkijonokaavio. Merkkijonokaavio on malli, joka täsmää useisiin hakemiston merkkijonoihin. Se muodostetaan korvaamalla merkkijonovakion yksittäisiä merkkejä tai kokonaisia osajonoja jokerimerkillä. (Katso merkkijonokaaviosta ja -vakiosta tarkemmin)

Esimerkiksi:

  • antibod? TÄSMÄÄ antibody ja antibodies
  • alumin?m TÄSMÄÄ aluminium ja aluminum
  • ?adjustment TÄSMÄÄ adjustment ja readjustment

(? täsmää siis merkkijonoon, jonka pituus on nollasta ylöspäin)

ISOn komentokielistandardissa (ISO, 1993) merkkijonon korvaava jokerimerkki on '?'. Se täsmää mihin tahansa aakkosnumeeriseen merkkijonoon, jonka pituus on nolla tai suurempi. Tällöin myös merkin puuttuminen kelpaa, mutta erottimia ei voi sisältyä täsmäävään merkkijonoon. Merkkijonon korvaus (string masking) jokerimerkillä '?' sopii hakuavainten vaihtelevanpituisten etu- ja loppuliitteiden korvaamiseen, yhdyssanojen osien hakemiseen sekä myös hakuavainten sellaisten kirjoitusasujen hakemiseen, joiden erot koskevat merkkien määrää. Esimerkkejä:

  • 'alumin?m' täsmää merkkijonoihin 'aluminium' ja 'aluminum'
  • 'sul?ur' täsmää merkkijonoihin 'sulfur' ja 'sulphur' 
  • 'col?r?' Täsmää merkkijonoihin 'colour', 'color', 'coloured' ... 
  • '?cognit?' Täsmää merkkijonoihin 'cognition', 'cognitive', 'recognition', ...

Jokerimerkkiin '?' voidaan liittää myös korvattavan merkkijonon pituusrajoitin muodossa '?n', jossa n on positiivinen kokonaisluku. Jokerimerkki '?n' korvaa 0 - n merkkiä. Esimerkiksi 'col?2r?' ei täsmää merkkijonoon 'columnar', mutta täsmää kuitenkin merkkijonoon 'colporter'." (Järvelin & Kekäläinen 2002).

Merkkijonokatkaisu eri hakujärjestelmissä

Järjestelmät käyttävät yleensä omia ratkaisujaan ISO-standardin sijaan. Eri hakujärjestelmät toteuttavat merkkijonokatkaisua hiukan eri tavoin, vaikka perusperiaatteet ovatkin samat. Seuraavassa on esimerkit muutaman verkon hakujärjestelmän merkkijonokatkaisusta.

AltaVista

Jokerimerkkinä AltaVistassa oli tähti '*', mutta valitettavasti ominaisuus on nyttemmin poistettu käytöstä. AltaVistan tähti täsmäsi merkkijonoon, jonka pituus oli nollasta ylöspäin. Hakuvartalon tuli olla vähintään kolmen merkin pituinen. Jokerimerkin voi laittaa myös sanan sisälle.

Esim. house* TÄSMÄSI sanoihin house, houses, housekeeping, household

Dialog-järjestelmä

Erilaisia katkaisutapoja

Jokerimerkki Esimerkki
? medic?
? ? cell? ?
??, ??? medic???
?-merkki (merkit) sanan sisässä wom?n

? korvaa minkä tahansa merkkijonon 0:sta ylöspäin
? ? korvaa minkä tahansa 0 - 1 merkin
?? jos merkkejä on 2 tai enemmän, niin yksi merkki vastaa yhtä korvattavaa merkkiä
Sanan sisällä kysymysmerkkien määrä on aina sama kuin korvattavien merkkien määrä.

Katso tarkemmin Dialogin sivuilta

Merkkijonovakiot edustavat esiintymätasolla ilmaisutason hakusanoja (ks. tarkemmin tasoperiaatteesta).

käsitetaso hakukäsite
ilmaisutaso hakuavaimet (hakutermit, koodit/lyhenteet, hakusanat)
esiintymätaso merkkijonot

Merkkijonokatkaisun ongelmia

Merkkijonokatkaisun käytössä on useita ongelmia. Keskeisiä niistä ovat seuraavat:

  • käyttäjän on tunnettava sanojen taipuminen, mikä voi olla liikaa vaadittu jos taivutus kielessä on mutkikas kuten vaikka suomessa
  • liian aikainen katkaisu: käyttäjä antaa liian lyhyen merkkijonon, joka täsmää roskaan
  • sanan vartalotaipuminen: sanan eri vartalot ovat täysin erilaisia. Esim. yö, öiden; mouse, mice: (yö OR öiden), (mouse OR mice) #syn(yö öiden), #syn (mouse mice) johdokset Esim. autovero - autoverotus (ok) , käsi - käsine (?), house - household (?)

Ammatikseen tietoa hakeva henkilö osaa tai oppii katkaisu/korvaustaidot, mutta satunnaisen käyttäjän taidot ovat arvauksen varassa.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.30 Muokkaa