Tampereen yliopisto
Tietokonekeskus
 

etusivu: sähköposti ja www: ohjeet: www-sivut ja hakukoneet

WWW-sivut ja hakukoneet

Webissä on lukuisia www-robotteja, jotka etsivät verkosta maailmanlaajuisesti www-sivuja omiin indekseihinsä. Näistä idekseista taas on mahdollista suorittaa hakuja. Tunnettuja hakupaikkoja on esimerkiksi www.google.com ja www.altavista.com.

On kuitenkin tiettyjä tapoja estää joidenkin sivustojen joutumista tälläisiin indekseihin ja hakukoneisiin. Tälläisiä tapoja käyttää robots.txt tiedostoa ja sivuston suojaaminen salasanalla. Kannattaa myös huomioida se, että www-robotit eivät lisää indekseihinsä sellaisia sivuja, joihin ei ole olemassa julkista linkkiä jostakin muualta.

robots.txt

WWW-sivuston juuressa olevalla robots.txt tiedostossa kerrotaan mitä sivustoja www-robotti ei saa indeksoida.

Tiedoston robots.txt syntaksi on seuraava:

#-merkillä alkavat rivit ovat kommentteja.

Jos rivi alkaa sanalla User-agent:, niin tällä rivillä ilmoitetaan mitä www-robotteja tieto koskee. Esimerkki User-agent: rivistä, joka koskee kaikkia www-robotteja:

User-agent: *

Jos rivi alkaa sanalla Disallow: ja sanan jälkeen tulee URL, niin tällä rivillä ilmoitetaan mitä URL:ää ei saa indeksoida. Esimerkki, jossa kielletään ideksoimasta URL:ää /test/, siis yliopiston palvelimella http://www.uta.fi/test/ ja alla olevia sivustoja.

Disallow: /test/

HUOM!! robots.txt täytyy olla maailman luettavissa. Tämä onnistuu antamalla komento:

chmod o=r robots.txt

Esimerkki robots.txt kokonaisuudessaan:

# Indeksoijille tiedoksi filet joihin ei saa koskea

User-agent: *
Disallow: /test/

laitos foobar ja robots.txt

Esimerkki laitoksesta foobar, jonka sivut sijaitsevat URL:ssa /laitokset/foobar/ ja he haluavat estää heidän testi sivustoaan joutumasta hakukoneisiin.

# Indeksoijille tiedoksi filet joihin ei saa koskea

User-agent: *
Disallow: /laitokset/foobar/test/

Yllä oleva robots.txt pitää tietenkin tässä tapauksessa olla laitoksen foobar sivujen päähakemistossa ja sillä pitää olla maailman lukuoikeudet.

Huomioita robots.txt tiedoston käytöstä

HUOM!! Vaikka robots.txt tiedosto olisi olemassa ja se olisi maailman luettavissa, niin se ei silti tarkoita sitä etteikö sivusto voisi silti joutua hakukoneiden tietokantoihin. Tähän voi olla syynä mm. se, että kyseinen www-robotti ei välitä tuosta robots.txt tiedoston sisällöstä tai kyseinen sivusto on jo hakukoneen indekseissä. Ehdottomasti varmin tapa estää sivustoaa näkymästä koko maailmalle on se, että suojaa ne salasanalla.

Kannattaa myös muistaa:

Ei ole olemassa mitään sääntöä tai tarkkaa tietoa siitä kuinka usein hakurobotit käyvät tutkimassa mitäkin sivustoja ja/tai kuinka laajoja sivustoja nämä www-robotit indeksoivat. Jos sivustosi on kerrankin joutunut www-robotin ideksoimaksi, niin on todennäköistä, että tuo sivusto tulee olemaan indekseissä todella pitkään. On mahdollista pyytää hakukoneiden ja indeksien ylläpitäjiltä sitä, että he poistaisivat jotkin sivut indekseistään. Ei ole kuitenkaan mitään takeita siitä miten nopeasti tuo poistaminen tapahtuu tai tapahtuuko sitä ollenkaan.


Ohje: Leena Heino


Webmaster
Monday, 22-Sep-2003 12:26:21 EEST