![]() |
|
etusivu: sähköposti ja www: ohjeet: www-sivut ja hakukoneet WWW-sivut ja hakukoneetWebissä on lukuisia www-robotteja, jotka etsivät verkosta maailmanlaajuisesti www-sivuja omiin indekseihinsä. Näistä idekseista taas on mahdollista suorittaa hakuja. Tunnettuja hakupaikkoja on esimerkiksi www.google.com ja www.altavista.com. On kuitenkin tiettyjä tapoja estää joidenkin sivustojen joutumista tälläisiin indekseihin ja hakukoneisiin. Tälläisiä tapoja käyttää robots.txt tiedostoa ja sivuston suojaaminen salasanalla. Kannattaa myös huomioida se, että www-robotit eivät lisää indekseihinsä sellaisia sivuja, joihin ei ole olemassa julkista linkkiä jostakin muualta. robots.txt Tiedoston robots.txt syntaksi on seuraava: #-merkillä alkavat rivit ovat kommentteja. Jos rivi alkaa sanalla User-agent:, niin tällä rivillä ilmoitetaan mitä www-robotteja tieto koskee. Esimerkki User-agent: rivistä, joka koskee kaikkia www-robotteja: User-agent: * Jos rivi alkaa sanalla Disallow: ja sanan jälkeen tulee URL, niin tällä rivillä ilmoitetaan mitä URL:ää ei saa indeksoida. Esimerkki, jossa kielletään ideksoimasta URL:ää /test/, siis yliopiston palvelimella http://www.uta.fi/test/ ja alla olevia sivustoja. Disallow: /test/ HUOM!! robots.txt täytyy olla maailman luettavissa. Tämä onnistuu antamalla komento: chmod o=r robots.txt Esimerkki robots.txt kokonaisuudessaan: # Indeksoijille tiedoksi filet joihin ei saa koskea User-agent: * Esimerkki laitoksesta foobar, jonka sivut sijaitsevat URL:ssa /laitokset/foobar/ ja he haluavat estää heidän testi sivustoaan joutumasta hakukoneisiin. # Indeksoijille tiedoksi filet joihin ei saa koskea User-agent: * Yllä oleva robots.txt pitää tietenkin tässä tapauksessa olla laitoksen foobar sivujen päähakemistossa ja sillä pitää olla maailman lukuoikeudet. Huomioita robots.txt tiedoston käytöstä Kannattaa myös muistaa: Ei ole olemassa mitään sääntöä tai tarkkaa tietoa siitä kuinka usein hakurobotit käyvät tutkimassa mitäkin sivustoja ja/tai kuinka laajoja sivustoja nämä www-robotit indeksoivat. Jos sivustosi on kerrankin joutunut www-robotin ideksoimaksi, niin on todennäköistä, että tuo sivusto tulee olemaan indekseissä todella pitkään. On mahdollista pyytää hakukoneiden ja indeksien ylläpitäjiltä sitä, että he poistaisivat jotkin sivut indekseistään. Ei ole kuitenkaan mitään takeita siitä miten nopeasti tuo poistaminen tapahtuu tai tapahtuuko sitä ollenkaan.
Webmaster Monday, 22-Sep-2003 12:26:21 EEST |