INFO : Zoekmachine robots en robots.txt

Gestart door Han, 06 juli 2003, 21:09:18

Vorige topic - Volgende topic

0 leden en 2 gasten bekijken dit topic.

Han

Uit Smalzine Magazine van www.smallzine.nl

Zoekmachine robots en robots.txt
De afgelopen tijd was het verdacht druk op de site. Zelfs in de vroege ochtend waren er tientallen gasten actief. De statistieken wezen uit dat er geen andere druk bezochte site was die een verwijzing naar het forum had gemaakt. Uit de statistieken
bleek dat de 'gasten' behoorden tot het domein van Inktomi. Dit is een zoekmachine, en de bezoekers zijn geen natuurlijke personen maar enkele zoekrobots van de zoekmachine.

Zoekrobots of 'bots' bezoeken een site en indexeren deze ten behoeve van een zoekmachine. Iedere zoekmachine heeft een eigen robot. Sommige zoekmachines, zoals Google, sturen meerdere robots in een keer naar een site. Dit om zo efficiënt mogelijk de index op te bouwen. Veel bezoeken van robots zijn nauwelijks merkbaar. Wat dat betreft is de robot van Inktomi de eerste die zijn (haar?) aanwezigheid verraadt door zo lang op de site rond te hangen. In de (server)statistieken zijn de robots aan de volgende namen te herkennen (of varianten hierop):
- ingrid.ilse.nl
- vagabondo.wise-guys.nl
- crawler11.googlebot.com
- si1004.inktomisearch.com

Niet verbaasd staan kijken als dergelijke namen ook hoog staan in de lijst van de 'bezoekers' die het meeste verkeer genereren. Uiteindelijk is dat een positief teken, want dit betekent dat de zoekmachines regelmatig je site indexeren. Omdat niet alles van een site geïndexeerd hoeft te worden, is het mogelijk om de robots te sturen. Dit gaat via een bestandje genaamd robots.txt

Dit bestandje is niet verplicht en het is geen vereiste dat zoekrobots zich hier aan houden. Maar in de regel respecteren de robots van grote zoekmachine de voorwaarden die in robots.txt staan. Logisch, want veelal beperken ze het zoekgebied van de robot waardoor deze sneller klaar kan zijn en irrelevante informatie buiten beschouwing laat. Het bestand wordt in de root van een website geplaatst. Dus bijvoorbeeld http://www.mijndomein.nl/robots.txt

De opbouw van het robots.txt bestand is zeer eenvoudig. In de eerste regel wordt de volgende tekst geplaatst:
User-agent: *

'User-agent' is de naam van de robot waarvoor de regel geldt.
Vervolgens volgen de regels waar de robot niet mag komen. Dit pad is relatief vanaf de root gezien. Dus als http://www.mijndomein.nl/meeting
niet geïndexeerd mag worden, staat op de tweede regel:
disallow: /meeting

Dit betekent dat alles in en onder de directory 'meeting' niet
meegenomen wordt door de zoekrobot. Om een hele site af te sluiten van een robot:
User-agent: *
Disallow: /


Om uitsluitend de Inktomi robots voor de hele site te weren:
User-agent:
inktomi
Disallow: /


Aangeraden wordt om de naam van de robot in kleine letters te schrijven en zo generiek mogelijk. Dus geen versienummer of iets dergelijks meegeven. Gebruik robots.txt niet om geheime of vertrouwelijke informatie te 'verbergen', de beste garantie daarvoor is om het niet op internet te plaatsen. Voorbeelden van robots.txt-bestanden zijn eenvoudig op te vragen door achter een domeinnaam robots.txt te plaatsen. Daarnaast is er ook een 'Robots.txt syntax checker' beschikbaar.

* Alles over robots.txt

* Robots.txt syntax checker



Als de PCN-server down is, dan moeten we 'm opvrolijken!!