Robots.txt is een belangrijk bestandje voor zoekoptimalisatie. Je leert hoe je dit bestand correct kunt gebruiken om zo het gedrag van zoekmachines licht aan te passen.
Meestal heb je maar weinig invloed op welke manier zoekrobots je pagina's indexeren
(welke pagina's ze opslaan en welke niet). Dit komt vooral omdat bijna alle
zoekrobots een andere methode hebben om pagina's op te nemen in hun index. De
index is de verzameling van miljoenen webpagina's die de zoekrobot
heeft gevonden (geïndexeerd) en kan worden weergegeven in zoekresultaten.
Je kunt natuurlijk altijd je pagina's optimaliseren, maar dat is nog altijd
geen garantie dat de zoekrobot in kwestie al je pagina's indexeert.
Ook het omgekeerde kan het geval zijn: bepaalde pagina's zijn voor privé-doeleinden
bestemd en mogen niet geïndexeerd worden. Je zou toch niet willen dat vertrouwelijke
gegevens die je voorlopig geparkeerd hebt op je webspace in de zoekresultaten
van pakweg Google stonden?
Gelukkig kunnen we met meta-tags instellen dat een
bepaalde pagina wel of niet mag opgenomen worden. Er is ook nog een andere methode
die we hier gaan bespreken. We gaan dit doen met een zogenaamd robots.txt
bestand.
WerkwijzeHoe werkt het? Wel, eigenlijk is het erg eenvoudig. Je neemt in je hoofdmap
een bestand op, genaamd robots.txt waarin je opgeeft welke pagina's niet mogen
worden geïndexeerd door een bepaalde zoekrobot of door alle zoekrobots.
Hiervoor bestaan bepaalde codes.
- Open een leeg tekstbestand in je tekstverwerker (Kladblok is hiervoor al
meer dan voldoende).
- Sla dit bestand op in de hoofdmap van je site onder de naam robots.txt.
Als je gebruikt maakt van gratis hosting heb je geen toegang tot de hoofdmap
en zul je wellicht geen gebruik kunnen maken van dit artikel. Een correcte
locatie van zo'n bestand is http://www.mijnwebsite.be/robots.txt.
Het bestand robots.txtDe inhoud van het bestand ziet er steeds als volgt uit:
User-agent: [naam zoekrobot]
Disallow: [naam bestand of directory]
De User-agent is de naam van de zoekrobot. Bij disallow
zul je ingeven welke pagina's of mappen niet mogen geïndexeerd worden.
Een voorbeeldje zal veel duidelijk maken:
User-agent: google
Disallow: admin.php
In dit voorbeeld wordt de zoekrobot Google
opgedragen om het bestand admin.php over te slaan en niet op te nemen in zijn
index. In dit geval zou het echter niet logisch zijn om enkel deze zoekrobot
op te dragen om de adminpagina niet te indexeren. Om ervoor te zorgen dat geen
enkele zoekrobot deze pagina indexeert, maken we gebruik van het jokerteken
*. De inhoud van het bestand wordt dan:
User-agent: *
Disallow: admin.php
Je kunt ook meerdere pagina's of meerdere mappen opnemen in het bestand.
Een uitgebreider voorbeeld:
User-agent: *
Disallow: admin.php
Disallow: /test/
Disallow: /help/formulier.html
In dit voorbeeld zal geen enkele zoekrobot het bestand admin.php, de map test
en het bestand formulier.html dat in de map help staat, opnemen in de index.
Erg handig is de site http://www.searchengineworld.com
waar je kunt checken of je geen fouten hebt gemaakt in het bestand.
Meer informatie over robots.txt vind je op The
Web Robots Pages.
|