Robots.txt uitgelegd

Robots.txt is een belangrijk bestandje voor zoekoptimalisatie. Je leert hoe je dit bestand correct kunt gebruiken om zo het gedrag van zoekmachines licht aan te passen.

Meestal heb je maar weinig invloed op welke manier zoekrobots je pagina's indexeren (welke pagina's ze opslaan en welke niet). Dit komt vooral omdat bijna alle zoekrobots een andere methode hebben om pagina's op te nemen in hun index. De index is de verzameling van miljoenen webpagina's die de zoekrobot heeft gevonden (geïndexeerd) en kan worden weergegeven in zoekresultaten.


Je kunt natuurlijk altijd je pagina's optimaliseren, maar dat is nog altijd geen garantie dat de zoekrobot in kwestie al je pagina's indexeert.

Ook het omgekeerde kan het geval zijn: bepaalde pagina's zijn voor privé-doeleinden bestemd en mogen niet geïndexeerd worden. Je zou toch niet willen dat vertrouwelijke gegevens die je voorlopig geparkeerd hebt op je webspace in de zoekresultaten van pakweg Google stonden?

Gelukkig kunnen we met meta-tags instellen dat een bepaalde pagina wel of niet mag opgenomen worden. Er is ook nog een andere methode die we hier gaan bespreken. We gaan dit doen met een zogenaamd robots.txt bestand.

Werkwijze

Hoe werkt het? Wel, eigenlijk is het erg eenvoudig. Je neemt in je hoofdmap een bestand op, genaamd robots.txt waarin je opgeeft welke pagina's niet mogen worden geïndexeerd door een bepaalde zoekrobot of door alle zoekrobots. Hiervoor bestaan bepaalde codes.
  • Open een leeg tekstbestand in je tekstverwerker (Kladblok is hiervoor al meer dan voldoende).
  • Sla dit bestand op in de hoofdmap van je site onder de naam robots.txt. Als je gebruikt maakt van gratis hosting heb je geen toegang tot de hoofdmap en zul je wellicht geen gebruik kunnen maken van dit artikel. Een correcte locatie van zo'n bestand is http://www.mijnwebsite.be/robots.txt.

Het bestand robots.txt

De inhoud van het bestand ziet er steeds als volgt uit:
User-agent: [naam zoekrobot]
Disallow: [naam bestand of directory]


De
User-agent
is de naam van de zoekrobot. Bij
disallow
zul je ingeven welke pagina's of mappen niet mogen geïndexeerd worden.

Een voorbeeldje zal veel duidelijk maken:
User-agent: google
Disallow: admin.php


In dit voorbeeld wordt de zoekrobot Google opgedragen om het bestand admin.php over te slaan en niet op te nemen in zijn index. In dit geval zou het echter niet logisch zijn om enkel deze zoekrobot op te dragen om de adminpagina niet te indexeren. Om ervoor te zorgen dat geen enkele zoekrobot deze pagina indexeert, maken we gebruik van het jokerteken *. De inhoud van het bestand wordt dan:
User-agent: *
Disallow: admin.php


Je kunt ook meerdere pagina's of meerdere mappen opnemen in het bestand.
Een uitgebreider voorbeeld:
User-agent: *
Disallow: admin.php
Disallow: /test/
Disallow: /help/formulier.html


In dit voorbeeld zal geen enkele zoekrobot het bestand admin.php, de map test en het bestand formulier.html dat in de map help staat, opnemen in de index.

Erg handig is de site http://www.searchengineworld.com waar je kunt checken of je geen fouten hebt gemaakt in het bestand.
Meer informatie over robots.txt vind je op The Web Robots Pages.
5 + 5 =
 

GOOGLE adsense