Robots.txt

In het digitale tijdperk, waar zoekmachines en webrobots de weg naar je website vinden, is het belangrijk om de juiste balans te vinden tussen wat wel en niet toegankelijk is. Gelukkig biedt het robots.txt-bestand een krachtige tool om het crawlen en indexeren van je site te beheren door webrobots te sturen waar ze wel en niet mogen gaan.

Wat is robots.txt en waarvoor dient het?

Het robots.txt-bestand is een tekstbestand dat zich op de root van je website bevindt en fungeert als een gids voor webrobots, ook wel crawlers of bots genoemd. Het doel is om deze bots te instrueren welke delen van je website ze mogen crawlen en indexeren. Hierdoor kun je overmatige belasting van je server voorkomen, de privacy van gevoelige informatie beschermen en zoekmachines beter sturen naar de belangrijkste pagina’s van je site.

De belangrijkste regels voor robots.txt:

User-agent: *

Betekenis: Deze regel geldt voor alle webrobots. Alle andere regels die na deze regel komen, zijn van toepassing op alle webrobots, tenzij er een specifieke regel voor een andere user-agent wordt opgegeven.

User-agent: Googlebot

Betekenis: Met deze regel worden alle regels die van toepassing waren op alle webrobots (User-agent: *) specifiek voor Googlebot vervangen. Dit biedt de mogelijkheid om Googlebot anders te behandelen dan andere bots.

Disallow: /geheim/

Betekenis: Deze regel verbiedt alle webrobots om de inhoud van de “/geheim/” map te crawlen. Gebruik het om gevoelige informatie of persoonlijke gegevens te beschermen.

Allow: /openbaar/toegestaan.html

Betekenis: Terwijl de map “/geheim/” is geblokkeerd, geeft deze regel aan dat het bestand “/openbaar/toegestaan.html” wel mag worden gecrawld. Dit staat specifieke inhoud toe, zelfs als het binnen een geblokkeerde map valt.

Disallow: /*.pdf$

Betekenis: Deze regel verbiedt webrobots om alle URL’s te crawlen die eindigen op “.pdf”. Het blokkeert de toegang tot alle pdf-bestanden op je website.

Disallow: /archief/

Betekenis: Hiermee wordt voorkomen dat webrobots de inhoud van de “/archief/” map crawlen. Dit is handig voor oude of verouderde inhoud die niet langer relevant is.

Crawl-delay: 5

Betekenis: Met deze regel wordt webrobots gevraagd om minimaal 5 seconden te wachten tussen het crawlen van opeenvolgende pagina’s. Het helpt de serverbelasting te verminderen.

Host: www.example.com

Betekenis: Als je verschillende subdomeinen hebt die dezelfde robots.txt delen, kun je met deze regel aangeven welk specifiek domein van toepassing is op de regels.

Sitemap: https://www.example.com/sitemap.xml

Betekenis: Deze regel verwijst naar de locatie van het sitemap-bestand dat een lijst van alle pagina’s op je website bevat die je wilt laten crawlen door zoekmachines.

Commentaar: # Deze regel blokkeert alle niet-essentiële bestanden

Betekenis: Hoewel dit geen echte regel is, kun je commentaar toevoegen aan je robots.txt-bestand om notities of uitleg te geven over de regels. Het helpt andere ontwikkelaars te begrijpen wat elk onderdeel betekent.

Het gebruik van het robots.txt-bestand is een waardevolle manier om webrobots te sturen en de toegang tot delen van je website te beheren. Door gebruik te maken van regels zoals “Disallow” en “Allow”, evenals wildcards zoals “*”, kun je zorgvuldig bepalen welke inhoud wel en niet door crawlers moet worden opgenomen. Met een goed geconfigureerd robots.txt-bestand kun je de prestaties van je website verbeteren, je privacy beschermen en ervoor zorgen dat zoekmachines gemakkelijk de belangrijkste pagina’s van je site vinden. Door de kracht van robots.txt te begrijpen en effectief toe te passen, ben je beter uitgerust om je online aanwezigheid te beheren en te optimaliseren.

Voorbeeld 1:

Blokkeer specifieke bestanden en mappen voor alle webrobots, behalve Googlebot:

Kopieer naar klembord

In dit voorbeeld worden alle webrobots (User-agent: *) geblokkeerd van het crawlen van de mappen “/private/”, “/confidential/” en “/backup/”, evenals alle URL’s die eindigen op “.pdf”. Maar specifiek voor Googlebot (User-agent: Googlebot) worden geen regels opgegeven, wat betekent dat Googlebot volledige toegang heeft tot de hele website.

Voorbeeld 2:

Blokkeer specifieke paden voor alle webrobots, behalve een specifieke bot:

Kopieer naar klembord

In dit voorbeeld worden alle webrobots (User-agent: *) geblokkeerd van het crawlen van de paden “/admin/”, “/config/” en “/private/”. Echter, zowel Bingbot (User-agent: Bingbot) als Googlebot (User-agent: Googlebot) worden specifiek geblokkeerd van het crawlen van “/private/”, maar Bingbot wordt ook geblokkeerd van “/hidden/”, en Googlebot wordt ook geblokkeerd van “/archive/”.

Voorbeeld 3:

Gebruik wildcards om meerdere URL’s te blokkeren:

Kopieer naar klembord

In dit voorbeeld worden alle webrobots (User-agent: *) geblokkeerd van het crawlen van URL’s die eindigen op “.pdf” in de “/documents/” map, alle URL’s die eindigen op “.png” in de “/images/” map, alle URL’s binnen de “/private/” map, en alle URL’s die eindigen op “.bak” in de “/backup/” map.

Het is belangrijk om de robots.txt-bestanden zorgvuldig te configureren, omdat onjuist gebruik van regels invloed kan hebben op de zichtbaarheid en indexering van je website in zoekmachines. Test altijd je robots.txt-bestand om ervoor te zorgen dat het de gewenste resultaten oplevert.

Het correct configureren van je robots.txt-bestand is cruciaal voor de zichtbaarheid en indexering van je website in zoekmachines. Een kleine fout kan onbedoeld belangrijke delen van je site blokkeren voor zoekmachines. Gelukkig zijn er tools beschikbaar om je robots.txt-bestand te testen en te valideren voordat je het live zet.

Google’s Robots Testing Tool

Google biedt een handige Robots Testing Tool die je kunt gebruiken om je robots.txt-bestand te testen. Naast Google’s tool zijn er ook andere online robots.txt-testers beschikbaar die vergelijkbare functionaliteit bieden. Het kan nuttig zijn om meerdere tools te gebruiken om een volledig beeld te krijgen van hoe verschillende zoekmachines je robots.txt-bestand kunnen interpreteren.