Een robots.txt bestand is een bestand dat je in de zogeheten root van je website kunt vinden. Een root kun je zien als een bestandenmap waar alle bestanden van je site in staan zoals ook het .htaccess bestand.
Robots.txt bestanden functioneren aan de hand van het zogenaamde Robots Exclusion Protocol. Dit protocol schrijft voor dat je als beheerder van een website zelf moet kunnen aangeven welke subpagina’s wel en niet geïndexeerd mogen worden door volautomatisch functionerende zoekrobots (ook wel crawlers genoemd), die dit indexeerwerk namens online zoekmachines als Google uitvoeren. Met een robots.txt bestand kun je voorkomen dat bepaalde subpagina’s gevonden en geïndexeerd worden door deze robots.
Robots.txt bestanden en SEO
Het doel van robots.txt bestanden is dus om te voorkomen dat sommige van de subpagina’s van je website worden geïndexeerd. Of met andere woorden: met het genoemde bestand bepaal je zelf precies welke subpagina’s wel en niet geïndexeerd moeten worden.
Het is verstandig je hiermee bezig te houden, vooral voor wat betreft je SEO-prestaties, lees: de online vindbaarheid van je website. Het zou immers zomaar kunnen dat sommige subpagina’s in het geheel niet SEO-proof zijn gemaakt of niet geïndexeerd mogen/moeten worden. Het kan namelijk voorkomen dat er aparte pagina’s of XML-sitemaps worden aangemaakt vanuit je website die worden gebruikt voor de opbouw van functies in je website: deze wil je niet naar zoekmachines sturen.
Als je die pagina’s of sitemaps doorstuurt kun je de algehele SEO-prestatie – en dus ook je Google-ranking – naar beneden halen. Bovendien wil je natuurlijk dat bezoekers aan jouw website op de juiste, voor hen geprepareerde pagina’s terechtkomen. Dit voorkom je door in een robots.txt bestand duidelijke instructies hierover in te voeren, en door daarmee onder andere pagina’s die niet SEO-proof zijn uit te sluiten van indexering.
De werking van robots.txt
Een onmiskenbaar voordeel van robots.txt bestanden is dat deze betrekkelijk eenvoudig aan te maken zijn. Dit is zeker het geval wanneer je gebruik maakt van WordPress als CMS. Als bezitter van een WordPress website kun je namelijk simpelweg de bekende plug-in Yoast SEO downloaden. Daarmee kun je vervolgens heel gemakkelijk een robots.txt creëren.
Er zijn verder diverse programma’s waarmee je een robots.txt bestand kunt genereren. Deze programma’s staan ook wel bekend als robots.txt generators. Goede voorbeelden hiervan zijn onder andere SEOBook, SEOptimer en Ryte. Ben je eenmaal met een bestand bezig, dan gaat de aandacht vervolgens vooral uit naar de subpagina’s die geïndexeerd moeten worden (allow) en die juist moeten worden genegeerd (disallow).
Robots.txt via Public HTML
Een andere mogelijkheid om een robots.txt bestand toe te voegen voor je WordPress website is via de bestandsbeheer waar je bijvoorbeeld via FTP bij kunt. Dit is een voorbeeld van een robots.txt bestand die je kunt gebruiken voor een WordPress website met pagina’s en een blog (vervang https://jouwwebsite.nl voor de URL’s van jouw website):
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://jouwwebsite.nl/page-sitemap.xml
Sitemap: https://jouwwebsite.nl/post-sitemap.xml
Houd rekening met deze aandachtspunten
Wanneer je aan de slag gaat met robots.txt bestanden, dan is er een aantal aandachtspunten en valkuilen waar je op moet letten:
- De informatie die in je robots.txt’s staat, kan door iedereen worden ingezien. Deze kun je meestal inzien door achter je domeinnaam /robots.txt toe te voegen. Zorg er dus voor dat hier geen vreemde of gevoelige informatie in staat.
- Houd rekening met het feit dat backlinks vanuit externe websites jouw disallow-acties kunnen ondermijnen. Een site waarnaar via een backlink wordt gelinkt, verschijnt immers uiteindelijk wel in de Google-zoekresultaten.
- Heb je een sitemap die voor websitebezoekers beschikbaar is? Sta Google dan zeker toe deze sitemap te indexeren.
- Ben je ervan op de hoogte dat er bepaalde malware-bots actief zijn? Zorg er dan voor dat deze bots geen enkele van je pagina’s kunnen indexeren.
- Is het vanwege zeer gevoelige informatie op een bepaalde website echt zéér onwenselijk dat deze pagina wordt geïndexeerd en vindbaar wordt via zoekresultaten? Dan kun je deze pagina beter beveiligen via bijvoorbeeld een inlogscherm in combinatie met een wachtwoord.
- Let op: WordPress maakt standaard wel een .htaccess bestand aan maar geen robots.txt bestand: zorg ervoor dat je een robots.txt bestand aanmaakt zodra je website live gaat.