Robots.txt bestand

Samenvatting Artikel

Een robots.txt bestand is een bestand dat je in de zogeheten root van je website kunt vinden. Een root kun je zien als een bestandenmap waar alle bestanden van je site in staan zoals ook het .htaccess bestand.

Robots.txt bestanden functioneren aan de hand van het zogenaamde Robots Exclusion Protocol. Dit protocol schrijft voor dat je als beheerder van een website zelf moet kunnen aangeven welke subpagina’s wel en niet geïndexeerd mogen worden door volautomatisch functionerende zoekrobots (ook wel crawlers genoemd), die dit indexeerwerk namens online zoekmachines als Google uitvoeren. Met een robots.txt bestand kun je voorkomen dat bepaalde subpagina’s gevonden en geïndexeerd worden door deze robots.

Robots.txt bestanden en SEO

Het doel van robots.txt bestanden is dus om te voorkomen dat sommige van de subpagina’s van je website worden geïndexeerd. Of met andere woorden: met het genoemde bestand bepaal je zelf precies welke subpagina’s wel en niet geïndexeerd moeten worden.

Het is verstandig je hiermee bezig te houden, vooral voor wat betreft je SEO-prestaties, lees: de online vindbaarheid van je website. Het zou immers zomaar kunnen dat sommige subpagina’s in het geheel niet SEO-proof zijn gemaakt of niet geïndexeerd mogen/moeten worden. Het kan namelijk voorkomen dat er aparte pagina’s of XML-sitemaps worden aangemaakt vanuit je website die worden gebruikt voor de opbouw van functies in je website: deze wil je niet naar zoekmachines sturen.

Als je die pagina’s of sitemaps doorstuurt kun je de algehele SEO-prestatie – en dus ook je Google-ranking – naar beneden halen. Bovendien wil je natuurlijk dat bezoekers aan jouw website op de juiste, voor hen geprepareerde pagina’s terechtkomen. Dit voorkom je door in een robots.txt bestand duidelijke instructies hierover in te voeren, en door daarmee onder andere pagina’s die niet SEO-proof zijn uit te sluiten van indexering.

De werking van robots.txt

Een onmiskenbaar voordeel van robots.txt bestanden is dat deze betrekkelijk eenvoudig aan te maken zijn. Dit is zeker het geval wanneer je gebruik maakt van WordPress als CMS. Als bezitter van een WordPress website kun je namelijk simpelweg de bekende plug-in Yoast SEO downloaden. Daarmee kun je vervolgens heel gemakkelijk een robots.txt creëren.

Er zijn verder diverse programma’s waarmee je een robots.txt bestand kunt genereren. Deze programma’s staan ook wel bekend als robots.txt generators. Goede voorbeelden hiervan zijn onder andere SEOBook, SEOptimer en Ryte. Ben je eenmaal met een bestand bezig, dan gaat de aandacht vervolgens vooral uit naar de subpagina’s die geïndexeerd moeten worden (allow) en die juist moeten worden genegeerd (disallow).

Robots.txt via Public HTML

Een andere mogelijkheid om een robots.txt bestand toe te voegen voor je WordPress website is via de bestandsbeheer waar je bijvoorbeeld via FTP bij kunt. Dit is een voorbeeld van een robots.txt bestand die je kunt gebruiken voor een WordPress website met pagina’s en een blog (vervang https://jouwwebsite.nl voor de URL’s van jouw website):

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://jouwwebsite.nl/page-sitemap.xml
Sitemap: https://jouwwebsite.nl/post-sitemap.xml

Houd rekening met deze aandachtspunten

Wanneer je aan de slag gaat met robots.txt bestanden, dan is er een aantal aandachtspunten en valkuilen waar je op moet letten:

  • De informatie die in je robots.txt’s staat, kan door iedereen worden ingezien. Deze kun je meestal inzien door achter je domeinnaam /robots.txt toe te voegen. Zorg er dus voor dat hier geen vreemde of gevoelige informatie in staat.
  • Houd rekening met het feit dat backlinks vanuit externe websites jouw disallow-acties kunnen ondermijnen. Een site waarnaar via een backlink wordt gelinkt, verschijnt immers uiteindelijk wel in de Google-zoekresultaten.
  • Heb je een sitemap die voor websitebezoekers beschikbaar is? Sta Google dan zeker toe deze sitemap te indexeren.
  • Ben je ervan op de hoogte dat er bepaalde malware-bots actief zijn? Zorg er dan voor dat deze bots geen enkele van je pagina’s kunnen indexeren.
  • Is het vanwege zeer gevoelige informatie op een bepaalde website echt zéér onwenselijk dat deze pagina wordt geïndexeerd en vindbaar wordt via zoekresultaten? Dan kun je deze pagina beter beveiligen via bijvoorbeeld een inlogscherm in combinatie met een wachtwoord.
  • Let op: WordPress maakt standaard wel een .htaccess bestand aan maar geen robots.txt bestand: zorg ervoor dat je een robots.txt bestand aanmaakt zodra je website live gaat.

Bekijk hier al onze marketing termen of een van onze blog artikelen over online marketing.

Lees al onze blog artikelen of bekijk hier al onze marketing termen of website termen om meer basiskennis te verkrijgen over online marketing.

Blog

10 stappenplan doelgroep analyse

Wil je je product of dienst optimaal verkopen, dan is het zaak je doelgroep zo goed mogelijk te kennen. Een doelgroep analyse is dan een belangrijk stap.

Caching

Caching is een techniek waarmee je gegevens en bestanden tijdelijk opslaat in een digitale opslagplaats, oftewel een cache.

Beste Google Fonts

Ben je op zoek naar het beste Google Font voor jouw nieuwe website? Er zijn natuurlijk enorm veel Google Fonts beschikbaar: wij helpen je op weg.

Andere marketing termen

CSS

CSS is een programmeertaal waarmee je kunt zorgen voor een juiste opmaak van HTML-bestanden. De afkorting CSS staat voor Cascading Style Sheets.

HTML

HTML is een afkorting die staat voor Hyper Text Markup Language. HTML een programmeertaal of codetaal die mede wordt gebruikt voor het opmaken van websites.

Caching

De laadtijd van een website kan worden verbeterd door aan caching te doen. Bij caching worden bepaalde gegevens tijdelijk opgeslagen in een cache (oftewel een digitale opslagplaats).

DNS

De afkorting DNS staat voor Domain Name System. DNS staat er voor garant dat je op de juiste plek terechtkomt wanneer je een website aanklikt of intypt bovenin de browser.

Top level domain (TLD)

Elke website en iedere URL heeft een top level domain, een term die meestal wordt afgekort tot TLD. Het TLD is het laatste stukje van een root domain en een andere benaming van het TLD is extensie.

Root domain

Root domain is een begrip dat in de werkvelden van de ICT en de online marketing vaak terugkomt. Een root domain wordt gevormd door de combinatie van een domeinnaam en een extensie.

Wil je sparren met Hans over je online marketing uitdagingen of kansen bespreken voor een nieuwe maatwerk website?

Hans Boersma - Digital Wizards boksen