Hoe kan ik mijn crawlbudget optimaliseren voor Google

Google crawlt niet altijd elke pagina op een site onmiddellijk. Soms kan het zelfs weken duren. Dit kan uw SEO-inspanningen in de weg staan. Uw nieuw geoptimaliseerde bestemmingspagina wordt mogelijk niet geïndexeerd. Op dat moment is het tijd om uw crawlbudget te optimaliseren. In dit artikel bespreken we wat een crawlbudget is en wat je kunt doen om het te optimaliseren.

Wat is een crawlbudget?

Crawlbudget is het aantal pagina's dat Google op een bepaalde dag op uw site zal crawlen. Dit aantal varieert enigszins van dag tot dag, maar over het algemeen is het relatief stabiel. Google kan elke dag 6 pagina's op uw site crawlen, het kan 5000 pagina's crawlen, het kan zelfs elke dag 4.000.000 pagina's crawlen. Het aantal pagina's dat Google crawlt, uw 'budget', wordt over het algemeen bepaald door de grootte van uw site, de 'gezondheid' van uw site (hoeveel fouten Google tegenkomt) en het aantal links naar uw site. Sommige van deze factoren zijn dingen die u kunt beïnvloeden, daar komen we zo op terug.

Hoe werkt een crawler?


Een crawler zoals Googlebot krijgt een lijst met URL's om op een site te crawlen . Het doorloopt systematisch die lijst. Het pakt af en toe uw robots.txt- bestand om ervoor te zorgen dat het nog steeds toegestaan is om elke URL te crawlen en vervolgens de URL's één voor één te crawlen. Zodra een spin een URL heeft gecrawld en de inhoud heeft geparseerd, voegt hij nieuwe URL's toe die hij op die pagina heeft gevonden en die hij terug moet crawlen op de takenlijst.

Verschillende gebeurtenissen kunnen Google het gevoel geven dat een URL moet worden gecrawld. Het heeft mogelijk nieuwe links gevonden die naar inhoud verwijzen, of iemand heeft het getweet, of het is mogelijk bijgewerkt in de XML-sitemap, enz. Enz. Er is geen manier om een lijst te maken van alle redenen waarom Google een URL zou crawlen, maar wanneer het besluit dat het moet, voegt het het toe aan de takenlijst.

Wanneer is crawlbudget een probleem?

Het crawlbudget is geen probleem als Google veel URL's op uw site moet crawlen  en  er veel crawls zijn toegewezen. Maar stel dat uw site 250.000 pagina's heeft en dat Google elke dag 2.500 pagina's op deze specifieke site crawlt. Het zal sommige (zoals de startpagina) meer crawlen dan andere. Als u niets doet, kan het tot 200 dagen duren voordat Google bepaalde wijzigingen aan uw pagina's opmerkt. Crawlbudget is nu een probleem. Aan de andere kant, als het 50.000 per dag kruipt, is er helemaal geen probleem.

Volg de onderstaande stappen om snel te bepalen of uw site een crawlbudgetprobleem heeft. Dit veronderstelt wel dat uw site een relatief klein aantal URL's heeft die Google crawlt maar niet indexeert (bijvoorbeeld omdat u meta hebt toegevoegd noindex).

  1. Bepaal hoeveel pagina's u op uw site heeft, het aantal van uw URL's in uw XML-sitemaps kan een goed begin zijn.
  2. Ga naar Google Search Console.
  3. Ga naar "Verouderde tools" -> "Crawlstatistieken" en let op het gemiddelde aantal pagina's dat per dag wordt gecrawld.
  4. Verdeel het aantal pagina's door het aantal 'Gemiddeld gecrawld per dag'.
  5. Als je een getal krijgt dat hoger is dan ~ 10 (dus je hebt 10x meer pagina's dan wat Google elke dag crawlt), moet je je crawlbudget optimaliseren. Als je een getal lager dan 3 krijgt, kun je iets anders gaan lezen.

Welke URL's crawlt Google?

Je moet echt weten welke URL's Google doorzoekt op je site. De enige 'echte' manier om dat te weten, is door naar de serverlogboeken van uw site te kijken. Voor grotere sites gebruik ik persoonlijk liever Logstash + Kibana. Voor kleinere sites hebben de jongens van Screaming Frog een aardige kleine tool uitgebracht, toepasselijk SEO Log File Analyzer genoemd (let op de S, het zijn Britten).

Haal uw serverlogs op en bekijk ze

Afhankelijk van uw type hosting, kunt u mogelijk niet altijd uw logbestanden ophalen. Als u echter zelfs  denkt dat u moet werken aan optimalisatie van het crawlbudget omdat uw site groot is, moet u ze krijgen. Als je host je niet toestaat om ze te krijgen, is het tijd om van host te veranderen.

Het crawlbudget van uw site corrigeren lijkt veel op het repareren van een auto. Je kunt het niet repareren door naar de buitenkant te kijken, je moet die motor openen. Kijken naar logs zal in het begin eng zijn. Je zult snel merken dat er  veel  ruis is in logs. Je zult veel veel voorkomende 404's vinden waarvan je denkt dat het onzin is. Maar je  moet ze repareren. Je moet door het lawaai heen komen en ervoor zorgen dat je site niet wordt verdronken in tonnen oude 404's

Lees meer: Website-onderhoud: controleer en herstel 404-foutpagina's »

Verhoog uw crawlbudget

Laten we eens kijken naar de dingen die daadwerkelijk verbeteren hoeveel pagina's Google op uw site kan crawlen

Website-onderhoud: verminder fouten
Stap één om meer pagina's te laten crawlen, is ervoor te zorgen dat de pagina's die worden gecrawld een van de twee mogelijke  retourcodes retourneren : 200 (voor "OK") of 301 (voor "Ga hierheen"). Alle andere retourcodes zijn  niet  OK. Om dit te achterhalen, moet u naar de serverlogboeken van uw site kijken. Google Analytics en de meeste andere analysepakketten houden alleen pagina's bij die een 200 hebben gediend. U zult dus niet veel van de fouten op uw site vinden.

Zodra u uw serverlogboeken heeft, probeert u veelvoorkomende fouten te vinden en deze op te lossen. De eenvoudigste manier om dat te doen, is door alle URL's te pakken die 200 of 301 niet hebben geretourneerd en vervolgens te sorteren op hoe vaak ze zijn geopend. Het oplossen van een fout kan betekenen dat u de code moet repareren. Of misschien moet u een URL ergens anders omleiden. Als u weet waardoor de fout is veroorzaakt, kunt u ook proberen de bron te herstellen.

Een andere goede bron om fouten te vinden, is Google Search Console . Lees dit bericht van Michiel voor meer informatie daarover. Als je Yoast SEO Premium hebt , kun je ze zelfs gemakkelijk omleiden met behulp van de omleidingsmanager.

Blokkeer delen van uw site
Als u delen van uw site heeft die echt niet in Google hoeven te staan, blokkeer ze dan met robots.txt . Doe dit alleen als je natuurlijk weet wat je doet. Een van de meest voorkomende problemen die we op grotere eCommerce-sites zien, is wanneer ze een ontelbare manier hebben om producten te filteren. Elk filter kan nieuwe URL's voor Google toevoegen . In dergelijke gevallen wilt u er zeker van zijn dat u Google slechts een of twee van die filters laat gebruiken en niet allemaal.

Redirect-ketens verminderen
Wanneer u een URL omleidt, gebeurt er iets vreemds. Google ziet die nieuwe URL en voegt die URL toe aan de takenlijst. Het volgt het niet altijd onmiddellijk, het voegt het toe aan zijn takenlijst en gaat gewoon door. Wanneer u omleidingen bijvoorbeeld koppelt, wanneer u niet-www omleidt naar www en vervolgens http naar https, heeft u overal twee omleidingen, dus alles duurt langer om te crawlen.

Krijg meer links
Dit is makkelijk te zeggen, maar moeilijk te doen. Meer links krijgen is niet alleen een kwestie van geweldig zijn, het is ook een kwestie van ervoor zorgen dat anderen  weten dat je geweldig bent. Het is een kwestie van goede PR en goede betrokkenheid bij Social. We hebben uitgebreid geschreven over linkbuilding, ik raad je aan deze 3 berichten te lezen:

  1. Linkbuilding vanuit een holistisch SEO-perspectief
  2. Linkbuilding: wat niet te doen?
  3. 6 stappen naar een succesvolle linkbuildingstrategie

Wanneer u een acuut indexatieprobleem heeft, moet u zeker naar uw crawlfouten kijken , delen van uw site blokkeren en eerst omleidingsketens repareren. Linkbuilding is een zeer trage methode om uw crawlbudget te verhogen. Aan de andere kant: als u van plan bent een grote site te bouwen, moet linkbuilding deel uitmaken van uw proces.

Optimalisatie van crawlbudget is moeilijk
Optimalisatie van het crawlbudget is niet voor bangeriken. Als u het onderhoud van uw site goed doet of als uw site relatief klein is, is dit waarschijnlijk niet nodig. Als uw site middelgroot en goed onderhouden is, is dit vrij eenvoudig te doen op basis van de bovenstaande trucs.