Ontdek hoe je eenvoudig alle belangrijke pagina's van een professionele website kunt verkennen

Het inventariseren van de pagina’s van een professionele website beperkt zich niet tot het doorlopen van het hoofdmenu. Een aanzienlijk deel van de gepubliceerde URL’s ontsnapt aan de zichtbare navigatie: conversiepagina’s zonder link in de header, oude landingspagina’s die nog steeds geïndexeerd zijn, of inhoud die alleen toegankelijk is via een interne zoekmachine. Begrijpen waar deze pagina’s zich bevinden en hoe je er methodisch toegang toe krijgt, stelt je in staat om de werkelijke kwaliteit van een site te beoordelen voordat je zelfs maar de inhoud analyseert.

Sitemap XML en robots.txt: wat de technische bestanden van een site onthullen

Voordat je een of ander hulpmiddel start, geven twee bestanden die toegankelijk zijn vanuit elke browser een eerste overzicht. Het bestand sitemap XML, dat meestal in de root van het domein is gehost (domein.com/sitemap.xml), lijst de URL’s op die de eigenaar van de site geïndexeerd wil zien door zoekmachines. Dit bestand bevat niet altijd alle gepubliceerde pagina’s, maar het biedt een bruikbare basis in enkele seconden.

Lees ook : Ontdek hoe je je carrière kunt boosten met een innovatieve vacatureplatform

Het bestand robots.txt (domein.com/robots.txt) werkt omgekeerd: het geeft de crawlers aan welke mappen of pagina’s niet gecrawld moeten worden. Het combineren van de twee bestanden maakt het mogelijk om gebieden van de site te identificeren die opzettelijk voor zoekmachines verborgen zijn. Een “Disallow”-richtlijn op een map /archive/ of /test/ wijst vaak op weespagina’s of pagina’s die in herziening zijn, die echter nog steeds toegankelijk zijn via directe URL.

Deze handmatige aanpak is geschikt voor een eerste diagnose. Om verder te gaan en de pagina’s van de Businessmindset-site te verkennen, is een goed gestructureerde sitemap voldoende om de volledige boomstructuur in kaart te brengen en de belangrijkste secties in één oogopslag te identificeren.

Aanrader : Ontdek hoe je snel de beste vastgoedadvertenties online kunt vinden

Google-zoekoperatoren: een site in kaart brengen zonder externe tools

De opdracht site:domein.com in Google toont alle geïndexeerde pagina’s voor een gegeven domein. Het aantal resultaten geeft een schatting van het volume aan pagina’s dat Google kent, hoewel dit cijfer slechts een benadering is.

De waarde van deze methode gaat verder dan alleen tellen. Door de operator “site:” te combineren met filters, kunnen specifieke categorieën worden geïsoleerd:

site:domein.com inurl:blog retourneert alleen de geïndexeerde blogartikelen, wat het mogelijk maakt om het volume van gepubliceerde redactionele inhoud te meten.
site:domein.com filetype:pdf haalt de PDF-documenten op die op de site zijn gehost, vaak onzichtbaar in de klassieke navigatie (whitepapers, catalogi, algemene voorwaarden).
site:domein.com -inurl:blog sluit de blog uit en toont de institutionele pagina’s, productbladen of landingspagina’s die de kern van de site vormen.

Deze techniek vereist geen toegang tot de backoffice van de site. Het werkt zowel voor het auditen van je eigen domein als voor het analyseren van de structuur van een concurrent. Pagina’s die zijn geblokkeerd door robots.txt of voorzien zijn van een noindex-tag zullen echter niet in deze resultaten verschijnen.

SEO-crawlers en beperkingen van gratis versies voor kleine structuren

Crawl-tools zoals Screaming Frog of Sitebulb automatiseren de verkenning door elke interne link van een site, pagina voor pagina, te doorlopen zoals een zoekmachinebot. Het resultaat is een complete lijst van ontdekte URL’s, vergezeld van technische gegevens (HTTP-codes, title-tags, klikdiepte, inkomende en uitgaande links).

Sinds 2023-2024 hebben verschillende van deze tools de limieten van hun gratis versies aangescherpt: plafond van gecrawlde URL’s, beperkingen op het exporteren van gegevens of het verwijderen van bepaalde auditfunctionaliteiten. Voor een site van enkele tientallen pagina’s blijft de gratis versie voldoende. Daarboven wordt de betaalde licentie moeilijk te omzeilen.

Wat te doen zonder budget voor specifieke software

Google Search Console blijft een gratis tool die de geïndexeerde pagina’s van een site bijhoudt, op voorwaarde dat je de eigenaar of beheerder bent. Het rapport “Dekking” (of “Pagina’s” in de recente interface) lijst de geïndexeerde, uitgesloten of foutieve URL’s op. Het vervangt geen volledige crawler, maar identificeert de pagina’s die Google daadwerkelijk heeft ontdekt en diegene die hij heeft besloten te negeren.

Voor een externe audit (een derde site analyseren) dekt de combinatie van sitemap XML + Google-operatoren een aanzienlijk deel van de toegankelijke pagina’s. Geen enkele gratis tool garandeert een dekking van 100%, vooral niet op grote of complex gebouwde sites.

Verborgen conversiepagina’s: het blinde vlek van oppervlakkige audits

De meest strategische pagina’s van een professionele site verschijnen niet altijd in het menu. Offertepagina’s, inschrijfformulieren, bedankpagina’s na conversie, varianten van landingspagina’s voor advertentiecampagnes: deze URL’s dragen rechtstreeks bij aan de omzet zonder in de zichtbare boomstructuur te verschijnen.

De feedback van gespecialiseerde B2B-bureaus bevestigt dat een aanzienlijk deel van de beslissende pagina’s in een conversietraject onzichtbaar blijft vanuit de hoofdnavigeer. Ze zijn alleen toegankelijk via diepe interne links, marketing-e-mails of dynamische URL-parameters.

Het identificeren van deze pagina’s vereist het combineren van verschillende bronnen:

De technische crawl identificeert de intern gelinkte URL’s die echter ontbreken in het menu.
De sitemap XML kan ze bevatten als de webmaster ze heeft aangegeven.
De analytics-gegevens (GA4 of equivalent) onthullen de pagina’s die door bezoekers zijn bekeken, zelfs zonder directe navigatielink.

De gegevens die beschikbaar zijn via analytics-tools vertonen echter een toenemende beperking. Met de generalisatie van de Consent Mode v2 van Google en het percentage cookie-afwijzingen, wordt een deel van de bekeken pagina’s niet meer meegerekend in de rapporten. De pagina’s die daadwerkelijk door bezoekers zijn bekeken, zijn mogelijk talrijker dan wat de analytics tonen.

Weespagina’s identificeren

Een weespagina is niet gelinkt aan enige andere pagina van de site. Ze bestaat, is soms geïndexeerd, maar er leidt geen navigatiepad naartoe. SEO-crawlers kunnen deze niet ontdekken omdat ze de links volgen. Alleen de gegevens van de sitemap of de Search Console maken het mogelijk om deze te identificeren door de lijst van aangegeven URL’s te vergelijken met de daadwerkelijk door de crawl gevonden URL’s.

Een professionele site die weespagina’s accumuleert, verstoort zijn crawlbudget en zendt tegenstrijdige signalen naar zoekmachines. Het verwijderen of koppelen aan de interne linkstructuur maakt deel uit van het onderhoudswerk dat de meeste site-eigenaren verwaarlozen.

Methodisch de pagina’s van een website verkennen vereist de acceptatie dat geen enkele enkele methode voldoende is. De sitemap geeft de aangegeven structuur, de Google-operatoren tonen wat is geïndexeerd, de crawler onthult de werkelijke linkstructuur, en de analytics vullen aan met de gebruikerspaden. Het is hun kruising die een betrouwbare kaart produceert, niet het geïsoleerde gebruik van een van hen.

Ontdek hoe je eenvoudig alle belangrijke pagina’s van een professionele website kunt verkennen