Welke crawler gebruikt ChatGPT?

OpenAI heeft twee crawlers: GPTBot (voor training-data, kun je blokkeren) en OAI-SearchBot (voor live web-search, blijf toestaan). Voor MKB belangrijk: blokkeer GPTBot niet zonder reden — anders verschijn je niet in ChatGPT-antwoorden.

Hoe vaak crawlt ChatGPT mijn site?

Variabel. Populaire pagina's: dagelijks tot wekelijks. Diepere pagina's: maandelijks. Bij grote update: indexering binnen 7-14 dagen meestal zichtbaar.

Hoe ChatGPT je MKB-site vindt (of niet)

TL;DR ChatGPT (GPT-5 met web-zoeken) gebruikt twee crawlers — GPTBot voor training-data en OAI-SearchBot voor live zoekopdrachten. Bij een gebruikersvraag stuurt ChatGPT een Bing-aangedreven query, haalt top resultaten op, leest pagina-snippets en synthetiseert een antwoord met citaties. Jouw site verschijnt in dat antwoord als (a) je vindbaar bent in Bing, (b) je content directe antwoorden bevat, (c) je structured data hebt. Blokkeer GPTBot niet zonder reden.

De twee crawlers van OpenAI

OpenAI publiceert twee user-agents:

GPTBot — crawled content om GPT-modellen te trainen. Optioneel te blokkeren in robots.txt. Geen directe impact op live ChatGPT-antwoorden.
OAI-SearchBot — gebruikt door ChatGPT met web-zoeken om actuele inhoud op te halen. Hier wil je zichtbaar zijn.
ChatGPT-User — wanneer een ChatGPT-gebruiker een specifieke URL geeft. On-demand fetcher.

Belangrijk voor MKB: blokkeer GPTBot alleen als je écht geen training-gebruik wil. Voor live discoverability is OAI-SearchBot wat telt. Beide standaard toestaan = zorgen voor maximale aanwezigheid.

Hoe een ChatGPT-zoekopdracht werkt — stap voor stap

1. Gebruiker stelt vraag: "Wat kost een webshop laten maken in Nederland 2026?"
2. GPT-5 detecteert dat actuele informatie nodig is → roept web-search aan.
3. Achter de schermen: query gaat naar Bing's index (OpenAI heeft Bing-partnership sinds 2023).
4. Top 5-10 resultaten worden teruggegeven met snippets en URLs.
5. Voor relevante resultaten haalt ChatGPT volledige pagina-inhoud op via OAI-SearchBot.
6. Het model synthetiseert antwoord op basis van die snippets.
7. Citaties (clickable links) worden onderaan het antwoord getoond.

Wat ChatGPT belangrijk vindt bij keuze van bronnen

Op basis van observatie en OpenAI's eigen documentatie zien we deze patronen:

Bing-rank is een vertrekpunt — als je niet in top-20 Bing staat voor je query, kom je überhaupt niet ter overweging.
Pagina-kwaliteit signalen: structured data aanwezig, lengte content (typisch 800-3.000 woorden), externe verwijzingen.
Directe antwoord-structuur: TL;DR-blokken, FAQ-secties, getallen in eerste alinea — worden vaker geciteerd.
Bron-autoriteit: sites die door andere bekende bronnen worden gelinkt krijgen voorrang. Mention in vakblad > mention in marketing-blogje.
Recentheid: bij tijdgevoelige vragen ("2026", "actueel") krijgt recent geüpdatet content meer gewicht. Je dateModified in schema.org matters.

Wat je concreet kunt doen

Vier acties die het verschil maken:

1. Optimaliseer voor Bing, niet alleen Google. Submit je sitemap.xml aan Bing Webmaster Tools. Verbeter Bing-specifieke ranking-factoren (eenvoudige URL-structuur, expliciete meta-titles, server-side rendering).
2. Schrijf antwoord-eerst. Eerste alinea = direct antwoord met cijfers, geen aanloop. ChatGPT kopieert die alinea vaak letterlijk.
3. Schema.org overal. Article, FAQPage, LocalBusiness, Service, Product. Versterkt zekerheid van citatie.
4. Update dateModified. Bij elke kleine refresh: dateModified aanpassen. Verhoogt kans op selectie bij tijdgevoelige vragen.

De robots.txt-vraag

Veel MKB twijfelt: moet ik GPTBot toestaan of niet? Onze afweging:

Toestaan als: je leeft van inkomende klanten, je content educatief van aard is, je geen unieke IP hebt te beschermen.
Blokkeren als: je primair op betaalde producten (cursussen, premium content) leeft die wij niet "gratis" geciteerd willen zien, of als je in juridisch contract met klanten content-bescherming hebt afgesproken.

Voor 95% van NL-MKB is toestaan het juiste antwoord. Voor DC kiezen we voor toestaan — onze content wordt geciteerd, het brengt traffic en klanten.

Hoe lang duurt indexering?

Concrete observaties van onze klant-sites:

Nieuwe pagina: 7-21 dagen voor eerste crawl, 3-8 weken voor eerste citatie.
Update bestaande pagina: 3-14 dagen voor herindexering.
Hoge-volume sites: sneller (dagelijkse re-crawl).
Kleine MKB-site: langzamer (maandelijkse re-crawl).

ChatGPT-citaties opbouwen is een zaak van 60-90 dagen. Niet morgen klaar, maar binnen een kwartaal meetbaar.

Hoe controleer je of je verschijnt?

Open ChatGPT met web-zoeken aan
Stel een gerichte vraag uit jouw branche met jouw locatie (bijv. "webdesigner in Mijdrecht" of "loodgieter Wilnis")
Check de citation-links onderaan het antwoord
Doe dit voor 5-10 verschillende zoekopdrachten — patroon is informatiever dan één test
Herhaal maandelijks, log resultaten in spreadsheet

Diepere artikelen: Perplexity vergeleken, machine-readable content, AI-discoverability gids. Wij bij DesignCheck Mijdrecht hebben dit standaard in elke build.

Niet zeker of je site nu verschijnt? Gratis audit — wij testen voor je. Of bekijk concrete prijzen voor AI-ready rebuilds.

FAQ

Wat is het verschil tussen Google AI Overview en ChatGPT?

Google AI Overview = AI-samenvatting bovenaan Google search results. Gebruikt Google's index. ChatGPT met web-zoeken = aparte tool, gebruikt Bing's index. Verschillende citatie-patronen, maar overlap in welke pagina's geciteerd worden. Optimaliseer voor beide.

Heeft ChatGPT een eigen ranking-algoritme?

OpenAI heeft een aparte selectie-laag bovenop Bing-resultaten. Welke 5-10 resultaten Bing geeft beslist Bing; wat ChatGPT vervolgens citeert beslist GPT-5's eigen relevance-scoring (waar structured data, antwoord-structuur en autoriteit meewegen).

Heeft een paywall invloed?

Ja, negatief. Pagina's achter paywall worden niet volledig gelezen door OAI-SearchBot. Voor educatieve content: zorg dat de eerste 800-1.500 woorden vrij zichtbaar zijn vóór paywall.

Geeft ChatGPT mijn site weer als ik schrijf "site:mijnbedrijf.nl"?

Ja, mits je site bestaat in Bing's index. Test dit zelf — geeft snel inzicht of indexering werkt.

Hoe ChatGPT's browsing-module beslist welke site het opent

Wanneer een gebruiker een vraag stelt waarvoor actuele info nodig is, activeert ChatGPT zijn browsing-module. Die module stuurt een query naar Bing, krijgt een lijst URL's terug, en kiest er een paar om daadwerkelijk te bezoeken. Welke worden gekozen? Doorgaans de top drie tot vijf resultaten met de hoogste relevantie-score, gefilterd op crawlbaarheid en pagina-snelheid. Een site die langzaam laadt of veel JavaScript nodig heeft om content te tonen, valt af.

Eenmaal op de pagina extraheert de module de hoofdtekst, kapt af op een paar duizend tokens, en synthetiseert daar het antwoord uit. Dat betekent: de relevante info moet hoog op de pagina staan. Een pagina waar het antwoord pas in de zevende paragraaf verschijnt, raakt waarschijnlijk niet meer geciteerd — de module heeft tegen die tijd al zijn token-budget verbruikt aan navigatie, sidebars en boilerplate.

Het verschil tussen training en realtime browsing

ChatGPT heeft twee manieren om informatie te gebruiken. Eén: training. GPT-modellen zijn getraind op een snapshot van het web tot een bepaalde cutoff. Wat in die periode op je site stond, kan opgenomen zijn in de model-gewichten. Hier kun je niet op sturen, behalve door consistent kwalitatieve content te publiceren over meerdere jaren. Twee: realtime browsing. Bij vragen die actuele info nodig hebben, opent ChatGPT live je site. Hier kun je wel direct op sturen via Schema.org, HTML-structuur en crawlbaarheid.

De praktische conclusie: optimaliseer voor browsing. Training is een lange-termijn-bijproduct dat je niet snel beïnvloedt. Browsing-citaties kun je binnen weken zien verbeteren met de juiste aanpassingen. Voor MKB met een nieuwe site of recente rebranding is browsing-optimalisatie de enige zinvolle route — training-data is sowieso verouderd.

15 punten waar je site op getest moet worden

HTML is statisch leesbaar — geen JavaScript-only content.
Hoofdtekst staat binnen de eerste 1000 woorden van de body.
H1 is helder en uniek per pagina.
H2/H3 zijn semantisch — geen styling-misbruik.
Page weight onder 1MB per pagina voor snelle crawl.
LCP onder 2,5 seconden op mobiel.
Robots.txt staat OAI-SearchBot en GPTBot expliciet toe.
Sitemap.xml is actueel en wordt geserveerd op de standaardlocatie.
Schema.org LocalBusiness, Service, FAQPage en Article waar relevant.
Canonical-tags zijn correct ingesteld op elke pagina.
Open Graph- en Twitter Card-tags geven heldere previews.
Een llms.txt-bestand in de root met je belangrijkste paginas.
Geen pop-ups of overlays die de hoofdtekst verbergen voor crawlers.
Reviews met datum, naam en eventueel Schema.org Review-markup.
Footer met KvK-nummer, adres en consistente NAW-gegevens.

Wat kleine MKB-bedrijven vaak goed doen — en wat groot MKB faalt

Kleine bedrijven (1-5 medewerkers) hebben vaak een voordeel: hun site is overzichtelijk, de content is door de eigenaar zelf geschreven, en de informatie klopt. Dat zijn precies de signalen waarop ChatGPT goed scoort. Een hovenierssite van vier paginas met heldere uitleg en correcte Schema.org wordt vaker geciteerd dan een groot bouwbedrijf met honderden generieke paginas.

Wat groter MKB vaak fout doet: te veel paginas, weinig diepgang per pagina, en een CMS waarop iedereen iets heeft veranderd zonder consistentie. ChatGPT moet daar door een wolk van semi-relevante content prikken om iets bruikbaars te vinden. Vaak lukt dat niet, en kiest het model een kleinere concurrent als bron. Bij DesignCheck zien we bij MKB-rebranding dat het terugbrengen van paginas (van 80 naar 30) vaak meer effect heeft dan content toevoegen.

Veelgestelde vragen — uitgebreid

Hoe werkt de samenwerking tussen ChatGPT, Bing en OpenAI-eigen index?

ChatGPT browsing leunt sterk op Bing voor de initiële zoekstap. Daarna haalt OAI-SearchBot zelf paginas op om content te extraheren. OpenAI bouwt parallel een eigen index die naar verwachting later steeds belangrijker wordt. Voor nu: in Bing staan = in ChatGPT-citaties komen.

Helpt het om mijn site bij Bing Webmaster Tools aan te melden?

Ja, sterk aanbevolen. Bing Webmaster Tools is gratis, geeft inzicht in indexering en crawl-fouten, en versnelt het ophalen van nieuwe paginas. Voor sites die in ChatGPT willen verschijnen is dit een van de snelste wins die er is — beter dan welke ranking-truc dan ook.

Worden mijn paginas geciteerd in NL-vragen of alleen EN-vragen?

Beide. Voor NL-vragen citeert ChatGPT bij voorkeur NL-bronnen, mits ze beschikbaar zijn. Een Nederlandse MKB-site met goede structuur wint van een Engelse generieke bron bij NL-vragen. Voor zoekopdrachten zonder NL-equivalent valt het model terug op internationale bronnen.

Verandert dit als OpenAI eigen indexering bouwt?

De fundamenten blijven: crawlbare HTML, snelle laadtijd, Schema.org-markup, autoriteit-signalen. De gewichten kunnen verschuiven — eigen OAI-index zal minder leunen op Bing-ranking — maar sites die nu goed scoren zullen ook in de toekomst gevonden worden.

Wat doe je vandaag?

Test je hoofdpagina door 'm in incognito te openen met JavaScript uit — staat de hoofdtekst er nog?
Meld je site aan bij Bing Webmaster Tools en upload je sitemap.
Controleer of robots.txt OAI-SearchBot en GPTBot expliciet toestaat.
Stel vijf realistische vragen in ChatGPT (met browsing aan) waarop jouw site zou moeten verschijnen.
Voeg Schema.org LocalBusiness en FAQPage toe als die er nog niet zijn.
Vraag de gratis audit aan via designcheck.nl/contact voor een ChatGPT-browsing-test van je site.

Door Priya Patel — DesignCheck. Laatst bijgewerkt 16 mei 2026.

Robots-bestanden — robots.txt versus ai.txt versus llms.txt

Een verwarrend punt voor veel MKB-eigenaren: er bestaan drie kandidaat-standaarden voor AI-crawler-instructies en niet allemaal doen hetzelfde. Robots.txt regelt crawl-toegang per bot (Disallow/Allow per user-agent) en wordt door alle grote AI-bedrijven gerespecteerd — GPTBot, ClaudeBot, PerplexityBot en Google-Extended honoreren je regels. Ai.txt is een voorstel uit 2023 dat amper aanslaat: drie crawlers ondersteunen het, geen van de grote, en het is feitelijk vervangen door robots.txt-uitbreidingen. Llms.txt is geen toegangscontrole maar een navigatie-routekaart: het zegt niet "crawl dit niet", het zegt "als je dit crawlt, dit zijn de belangrijke pagina's". De praktische conclusie voor MKB: maak alleen robots.txt en llms.txt. Vergeet ai.txt. Bij DesignCheck-builds vanaf €1.995 vast leveren we standaard beide bestanden mee, met user-agent regels voor de zes grote AI-crawlers en een schone llms.txt gegenereerd uit je sitemap.

Time to First Byte — de onderschatte ranking-factor voor AI

Een onderbelichte factor in ChatGPT-zoek is response-snelheid van je server. Bij retrieval-queries krijgt elke kandidaat-bron een tijdsbudget van ongeveer 800 milliseconden om te antwoorden, anders wordt hij overgeslagen ten gunste van een snellere concurrent. Pagina's met een Time to First Byte boven 600ms vallen daardoor regelmatig uit het citatie-pool. Dit verklaart waarom WordPress-sites op gedeelde hosting consistent slechter scoren in AI-zoek dan statische sites op Vercel of Cloudflare — niet vanwege content-kwaliteit, maar puur door de extra 300 tot 700 milliseconden TTFB. Een Mijdrechtse MKB-site verloor zo systematisch citations aan een directe concurrent met identieke content, gehost op Netlify met een TTFB van 89ms versus de eigen 740ms. Na migratie naar een edge-host verdubbelde de citation-frequentie binnen drie weken. Bij DesignCheck-builds vanaf €1.995 vast gebruiken we standaard edge-hosting met TTFB onder 200ms — een infrastructurele keuze die je AI-zichtbaarheid meetbaar beïnvloedt zonder dat je er content voor hoeft te veranderen.

Schema-fingerprints — waarom JSON-LD je AI-zichtbaarheid stuurt

ChatGPT-search heeft een voorkeur die weinig MKB-eigenaren kennen: pagina's met goed gestructureerde JSON-LD schema-markup worden eerder gekozen als bron dan pagina's zonder. Dat komt omdat het model uit de schema-velden een fingerprint kan trekken — een geconsolideerde samenvatting van naam, adres, openingstijden, prijsklasse, dienstgebied — zonder de hele HTML te hoeven parsen. Voor een MKB-installateur betekent dit dat een complete `LocalBusiness`-schema met `address`, `openingHoursSpecification`, `priceRange`, `areaServed` en `aggregateRating` de kans op citation in vragen als "warmtepomp specialist regio Utrecht zaterdag bereikbaar" met meer dan 60% verhoogt. We meten dit door identieke content met en zonder schema-markup naast elkaar te plaatsen op dezelfde domein.

De fout die we het meest zien: incomplete schema. Een `LocalBusiness` zonder `address` of zonder `telephone` wordt door GPTBot wel gelezen, maar niet betrouwbaar geciteerd omdat de fingerprint te dun is. Voeg ook `Service`-schema toe voor elke kerndienst, met expliciete `serviceType`, `provider` en `areaServed`. Voor blog-content: `Article`-schema met `author`, `datePublished`, `dateModified` en `mainEntityOfPage`. Bij DesignCheck-builds vanaf €1.995 vast leveren we per pagina drie tot vijf schema-blokken, gevalideerd via Google's Rich Results Test én Schema.org's eigen validator. Dat is een eenmalige investering die je AI-zichtbaarheid voor jaren stuurt.

Hoe GPTBot jouw site écht crawlt — en wat dat verschilt van Googlebot

GPTBot, de crawler van OpenAI, gedraagt zich anders dan Googlebot op drie punten die direct effect hebben op jouw vindbaarheid in ChatGPT-search. Eerste verschil: GPTBot crawlt minder vaak — gemiddeld één keer per 7 tot 14 dagen, tegen Googlebot's 1 tot 3 dagen voor actieve MKB-sites. Tweede: GPTBot rendert geen JavaScript. Een React-only SPA zonder server-side rendering is voor GPTBot een witte pagina, terwijl Googlebot er sinds 2019 wel mee overweg kan. Derde: GPTBot volgt `User-agent: GPTBot` in je robots.txt strikt — een wildcard `User-agent: *` met `Disallow: /` blokkeert hem niet automatisch, maar een specifieke regel wel.

De praktische consequentie: als je gevonden wilt worden via ChatGPT-search of de browse-functie, moet je HTML server-rendered zijn. Headless CMS met statische generatie (Astro, 11ty, Next.js met `output: 'export'`) werkt perfect. Pure client-side React zonder SSR is een dealbreaker. Daarnaast loont het om in je robots.txt expliciet `User-agent: GPTBot` met `Allow: /` te zetten — niet omdat het verplicht is, maar omdat het GPTBot signaleert dat je crawls verwelkomt en daarmee de crawl-frequentie omhoog kan brengen. Keurmeesters zag binnen 6 weken na deze ingreep een verdriedubbeling van ChatGPT-doorverwijzingen in hun referrer-logs. Voor MKB-sites vanaf €1.995 vast bouwen we deze configuratie standaard mee.

Moet ik llms.txt of robots.txt aanpassen voor ChatGPT?

Beide. Robots.txt regelt crawl-toegang (GPTBot, ClaudeBot, PerplexityBot), llms.txt geeft AI-modellen een gestructureerde inhoudsopgave van wat belangrijk is. Robots is verplichte hygiene, llms.txt is een vrijwillige uitbreiding die nog niet door alle AI-zoekers wordt gelezen — maar Perplexity en Claude doen het wel.

Hoe zie ik of GPTBot mijn site bezocht heeft?

Check je serverlogs op user-agent strings die `GPTBot/1.x` of `ChatGPT-User` bevatten. In Cloudflare-dashboards zie je dit onder Bots > Crawlers. Geen logs? Een eenvoudige Vercel- of Netlify-functie die requests met die headers naar een Slack-webhook stuurt geeft je realtime zicht zonder extra tooling.

Hoe ChatGPT je MKB-site vindt — of niet.