Robots d'IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended)
Les agents web que les entreprises d'IA utilisent pour lire, entraîner et citer le web.
Les robots d'IA sont les agents web que les entreprises d'IA utilisent pour lire le contenu web, chacun contrôlable indépendamment dans robots.txt. Une distinction cruciale oppose les robots d'entraînement aux robots de recherche/citation — ils ont des finalités et des jetons distincts. OpenAI exploite GPTBot (données d'entraînement des modèles), OAI-SearchBot (alimente les résultats et citations de ChatGPT search) et ChatGPT-User (récupérations de page initiées par l'utilisateur). Anthropic exploite ClaudeBot (entraînement), Claude-SearchBot (indexation pour la recherche de Claude) et Claude-User (récupération déclenchée par l'utilisateur).
Perplexity exploite PerplexityBot, dont elle précise qu'il remonte et lie des sites dans les résultats et n'est « pas utilisé pour entraîner des modèles de fondation », ainsi que Perplexity-User. Google-Extended (introduit le 28 septembre 2023) n'est pas un robot distinct mais un jeton robots.txt qui contrôle si le contenu entraîne et alimente Gemini ; Google précise qu'il « n'a pas d'impact sur l'inclusion d'un site dans Google Search et n'est pas un signal de classement ». À retenir : pour être cité, vous devez autoriser les robots de recherche/citation pertinents (OAI-SearchBot, PerplexityBot, Claude-SearchBot/Claude-User) — bloquer seulement les robots d'entraînement ne vous rend pas citable, et bloquer les robots de recherche vous rend invisible.
Sources
- Overview of OpenAI Crawlers (GPTBot, OAI-SearchBot, ChatGPT-User) — OpenAI
- Does Anthropic crawl the web, and how to block the crawler — Anthropic (Claude Help Center)
- Perplexity Crawlers (PerplexityBot, Perplexity-User) — Perplexity
- Google-Extended — Google's common crawlers — Google Search Central