Nota: este artículo describe cómo monitorizar los bots con Universal Analytics (AKA GA3) gracias al protocolo de medición. En un futuro escribiré otro artículo por si deseas implementarlo con la nueva versión de Analytics GA4.
Seguro que has oído hablar multitud de veces de GoogleBot, el crawler de Google que rastrea las webs para ver qué recursos (páginas e imágenes principalmente) tiene cada web y después indexarlas en Google.
Seguro que también has oído hablar del Crawl Budget, es decir, el tiempo que dedican un bot a rastrear tu web, hay muchos artículos publicados sobre eso.
Pero, ¿Te has planteado alguna vez saber cómo actúa el bot de Google (y de otros buscadores) en tu web? ¿Qué paginas rastrea?, ¿Qué resultados obtiene? Toda esta información podría resultar muy interesante para poder optimizar los resultados de rastreo y agilizar la indexación de tu web.
Hace poco, mientras publicaba una serie de post acerca de los conceptos básicos de Google Analytics observe que las páginas se indexaban en cerocoma, mientras que por twitter me comentaban otras personas que a ellos les costaba más tiempo conseguir esa indexación. Eso me hizo pensar que sería bueno saber cuando y donde pasan los bots de indexación por una Web.
Voyons voir, il existe un moyen de contrôler cela, et c'est grâce aux journaux du serveur, c'est-à-dire grâce aux rapports AWStats. Le problème ? Il faut les prétraiter et mettre à jour les données, ce qui rend la tâche un peu fastidieuse.
Googleando me encontre con este artículo de Lino Urruñuela «Monitorizar GoogleBot con Google Analytics» en que desarrollaba una solución para trackear este tipo de tráfico. Por otro lado encontré este artículo «Monitorizar los Bots de Google desde tu WordPress con Analytics» de Santiago Alonso en el que había adaptado el código que mostraba Lino en un plugin para WordPress y, con pequeñas modificaciones, lo aplique a mi Web para poder rastrear al actividade los los distintos crawlers.
Table des matières
Comment le suivi fonctionne
La idea es simple, los bots o crawlers hacen lo mismo que cualquier otro usuario: Visitan una web y va saltando de enlace en enlace para recoger información y posteriormente indexarla… bueno eso en teoría, porque en una primera visita lo que hacen es pasar por la web, apuntar las urls en una lista y pasarse en otro momento para ya leer la información y proceder a indexarla. Lo que es claro es que se produce una visita y que tenemos una herramienta muy difundida para poder medir eso: Google Analytics.
Nous avons donc la tâche facile, nous pouvons utiliser Analytics, un outil que nous connaissons, pour suivre le trafic de ces bots.
Para ello, la propuesta es usar uno de los métodos que nos ofrece Analytics desde la versión 3 (Universal Analytics), el mismo método que usan los bots de spam para enviar hits a Analytics y del que ya hablé en el tutorial «Cómo excluir las sesiones de Bots en Google Analytics» que nos permite crear un hit y enviarlo a una propiedad de Google Analytics: El protocolo de medición.
Premières étapes
Afin de disposer de ces informations de manière propre, l'idéal est de créer une nouvelle propriété dans Google Analytics (une nouvelle UA) qui est celle que nous utiliserons pour collecter et traiter les données des visites des bots et uniquement ces données.
1. créer et configurer une propriété Google Analytics
Pour créer une nouvelle propriété, rendez-vous sur votre compte Google Analytics et cliquez sur l'option de gestion, la dernière qui apparaît dans la barre verticale à gauche. Vous accéderez ainsi à l'administration de votre compte Analytics.
Une fois dans l'écran d'administration, vous verrez deux ou trois colonnes, selon que vous disposez de Universal Analytics Properties ou de la nouvelle version GA4. Voici un aparté, pour l'instant l'implémentation fonctionne UNIQUEMENT dans Universal Analytics, plus tard j'écrirai un autre post où nous verrons comment l'implémenter dans la nouvelle version.
Clarifié cela, la prochaine étape est de créer notre nouvelle propriété, pour ce faire, cliquez sur le bouton bleu en haut de la deuxième colonne "+ Créer une propriété", un nouvel écran s'ouvrira dans lequel nous allons configurer les données de la nouvelle propriété : Nom de la propriété, le fuseau horaire de déclaration (pays et zone GMT) et la monnaie (ce dernier n'est pas important parce que nous n'allons pas monétiser mais il est toujours bon de faire les choses correctement ...).
Une fois cela fait, nous arrivons à une étape importante, comme je l'ai dit dans un paragraphe précédent, cette implémentation ne fonctionne qu'avec Universal Analytics, pour cela nous devons cliquer sur le texte " Afficher les options avancées ", activer l'option " Créer une propriété Universal Analytics ", mettre l'url de notre site web et sélectionner l'option " Créer uniquement une propriété Universal Analytics ".
À ce stade, nous pouvons cliquer sur le bouton "Suivant" qui nous conduira à une série d'options permettant de donner à Google des informations sur notre entreprise qui, dans notre cas, ne sont pas nécessaires. Après cela, nous pouvons cliquer sur le bouton de création et nous aurons la propriété que nous allons utiliser pour surveiller les bots.
Nous aurons un dernier détail. En créant cette propriété, nous aurons également créé une vue. Pour que tout cela fonctionne, nous devons aller dans la configuration de la vue et décocher l'option "Exclure tous les hits des robots et spiders connus" car sinon Analytics ne collectera pas les données que nous allons transmettre.
2. Créer des dimensions personnalisées

Como vamos a usar el plugin de Santiago Alonso únicamente vamos a crear dos dimensiones personalizadas para recoger en Google Analytics dos tipos de datos: User Agent del Bot y Código http. Gracias a estas dimensiones personalizadas podremos ver en nuestros informes que versión del bot es la que ha visitado nuestra página y cual ha sido el resultado de esta visita, es decir, si la página es correcta (Código 200) o no existe (Código 404).
Aquí es importante un detalle a la hora de crear estas dimensiones personalizadas. Debes respetar el siguiente orden a al hora de crearlas. Primero crea la dimensión User Agent del Bot y después la dimensión Código http. La razón es que, tal y como está configurado el plugin, el identificador del user Agent ha de ser 1 y el identificador del código http ha de ser 2.
Et un dernier détail, la portée des deux dimensions doit être celle du succès.

3. Installation et configuration du plugin SEOBot Monitor
Llega el momento de instalar el plugin SEOBot monitor (en el enlace puedes ir a descargarlo desde el repositorio de WordPress). Un vez instalado, al configuración es muy sencilla ya que solo tiene cuatro parámetros a configurar:
- Google Analytics UA tracking Code. Aquí deberás escribir el ID de seguimiento de la propiedad de Universal Analytics que has creado antes.
- Page Title Origin. Puedes elegir entre el título por defecto que pusiste en tus páginas de WordPress o el título SEO si tienes instalado el plugin Yoast SEO. Personalmente te recomiendo la primera opción, ya que en alguna Web que he probado la segunda no funcionaba correctamente.
- Default 404 page title. Aquí puedes definir qué título, por defecto, deseas que se recoja cuando el bot haga una petición a una página que no existe.
- RegEx for bot user agent. Gracias a este parámetro, podrás definir los tokens (identificadores) de los bots que deseas rastrear. para ello, debes incluir una expresión regular similar a la que te muestro a continuación:
/googlebot|AdsBot-Google|Googlebot-Image|AdsBot-Google-Mobile|bingbot/i
La syntaxe est la suivante :
- Commence par "/", sans les guillemets.
- Ajoutez les jetons des bots que vous voulez suivre, séparés par le caractère "|" (c'est la barre oblique de la touche numéro 1).
- Se termine par "/i", sans les guillemets.

Quant aux définitions des jetons de bot. Voici les principales :
- GoogleBot => Token del robot de búsqueda de Google (desktop y mobile).
- AdsBot-Google => Token del robot de búsqueda de Google Ads (desktop).
- AdsBot-Google-mobile =>Token del robot de búsqueda de Google Ads (Móvil)
- .Bingbot => Token del robot de búsqueda de bing (desktop y mobile).
- Slurp => Token del robot de búsqueda de yahoo.
- DuckDuckbot => Token del robot de búsqueda de DuckDuckGo.
- BaiduSpider => Token del robot de búsqueda de Baidu.
- YandexBot => Token del robot de búsqueda de Yandex.
- facebot => Token del robot de búsqueda de Facebook.
- ia_archiver => Token del robot de búsqueda de Alexa.
- Twitterbot => Token del robot de búsqueda de Twitter.
- LinkedInbot => Token del robot de búsqueda de LinkedIn.
Et une fois que tout cela est configuré, vous pourrez surveiller les visites des bots que vous avez définis.
Ne partez pas encore.
Hemos visto cómo monitorizar de una forma muy sencilla el comportamiento de los bots en nuestra web gracias a Google Analytics y al plugin SEOBot monitor.
Je vous invite à laisser vos impressions et/ou vos doutes dans le formulaire de contact et à me suggérer de nouveaux sujets que vous souhaiteriez voir abordés dans ces tutoriels. Je serai heureux de vous répondre par courriel et d'écrire dans ce blog.