• Ir a navegación principal
  • Ir al contenido principal
Negocio digital Yago González

Yago González

Consultor de Negocio Digital

  • Quién soy
  • Formación
    • Docencia y Empresas
    • Curso Ecommerce
  • Consultoría
    • Ecommerce
    • Analítica Digital
    • SEO
  • Contacto
  • Artículos

Eliminar tráfico de bots de Selenium y Puppeteer en Google Analytics

26 abril, 2021 by Yago González Dejar un comentario

Vamos hoy con un nuevo caso real que nos ha ocurrido estas últimas semanas. En este caso, como el título indica, se trata del tráfico que uno o varios bots nos estaban metiendo en nuestra cuenta de Google Analytics y que éste no era capaz de filtrar por sí solo.

Hay que aclarar que en este caso se trata de tráfico real que accedía al site, no de los habituales referral spam que utilizan el protocolo de medición para manipular las métricas de nuestra herramienta de medición.

Es posible que os preguntéis que, si es tráfico real, por qué vamos a quererlo eliminar de nuestra herramienta. La respuesta es sencilla y contundente: puede llevarnos a tomar decisiones de negocio equivocadas causadas por datos erróneos/corruptos.

Entremos pues en el caso.

Índice de contenidos

  • 1 El problema
  • 2 Análisis de tráfico más detallado
    • 2.1 Canal
    • 2.2 Página de destino
    • 2.3 Países
    • 2.4 Resolución de pantalla
      • 2.4.1 Selenium y Puppeteer
  • 3 Como corregirlo y eliminarlo de Google Analytics
    • 3.1 Bloqueándolo del servidor
    • 3.2 Eliminar datos de tráfico en Google Analytics
  • 4 Conclusiones
  • 5 Por cierto, si no tienes un negocio y quieres tenerlo, una muy buena opción es montar uno de ecommerce…

El problema

Ya desde hace algunas semanas, en concreto desde principios de año, habíamos detectado en tanto en nuestro reporting diario como en el mensual que algo extraño estaba ocurriendo y que el número de usuarios con respecto al de sesiones había crecido considerable:

Tráfico de bots en Analytics
Con esta imagen ya podéis intuir que hay alguna cosa extraña

Como se puede ver, habíamos crecido un 104% en sesiones y un 114% en usuarios Year on Year. En principio, estas cifras pueden entrar dentro de lo razonable y en una primera impresión las achacamos a los cambios en el bloqueo de cookies de terceros por Chrome y Safari y al mayor uso de Adblockers por parte de los usuarios (eran los dos principales navegadores responsables de este crecimiento anómalo entre usuarios y sesiones) y, simplemente, pensamos que éstas eran las nuevas reglas del juego.

Tráfico de bot por navegadores
Chrome y Safari habían hecho cambios en su bloqueo a las cookies de terceros y eran los navegadores mayoritarios

Análisis de tráfico más detallado

Pero pasaron los días y ya había cosas que empezaban a descuadrar más en nuestro reporting diario por países. Holanda se estaba convirtiendo, por número de usuarios, en uno de los principales países, pero el ratio de entrada de sus usuarios en el checkout y sus transacciones era muy inferior a lo que debieran por volumen de tráfico:

Checkout usuarios de Holanda
Algo pasa con Holanda

¿Qué es lo que está ocurriendo? Valoremos algunas hipótesis de negocio:

  • ¿Son nuestros gastos de envío muy caros para envío a Holanda? Quizá es posible hablar con la agencia de transporte y bajar los precios a cambio de asegurar un mayor volumen.
  • ¿Navegan los usuarios holandeses en inglés pero prefieren comprar en páginas de su propio idioma? Pues lo mismo no estaría mal valorar la traducción de la web al holandés…
  • ¿No se fían de Europa del sur? Aquí poco podemos hacer XD

Todas podría ser válidas, pero hagamos foco en el tráfico procedente de Holanda:

Sesiones y usuarios de Holanda
Esto ya empieza a ser más raro y a oler a chamusquina

¿Qué está pasando? ¿Cómo puede diferir tanto el crecimiento entre usuarios y sesiones? ¿Son los usuarios holandeses muchísimo más propensos a los adblockers que el resto de Europa? No tiene pinta, ¿verdad? Nuestra primera hipótesis se tambaleaba…

Prosigamos entonces con el análisis del país, a ver qué nos encontramos tirando de la manta.

Canal

Nos creamos un segmento para ver exclusivamente las métricas de los usuarios holandeses y vamos a los informes principales, empezando por la fuente y el medio:

El canal directo sube demasiado
Vaya tela con el crecimiento del tráfico directo

Obivamente, lo que está ocurriendo con el tráfico directo no es normal. No sabemos qué es exactamente pero no apunta a un comportamiento de usuario normal.

Página de destino

Comprobemos a qué páginas de destino acceden los «usuarios» holandeses:

Landing pages de usuarios holandeses
Hmmm, ¡qué curioso!

Así que Analytics no es capaz de recoger la landing page en la mayoría de casos… Esto ya nos hace pensar que estamos ante un bot con un nivel de sofisticación más elevado que los habituales. Pero sigamos viendo más cosas

Países

Esto que hemos visto en Holanda, ¿es posible que esté pasando en más países? Toca comprobarlo:

Tráfico de bot Selenimu o Pupeteer por países
Pues sí, no es solo en Holanda

Vaya, vaya con el bot. Así que no es solo desde Holanda, sino que está entrando en nuestra web desde múltiples ubicaciones y fastidiándonos las métricas de todos. ¡Qué mal! ¿Tendrá algún tipo de característica común este bot multipaís?

Resolución de pantalla

¿Será un bot mobile o desktop? Venga, que seguro que aquí encontramos algo…

Trafico bot por resoluciones
¡Sí! We got you

Y sí, por fin encontramos lo que buscábamos. En el puesto 11 nos encontramos con una resolución bastante extraña de 1360×1020. Está claro que es una resolución de desktop, pero es una que no es habitual para nada: no conozco ningún monitor del mercado, ni de escritorio ni de portátil con esa resolución. Habrá que bichear a ver de dónde sale.

Selenium y Puppeteer

Con un dato como esa resolución tan particular en la mano, es cuestión de bucear un poco para averiguar que hay dos tecnologías de bots, Selenium y Puppeteer, que la utilizan por defecto.

Se trata bot que se sirven de de máquinas virtuales para abrir un navegador Chromium y entran en la URL que se les indique, con el objetivo de debuggear aplicaciones web, scrappear su contenido o, realmente, el que quiera el desarrollador del bot.

Buceando por el código en GitHub de Selenium código vemos esto:

Resolución por defecto de Selenium
Opciones por defecto de Selenium

Ahí está la resolución de las narices que nos está estropeando nuestras métricas en Google Analytics, porque, repetimos, esto es tráfico real, de bots y no de personas, pero son navegadores accediendo al site con a saber qué objetivo. No se trata de referral Spam utilizando el protocolo de medición.

Además, se está saltando el filtrado automático de Google Analytics, ya que como veis, lo tenemos activado en la configuración de la vista:

Activacion de filtrado de bots automático de Analytics
Google no lo reconoce

Y entonces, ¿qué podemos hacer para eliminarlo y tener más limpios los informes?

Como corregirlo y eliminarlo de Google Analytics

Lo primero es comentar que quizá haya algún motivo por el que te interese tener ese tráfico ahí hinchando las métricas artificialmente. Es una opción. Sin embargo, si lo que quieres es que Analytics te muestre el uso que hacen los usuarios humanos de tus productos digitales es probable que lo quieras eliminar de tus datos.

Para ello se nos plantean a grandes rasgos dos posibilidades:

  • Bloquearlo desde el servidor
  • Eliminarlo de Google Analytics

Bloqueándolo del servidor

Siento decirte que no es una opción para nada sencilla, veamos por qué:

  • Es un bot multi-IP y multi-país: no es fácil de elaboran un patrón de filtrado
  • El User Agent es indistinguible del de un Chrome/Chromium empleado por un usuario
  • La resolución de pantalla, que es el dato clave, se basa en JavaScript para su detección, por lo que no es un lengujae del lado del servidor sino del cliente

Entonces, ¿es factible bloquearlo desde el servidor? Factible es, pero complicado y difícilmente recomendable también.

Ok, ¿y qué opciones tenemos para que no nos perjudique las métricas? Sigue leyendo

Eliminar datos de tráfico en Google Analytics

En este caso, nos encontramos con una solución muy sencilla, que es utilizar un filtro en Google Analytics y aplicarlo a la(s) vista(s) que nos interese.

El filtro sería así:

Filtro en Analytics por la resolución de Puppeteer y selenium
Un filtro muy, muy sencillo

Como observáis, un filtro muy sencillo y que cumple perfectamente con su cometido:

Efecto del filtro de bot en Google Analytcis
Podemos ver el antes, el durante y el después

En esta imagen se pueden apreciar tres fases:

  • Antes de enero de 2021, no teníamos tráfico del bot
  • Entre enero y el 20 de abril de 2021 con tráfico creciente del bot
  • 21 de abril en adelante, sin tráfico del bot debido a la aplicación del filtro en Analytics

Damos por corregido el problema.

Conclusiones

Lo que quiero dejar claro con este artículo es la importancia de tomar decisiones de negocio en base a datos reales y pulidos.

En este caso, nos llegamos a plantear cosas como bajar los gastos de envío a Holanda o traducir la web al holandés basándonos en datos erróneos. Imaginaos la pérdida de recursos y/o dinero implicados si hubiéramos llevado a cabo alguna de estas dos acciones. Es decir, de datos erróneos, las conclusiones que obtengo son, a la fuerza, erróneas.

Por otro lado, os animo a bucear en vuestras cuentas de Analytics y que descubráis si a vosotros también os está llegando tráfico con esta resolución tan peculiar de 1360×1200. Si es así, ¿cambia en algo vuestra percepción de las métricas una vez eliminado?

Bienvenidos todos los comentarios al respecto.

Por cierto, si no tienes un negocio y quieres tenerlo, una muy buena opción es montar uno de ecommerce…

Si opinas igual y quieres saber cómo crearlo paso a paso y desde cero, esto te interesa

Formación ecommerce

Archivado en:Analítica

Acerca de Yago González

Apasionado de la Optimización y la Analítica Digital. Trabajo siempre enfocado a objetivos, en busca de proyectos que me aporten y con los que disfrutar y crecer juntos.

Analítica, Usabilidad, Marketing Online, SEO, Machine Learning, Growth Hacking pero sobre todo eCommerce, son palabras que me motivan en mi día a día.

Compagino mi actividad profesional con la docente, ya que me encanta compartir con otros nuestras experiencias digitales.

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Copyright © 2023 · Yago González | Política de Cookies · Política de Privacidad · Aviso Legal · Condiciones de Contratación

Utilizamos cookies para personalizar el contenido y los anuncios y para analizar el tráfico. Compartimos información sobre la navegación de los usuarios en el sitio web con nuestros partners de publicidad y de análisis web. Más info Configuración No acepto Acepto
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Siempre activado
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
GUARDAR Y ACEPTAR