Publicado por & archivado en Estadísticas.

Con la derogación del Safe Harbor a principios de octubre de 2015, se ha puesto en cuestión el uso de algunos servicios que están alojados fuera de la UE, entre ellos se encuentra Google Analytics.

Lo primero que se pregunta uno es ¿Por qué un software de análisis de estadísticas se ve influenciado por las leyes de protección de datos?

La respuesta es fácil, al menos en el caso de España, La Agencia Española de Protección de Datos (AGPD), que es el organismo que vela por el cumplimiento de la Ley Orgánica de Protección de Datos (LOPD), considera las direcciones IP como información personal, por tanto, al enviar estos datos a los servidores de Google, se incumple la ley.

Actualización:
Safe Harbor fue sustituído por el acuerdo “Privacy Shield” en julio de 2016.

Analytics se ha hecho realmente popular por ser gratuito (hasta 10 millones de visitas por mes, luego se debe contratar la versión “Premium” que cuesta $150.000 al año), y sobre todo extremadamente fácil de instalar y usar, ofreciendo un análisis de datos que es realmente completo.

Se tiende a pensar que Analytics es imprescindible porque todo el mundo lo instala como si fuera algo que hay que hacer, pero en realidad no es así, hay alternativas que nos darían una información igual de valiosa, como Piwik (se puede ver una demostración aquí).

Además, en realidad los datos que genera Analytics no son tan fiables como la mayoría piensaanalytics, por varios motivos.

Para entenderlo, primero tenemos que ponernos en antecedentes.

Google montó Analytics a partir del software de estadísticas Urchin, que compró en 2005 (y descontinuó en 2012).

Una de las novedades que aportó Urchin en su día fue el “Urchin Tracking Module” (UTM), renombrado por Google como “Urchin Traffic Monitor”. Si nos fijamos, las cookies de Analytics aun empiezan todas por utm_ por el nombre de este módulo.

UTM era un sistema de seguimiento de usuarios mediante cookies y Javascript que “complementaba” las estadísticas obtenidas de los registros generados por el servidor, ofreciendo mejores datos sobre visitas de los usuarios.

El problema es que Analytics se ha montado, sólo, sobre esta característica, prescindiendo de los datos registrados por el propio servidor web. Este es a la vez el factor que ha hecho que sea tan popular, porque es muy fácil instalarlo, y también es lo que causa que le falten datos o que de información distorsionada.

Todos los datos que obtiene Google para las estadísticas, provienen de información recopilada por el navegador del usuario que visita nuestra web, sin obtener ningún dato de nuestro servidor.

Este sistema de análisis utiliza los llamados “page tags”, que son elementos de la página que se capturan en el navegador y se envían al servidor.

Se puede ver como es el proceso en el gráfico de la derecha.

Como se puede ver en el punto 1, nada más pedir la página nuestro servidor obtiene información del usuario, la IP, país, sistema operativo, navegador y otra información, esa información queda registrada en el servidor, en el mismo momento que se sirve la página, incluso si existen errores, hay cargas parciales o el que conecta no tiene javascript activado.

En el punto 2 el navegador recibe nuestra página, que incluye el script de Analytics, este pequeño programa escrito en Javascript se carga y ejecuta en el navegador del ordenador, recopila la información que puede, que queda limitada en ciertos sentidos por las opciones de seguridad del navegador, y luego, en el punto 3, conecta con los servidores de Google para enviar esa información, que es la que se usa para generar las estadísticas.

Es decir, Analytics genera la información en el ordenador del usuario que conecta a nuestra web, en vez de obtenerla del servidor web, víendose con ello ponderado por los miles de posibles usuarios distintos, distintas redes de datos, dispositivos, navegadores, sistemas operativos… podrían potencialmente dar informaciones distintas o no dar ninguna.

Este sistema tiene algunos problemas:

  • La información obtenida mediante un javascript es limitada y puede entrar en conflicto con otros scripts de la web, o podría fallar total o parcialmente dependiendo de opciones del usuario, como el tipo de navegador, plugins instalados o las opciones de seguridad. Por ejemplo, Analytics es bloqueado por muchos bloqueadores de publicidad como “Adblock” o “NoScript”, que usan millones de usuarios.
  • Para recopilar datos estadísticos el script de Google necesita cookies y muchos usuarios las desactivan o borran al cerrar el navegador, por lo que se pierde mucha información. Otro tipo de software de estadísticas que usa registros del servidor también pierden información si faltan las cookies, pero se ven afectados en menor medida.
  • El script necesita cierto tiempo para recopilar la información y enviarla , si no llega antes de que el usuario cambie de página, los datos no se registran, en esto influyen cosas como la velocidad del ordenador, de la conexión, la configuración de red de nuestro ISP o incluso, por donde esté el script puesto dentro de la página web.
  • La ruta por la que se envían los datos a Google es distinta de la que obtiene la página web, por lo que podría haber usuarios viendo nuestras páginas que no tuvieran buena conexión con los servidores de Google, con lo que fallaría el registro de los datos.
  • El servidor web obtiene información que no es posible obtener desde el navegador, por lo que siempre habrá menos información que analizar, por ejemplo, Analytics no tiene forma alguna de obtener datos de bots, ya que la mayoría no ejecutan javascript, inhabilitando Analytics por completo.

Todo esto se solucionaría leyendo los registros del servidor (logs), que es lo que hacía el antiguo Urchin que sirvió de base para Analytics, pero eso supondría una instalación que sólo puede ser hecha por un técnico de sistemas, por lo que se complica bastante su uso.

Como ya hemos constatado comparando los datos generados por Analytics con otros generados desde los registros del servidor, sabemos que Analytics tiende a dar datos de tráfico más bajos, y que le falta información como los bots o cargas parciales que no puede registrar.

Pero… ¿Es esto tan malo?

En realidad no lo creo, ya que los programas de análisis de estadísticas dan casi todos información incorrecta (e inflada), que realmente sólo sirve para hacernos una idea aproximada del tráfico.

La idea de usar javascript tiene una ventaja y es que elimina del análisis gran parte del tráfico “falso”, es decir, tráfico que no corresponde con usuarios reales.

Por otro lado, no podemos analizar otro tipo de tráfico, por ejemplo de bots que reducen el rendimiento de nuestra web sin aportar ningún retorno, como es el caso de Baidu, un bot chino muy agresivo que no respeta indicaciones de robots.txt.

Resumiendo, nuestra web no va a funcionar peor ni vamos a obtener datos estadísticos menos fiables si prescindimos de Analytics y usamos, por ejemplo, Piwik, o algún otro software similar. Dicho esto, esperaremos al 29 de enero de 2016 (fecha límite que ha dado la AGPD), para ver si Google ofrece alternativas legales, como por ejemplo alojar los datos en Europa, o si por el contrario deja a los usuarios a su suerte con este problema legal.

 

Deja un comentario

Tu dirección de correo electrónico no será publicada.