Par Brice Bottégal
Page 1/2/3
1993 : début de l’analyse Web grâce à l’analyse des logs
Le digital analytics est né grâce au protocole http qui a la particularité d’enregistrer chaque échange entre le visiteur et le site Web dans un fichier log. C’est grâce à ces données que l’analyse du comportement des visiteurs a pu débuter.
Un protocole est un ensemble de règles définies pour un type de communication. Si on veut trouver une analogie dans la vie courante, le protocole utilisé pour parler avec une autre personne pourrait être le langage. Il y aurait alors un protocole français, anglais ou encore français canadien ! Le protocole http est le protocole que nous utilisons tous les jours pour afficher les pages Web des sites que nous visitons.
Nous l’utilisons inconsciemment en le renseignant dans la barre d’adresse de notre navigateur Web, lorsque nous souhaitons visiter un site :
Emplacement du protocole HTTP et du WWW dans une adresse Web classique
Vous connaissez surement d’autres protocoles comme le protocole https, qui est une version sécurisée du protocole http de plus en plus utilisée ou encore le protocole ftp par exemple.
Le protocole http a été inventé en 1990 par Tim Berners-Lee avec les url et le langage HTML pour créer le World Wide Web (qui est la signification de l’acronyme WWW visible dans la majorité des adresses web également).
Schéma simplifié du fonctionnement de la récolte des données via les logs
Voici un extrait de fichier log :
Le premier travail des solutions de mesure d’audience fonctionnant à partir de l’analyse des logs est d’attribuer chacune des demandes (chaque ligne du fichier log correspond à une demande, aussi appelée « hit », de la part du navigateur Web) au bon visiteur. Cela permet ensuite de reconstituer les visites de chacun d’eux sur la base de leur adresse IP.
Au début du Web (de 1990 à 1996), les pages étaient des pages statiques composées quasi-exclusivement de texte et de lien. Un hit était donc équivalent à l’affichage d’une page. Petit à petit, les pages se sont beaucoup enrichies avec l’arrivée d’images, de vidéos, d’animations grâce à des technologies comme l’AJAX ou le HTML5. Étant donné que chaque hit correspond à l’appel d’un élément de la page, le nombre de hits a augmenté de façon exponentielle ce qui a rendu difficile la reconstitution des visites par les solutions de digital analytics via l’analyse des logs. De plus, la mesure des interactions avec les contenus dynamiques (lecture d’une vidéo etc.) était quant à elle impossible étant donné que ces interactions n’entrainent, par défaut, aucune écriture dans les logs.
D’autres nouveautés externes à l’évolution des sites Web ont vu le jour et ont dégradé la qualité des données récoltées via l’analyse des logs : l’apparition des moteurs de recherche et de leur robot, les serveurs proxys permettant de surfer anonymement, l’attribution d’adresses IP dynamiques par les Fournisseurs d’Accès à Internet (FAI) et les techniques de mise en cache des contenus intégrées au système de gestion de contenu (CMS).
L’évolution des pages et du Web en général ont rendu inutilisable l’analyse des logs.
Aussi, les services marketing se sont vite appropriés le Web du fait de sa valeur ajoutée. Pour ces services, l’analyse des fichiers logs s’est révélée être une méthode trop technique pour être facilement utilisable.
La mesure d’audience via l’analyse des logs était donc devenue inadaptée.
Les éditeurs de solution de digital analytics ont dû faire évoluer leur méthode de récolte des données avec l’évolution du Web.
Aujourd’hui, la récolte des données via l’analyse des logs n’est quasiment plus utilisée. La solution Urchin de Google, l’une des dernières basée sur l’analyse des logs, rachetée en 2005 pour créer Google Analytics, n’est plus vendue ni supportée depuis le 28 mars 2012.
1/2/3
Partager la publication "Les évolutions de la collecte de données, de l’analyse des logs jusqu’au server-side"