Le digital analytics et l’évolution des technologies de stockage de données
data analytics
Partager l'article sur :

Par Brice Bottégal

 

La brique de base des solutions de digital analytics, la collecte et le stockage de données, repose souvent sur des technologies anciennes datant du début des années 1990 (en général, d’ancienne version de système de gestion de base de données propriétaire de Microsoft, Oracle, IBM etc.). L’inconvénient de ces anciennes versions est qu’elles ne supportent pas l’interrogation en temps réel et les données sont obligatoirement agrégées (c’est-à-dire regroupées sous forme de moyenne par exemple) pour réduire la quantité de stockage.

Les solutions de digital analytics doivent franchir le pas et migrer vers de nouvelles technologies pour parvenir à répondre aux nouveaux besoins des annonceurs.

L’évolution des technologies de stockage de données

Voici les grands événements de l’évolution des technologies de stockage :

evolution technologies du digital analytics

La révolution technologique a été lancée (in)volontairement par Google entre 2003 et 2004 avec la sortie de son étude MapReduce et du système d’organisation de fichier associé : GoogleFS (Google File System). MapReduce est un modèle de programmation permettant de distribuer intelligemment la charge de collecte, de stockage et d’interrogation d’une grande quantité de données sur des grappes de serveur (« cluster » en anglais).

Doug Cutting, qui travaille alors pour la fondation Apache Software (connue principalement pour l’édition du serveur Web Apache), sur le projet Nutch (crawler de page Web) s’est intéressé à cette étude dès sa sortie. En effet, il rencontrait à ce moment les mêmes problèmes de traitement de grand volume de données (plusieurs PetaOctets de données, 1 PetaOctet est égal à 1.000.000 de GigaOctets). En 2006, Doug Cutting rejoint l’équipe de Yahoo! pour créer une version open-source de MapReduce. Le projet aboutira au lancement de Hadoop et du système de fichier associé HDFS (Hadoop File System).

Devant la croissance exponentielle de la quantité de données récoltées, Facebook et Yahoo! ont rencontré au fur et à mesure les mêmes problèmes de stockage que Google et se sont intéressés dès sa sortie à Hadoop. Hadoop était utilisé en interne chez Yahoo! et Facebook principalement par des profils techniques pour deux raisons : l’interrogation des données était complexe et requérait des compétences techniques, et les résultats fournis n’étaient pas fournis en temps réel mais au bout de plusieurs heures (en fonction des données à récupérer et de la quantité de données collectées). Pour favoriser l’utilisation des données en interne, Facebook et Yahoo! ont alors décidé de rendre ses données plus accessibles. Facebook créa alors Hive et le langage d’interrogation associé : HiveQL qui est similaire au langage SQL (Structured Query Langage) et Yahoo! créa Pig et le langage d’interrogation associé : Pig Latin. Pig Latin et HiveQL sont deux langages complémentaires, l’un sera plus adapté que l’autre en fonction de la requête que vous voulez effectuer. Ces projets furent déployés et utilisés en interne dès 2007 puis mis à disposition en open source dans la foulée pour favoriser leur adoption et leur développement grâce à la communauté de développeurs.

Yahoo! est aujourd’hui la société qui utilise le plus grand cluster Hadoop au monde avec 455 PetaOctets en 2014 (en Europe, c’est Criteo qui revendique utiliser le plus grand cluster).

Il reste alors un problème à résoudre : le temps trop important de récupération des données.

Google, en 2010, montre de nouveau la voie en sortant une étude sur Dremel.

Dremel permet d’interroger une grande quantité de données et d’avoir une réponse en quasi temps réel. Cette technologie est utilisée en interne chez Google depuis 2006 pour analyser les données collectées par les différentes applications (Google Maps etc.). Dremel est une technologie complémentaire à MapReduce. Depuis 2012, Google propose cette technologie sous forme d’un service Web : Google BigQuery qui permet de stocker et d’interroger un grand nombre de données facilement et rapidement.

En 2011, Twitter, également confronté aux mêmes enjeux de stockage, rachète une société prometteuse dans le domaine, Backtype et publie en open source ensuite Storm. Storm permet aussi de stocker et d’interroger facilement en temps réel un grand nombre de données.

Conclusion

Hadoop, Storm, Hive, Pig ne sont que des exemples d’un grand nombre de solutions open source disponibles pour répondre au besoin de stockage et d’interrogation simple et si possible rapide d’une grande quantité de données. Le temps où seules les grandes bases de données propriétaires d’éditeur comme Oracle, Microsoft, IBM etc. étaient utilisées est révolu. Le choix est vaste et tend pour le moment à le rester ! Comme toujours, il n’y a pas de meilleures technologies, mais une technologie plus adaptée qu’une autre à un besoin donné.

L’essentiel est donc de bien connaître ses besoins en termes de quantité de stockage, d’interrogation, de temps de réponse, de visualisation etc. pour choisir la technologie la plus adaptée… Si vous souhaitez vous passer d’une solution de digital analytics pour monter vous-même votre propre plateforme de gestion de données ! Dans tous les cas, les solutions de digital analytics qui n’arriveront pas rapidement à finir l’évolution de leur socle technologique auront du mal à répondre aux nouveaux besoins des annonceurs.

Article suivant

A lire aussi…

Les communautés qui gravitent autour du digital analytics

Les grandes tendances du digital analytics en 2016

Les grandes évolutions du digital analytics de 1993 à nos jours

Présentation du marché des solutions majeures de digital analytics

Les principales différences entre les solutions de digital analytics gratuites et payantes

Les évolutions de la collecte de données, de l’analyse des logs jusqu’au server-side

Avant et après l’arrivée des Tag Management System (TMS)

Etre conforme avec la loi sur les cookies, une option ?

 


Partager l'article sur :
Vous aimerez aussi