Big Data, quelles « transformations culturelles » cela implique pour les entreprises ?

Ceci n’est pas un Nième article pour expliquer les 3 V du sujet buzz du moment « Big Data« . Je m’intéresse à l’actualité autour des « Big Data » depuis maintenant 6 mois. Ainsi, j’ai ajouté quelques flux RSS dédiés à mon lecteur de flux RSS préféré (je vous recommanderais vivement http://www.bigdata-startups.com/feed/), j’ai participé à la 3ème édition du congrès Big Data Paris, j’ai lu beaucoup de points de vue rédigés par quasiment l’ensemble des cabinets de conseil de la place (McKinsey, BCG, Forrester, Gartner, EMC, Capgemini Consulting, …) et j’ai finalement lu cet été le livre qui fait référence : Big Data a revolution that will transform how we live work and think, co-rédigé par Viktor Mayer-Schönberger et Kenneth Cukier.

Je souhaite dans cet article mettre en exergue les « transformations culturelles » que ce sujet engendre.

Pourquoi beaucoup de données changent la donne ?

Prenons l’exemple de la vidéo : une vidéo est fondamentalement différente d’une image et en même temps une vidéo n’est autre qu’une succession rapide d’images (au moins 24 images par seconde). Ainsi, en changeant la quantité, l’essence change ! Cela s’applique aussi aux données des entreprises. Prenons l’exemple de Google avec son service de suivi de la grippe, ou Google Flu Trends. Ce service a été développé en partant du constant que certains termes de recherche semblent être de bons indicateurs de la propagation de la grippe. Ainsi, les recherches des utilisateurs qui, prises individuellement permettent à ces utilisateurs de se renseigner, peuvent prédire l’évolution de la propagation d’une grippe quand elles sont analysées ensemble.

« La donnée, le pétrole du XXIe siècle ». Cette analyse est partagée par l’ensemble des experts du sujet. Mais pour pouvoir collecter, agréger, analyser et monétiser toute ces données, 3 grands virages culturels dans la gestion de la donnée seront à entreprendre :

1. « From Sampling to N=All »

Avec les technologies dites « Big Data » (principalement autour du stockage à très faible coût de grand volumes de données – Hadoop – et la parallélisation/distribution des calculs – MapReduce), les professionnels de la gestion des données n’auront plus besoin de travailler par échantillonnage. L’échantillonnage a été créé pour palier au manque de capacité à traiter l’ensemble des données. Prenons par exemple le site https://www.decide.com/ : ce site (désormais acheté par Ebay) prédit l’évolution des prix de plusieurs produits de consommation. Pour cela, le site collecte et analyse une quantité énorme de données provenant du Web, notamment les sites de e-commerce. En 2012, le site prédit l’évolution des prix de plus de 4 millions de produits sur la base de l’analyse de plus de 25 milliards de prix constatés sur le Web. Selon le site, ces prédictions sont correctes à 77% et permettent aux consommateurs de gagner 100$ en moyenne.

2. « From Exactitude to Messy »

Les volumes de données étant devenus gigantesques, le risque d’avoir des données erronées est plus important. Même, si c’est le cas, il est désormais acceptable d’avoir plus de données erronées car l’analyse des données est basée sur la corrélation et non plus sur la causalité.

3. « From Causality (why) to Correlation (what) »

C’est le changement culturel le plus important mais aussi le plus difficile à accepter. En tant qu’êtres humains, face à un problème ou une question nous sommes programmés à chercher les causes pour y répondrent même si très souvent cette recherche est complexe voir impossible. Dans un monde où les données coulent à flots, cette recherche de causalité n’est plus nécessaire. En effet, plutôt que chercher la cause, il est désormais plus pertinent de chercher des « patterns » et des corrélations qui permettent de dégager des observations (ou « insights » en anglais). Certes cela n’explique pas « le pourquoi » (why) mais est-ce vraiment nécessaire ? Prenons l’exemple de la traduction. Il y a moins de dix ans, beaucoup de systèmes de traduction étaient basés sur l’apprentissage des règles (d’orthographe, de grammaire, …). En 2006, Google lançait Google Translate en prenant une approche complètement différente, basée sur la comparaison d’un gigantesque ensemble des données scannées par Google en plusieurs langues (les sites d’entreprises multilingues, les documents officiels de l’UE, les livres numérisés, …). Les traductions collectées ne sont pas toutes au même niveau, certaines sont peut-être erronées. Mais qu’importe ! Le volume de données collecté est tellement gigantesque que les quelques erreurs collectées seront vite noyées dans la masse. A ce jour, Google Translate est de loin le traducteur le plus abouti couvrant plus de 60 langues.

Pour aller plus loin, je vous recommande vivement de lire le livre de Viktor Mayer-Schönberger et Kenneth Cukier cité au début du post.

A propos Charbel Lahoud

I’m a consultant in management at Capgemini Consulting with an unhealthy obsession for new technologies. I believe that the next revolution will start with massive enterprise digital transformation!
Cet article, publié dans Big Data, est tagué , , , , , , , , , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s