Quand les corrélations supplantent les bénéfices de la causalité

Tout au long de notre éducation la réponse à la question « pourquoi » est apparue comme La Quête Absolue. Culturellement, particulièrement en marketing, la causalité est un moteur essentiel, tentant de comprendre pourquoi un consommateur adopte tel comportement et comment le reproduire, le marqueteur pense détenir un pouvoir absolu sur son marché. La réponse à ces questions peuvent couter très cher en investigation en tout genre : études, panels, etc. et les réponses sont souvent empiriques, l’intuition jouant un rôle important.

Le marketing moderne sonne l’avènement de la pure corrélation. Viktor Mayer-Schönberger, professeur à l’Oxford internet Institute, et Kenneth Cukier, responsable des données pour The Economist estiment quant à eux dans leur ouvrage « Big Data : une révolution qui va transformer notre façon de vivre, de travailler et penser », que le Big Data permet de trouver des corrélations que nous n’avions pas vues, appelées aussi signaux faibles et que cette analyse est non seulement bien plus puissante que la causalité mais risque surtout de complètement la supplanter. Cette nouvelle compréhension de notre environnement révolutionne complètement nos acquis et nos certitudes.

Ils rappellent dans leur ouvrage qu’Oren Etzioni qui a travaillé sur l’indice de prix des billets d’avion mis en place pour Bing travel ne cherchait pas à analyser les raisons de l’évolution des prix des billets d’avion, autrement dit « pourquoi cela évolue » mais seulement comment prédire quand acheter c’est à dire prédire si le prix allait augmenter ou diminuer dans le futur.

Keyrus travaille sur ce type d’approche pour 20 minutes, de la même façon nous ne cherchons pas à comprendre pourquoi certains lecteurs ont une forte probabilité de consommer un contenu politique international après avoir lu un contenu fait-divers puis politique national, surtout s’ils sont arrivés sur le site depuis google news et que le temps moyen de lecture dépasse 3 minutes un jour de pluie, on voit bien que le pourquoi n’a aucun sens, nous cherchons simplement à prédire ses centres d’intérêt en fonction de la détection de ces paramètres afin de mieux l’orienter le site.

Dans le cadre de bing travel, l’important pour Oren n’était pas de connaître les facteurs qui président aux fluctuations de prix conformément aux modèles de la tarification algorithmique conventionnelle comme le nombre de sièges disponibles ou la saisonnalité, il voulait juste savoir à quel moment le billet d’avion était moins cher c’est à dire quand il fallait l’acheter. L’idée géniale a été de construire un nouvel algorithme se servant des résultats des algorithmes de tarification auxquels il ne pouvait accéder. Pour cela, Oren Etzioni aurait fait avaler plus de 200 milliards d’enregistrements de prix de vols à son algorithme. En 2012, son système était capable de faire une prévision correcte à 75 % du temps, faisant gagner en moyenne 50$ par billet acheté.

Cette double construction algorithmique – celle qui permet de construire le prix du billet et celle qui permet de la comprendre sans en connaître les facteurs – illustre très bien le phénomène des Big Data. « Le changement d’échelle a conduit à un changement d’état » insistent Mayer-Schönberger et Cukier. « Le changement quantitatif a entraîné un changement qualitatif ». La métaphore souvent utilisée par les conférenciers est celle de la photo et du cinéma. Lorsque nous sommes passés de la photo au cinéma en modifiant la quantité c’est à dire le nombre de prises de vues possibles à la seconde, nous avons changé l’essence de la photographie. Nous pouvions alors aller plus loin que constater une émotion, nous pouvions comprendre le processus ayant amené à l’émotion. Une autre parabole est celle du microscope. Nous avons pu constater que la glace fond ou que l’eau s’évapore par l’expérience, avec l’arrivée du microscope nous avons pu atteindre un nouveau niveau de compréhension en regardant la structure moléculaire se modifier.

Les Big Data se réfèrent à des choses qu’on peut faire à grande échelle et qui ne peuvent pas être faites à plus petites échelles, pour en extraire de nouvelles connaissances ou de nouvelles formes de valeurs, créer des innovations et de nouveaux services.

L’obsession des markéteurs pour la causalité est en passe d’être transformée par de simples corrélations, qui n’expliquent pas le pourquoi, mais montrent uniquement le quoi. Nous n’allons pas comprendre les domaines du comportement humain sur lesquels vont agir les Big Data mais nous allons savoir comment ils agissent et réagissent.

« Les corrélations ne peuvent pas nous dire précisément pourquoi quelque chose se passe, mais elles peuvent nous avertir du moment où cela se passe. ». Le markéteur pourra être informé du moment, de la fréquence, du nombre de fois où cet événement se produit et la probabilité pour que le même événement se reproduise lorsqu’il est soumis aux mêmes facteurs.

L’impact, c’est à dire le changement qu’induit la corrélation, relègue la causalité à quelque chose de beaucoup moins important. Cela fonctionne assez bien la plupart du temps, rappellent les auteurs. « Si l’étude de millions de dossiers médicaux montrent que les personnes atteintes d’un cancer voient leur maladie entrer en rémission s’ils prennent de l’aspirine et du jus d’orange par exemple, alors la cause exacte qui explique l’amélioration de leur santé est beaucoup moins importante que le fait qu’ils vivent » ; l’important est que le remède marche et non pourquoi il marche.

« La plupart de nos institutions ont été créées en vertu de la présomption que les décisions humaines sont fondées sur l’information qui est petite, exacte, et de nature causale. Mais la situation change lorsque les données sont énormes, peuvent être traitées rapidement, et tolèrent l’inexactitude. En outre, en raison de l’immensité des données, les décisions peuvent souvent être prises non plus par les humains, mais par des machines. ». L’informatique boursière ou celle du tourisme sont des applications reconnues de ces principes.

Pour les auteurs, les corrélations peuvent être trouvées de manière beaucoup plus rapide et moins coûteuse que les liens de causalité, ce qui explique qu’elles vont leur devenir préférables. Cela ne signifie pas que nous n’aurons plus besoin d’étude de causalités, mais bien souvent, la corrélation sera « assez bonne ».

Autant d’éléments qui annoncent transformer en profondeur notre rapport à l’information.

« À bien des égards, la façon dont nous contrôlons et gérons les données devra changer. Nous entrons dans un monde de prédictions basées sur des constantes qui pourraient ne pas être en mesure d’expliquer les raisons de nos décisions. » Demain, un médecin pourra décider d’une intervention médicale uniquement parce que les données le lui auront indiqué, on peut prendre l’exemple de la mastectomie préventive d’Angelina Jolie en 2013 par le professeur Picovski basée sur un diagnostique prédictif fruit d’une corrélation entre les résultats de son séquençage ADN et le décès de sa mère portant à plus de 80% le risque.

Le cas de Target illustre souvent cette nouvelle conception du marketing. Andrew Pole datascientist recruté en 2002 par Target a pu dans le cadre d’un groupe de travail « Big Data, big oppotunities » identifier et adresser le comportement des couples « futurs parents ».

Alors que l’enseigne vend tous les produits y compris par exemple la puériculture et les jouets, la plupart des futurs parents, clients de Target, ne modifient pas leurs comportements de consommation et vont acheter les produits dont ils ont besoin dans des enseignes spécialisées. L’objectif du groupe de travail a donc été d’être capable d’analyser suffisamment de données issues des programmes de fidélité afin de définir la probabilité qu’une femme soit enceinte. Les résultats sont presque effrayants.

L’algorithme imaginé par Andrew Pole permet d’identifier une femme enceinte dans son troisième mois de grossesse par la simple modification de ses habitudes de consommation. Le succès de l’enseigne repose ensuite sur la capacité des marketeurs à adresser des offres personnalisées pour inciter les couples à acheter aussi chez Target les jouets ou encore toute la puériculture.

Pour l’anecdote Target a été traduit en justice pour avoir adressé des offres marketing à un couple dont le comportement de consommation remplissait les critères de l’algorithme. Le couple, porteur de la carte de fidélité, après avoir frisé la séparation, a découvert que c’était leur fille, adolescente et enceinte, qui avait influencé la constitution de leurs paniers.

Le business augmenté

De nombreux marchés prennent aujourd’hui des décisions basées sur la donnée où l’offre et la demande se rééquilibrent en temps réel bien plus rapidement que n’est capable de le comprendre l’être humain en analysant plus de paramètres que tous les modèles passés.

Amazon est un des cas les plus illustrés. Les applications mobiles ou le text mining permettent de collecter les prix de la concurrence afin d’ajuster en temps réel les prix proposés. Pas moins de 7 modèles de page produit différents tournent en temps réel sur le site afin de maintenir pour la plus large audience celui qui performe le mieux. L’élasticité des prix est testé en temps réel afin d’arrêter non pas le prix le plus fort mais celui qui permettra de réaliser la plus forte marge en intégrant les coûts de recrutement au calcul. Ainsi le prix d’un livre sera légèrement différent si vous êtes un consommateur acquis depuis google en référencement naturel ou via un blog affilié. Plus récemment amazon a annoncé son recul sur le front de la livraison gratuite pour tous, pourtant la livraison reste gratuite pour certains profils de consommateur. Ces informations concédées au marché pour asseoir l’avance prise ne sont certainement qu’une infime partie du modèle qui explique la réussite de cette entreprise.

La méthode pour mener à bien ce type de projet

BJ Fogg professeur à l’université de Stanford est à la tête d’un laboratoire appelé « Persuasive Technologies » et l’inventeur d’une méthodologie appelée « 8 steps design process for persuasive technologies » que je vous conseille d’appliquer.

L’erreur fréquente de ce type de projet est d’être trop ambitieux, de voir trop grand, de partir sur des projets de plusieurs centaines de milliers d’euros et de plusieurs mois de développement.

La première étape est donc celle d’identifier un petit projet dont les données et les décisions impliquent les personnes du groupe de travail. Autre élément important pour la réussite du projet est l’identification des KPIs et la mesure des résultats pour être capable de conclure à la réussite du projet.

Réduire le churn ou le taux d’attrition de mon activité est une question bien trop vague. Par contre identifier dans les logs qu’avant de quitter un opérateur téléphonique un utilisateur consulte fréquemment la page des conditions de résiliation, la page relative au déménagement ou consulte les sites des concurrents ou ceux des comparateurs revient à poser une question plus précise.

Comment détecter les comportements précités dits « à risque » afin de prévenir l’attrition ? La première étape qui consiste à formuler des questions précises permet donc de vérifier très vite la faisabilité d’un projet, d’écarter les impasses et d’ouvrir de nombreux champs d’investigation voire de découvrir des opportunités inattendues, la « sérendipité » étant le bénéfice fréquent de ce type de projet.

Parce que le but est de « persuader » quelqu’un d’accéder à un produit ou à un service et non « tout le monde », la seconde étape est celle d’identifier la bonne cible, le bon public pour tester le concept. Lorsqu’un brasseur décide de vendre une nouvelle recette de bière blanche, il est plus simple de convaincre des buveurs de bière d’en découvrir une nouvelle, plutôt que de tenter de convaincre toute une population. S’il est possible de le faire, interagir avec des buveurs de bière blanche est encore plus efficace.

La troisième étape est d’identifier la ou les raisons pour lesquelles le comportement attendu n’est pas possible. La réponse tourne en général autour de trois concepts : le manque de capacité, le manque de motivation ou l’inadéquation entre message et la cible.

L’étape 4 est de choisir le bon canal et le bon format. La réponse aux trois premières questions permet de définir rapidement la mise en scène du message la plus appropriée. Reprenant l’exemple des consommateurs de bière blanche pour leur proposer une nouvelle recette, l’utilisation d’un réseau social avec un message sponsorisé à destination des fans inscrits sur la page de la marque de bière blanche ou plus efficacement, un email à destination de la base des mêmes fans rapprochée de la base de clients du brasseur.

Ces quatre premières étapes ne sont pas séquencées. En effet en fonction des projets et des contraintes on peut commencer à travailler sur les données issues de l’analyse des réseaux sociaux, ce qui ferait débuter cette méthode par l’étape 4 et ce qui permettrait de déduire les trois précédentes.

La cinquième étape est de trouver des exemples qui font sens pour l’équipe projet. Souvent ces exemples s’inspirent de projets existants ce qui constitue l’étape 6, trouver sur internet des projets existants qui peuvent illustrer le bien fondé d’une démarche et en sécuriser le périmètre.

L’étape 7 est d’entrer rapidement en phase de test afin d’itérer avec les membres du groupe de travail et d’approfondir les tests validés. Enfin l’étape 8 est de capitaliser sur les succès pour étendre le champ d’investigation.

Quand les corrélations supplantent les bénéfices de la causalité

About Thierry Picard

Laisser un commentaire Annuler la réponse.

A propos

Me, Myself and I

Articles récents

Catégories

Les mois précédents

Quand les corrélations supplantent les bénéfices de la causalité

About Thierry Picard

Laisser un commentaire Annuler la réponse.

A propos

Me, Myself and I

Articles récents

Catégories

Les mois précédents

Pepito dans les nuages