Prédire l’avenir (issue du Mondial compris): la ‘bouillie’ de données remplace la boule de cristal

Hors-cadre
Par · 01/07/2014

Prédire l’issue de la Coupe du Monde de football. Science ou chance? Est-il possible de prédire l’avenir? Qu’il s’agisse de l’identité du futur vainqueur de la Coupe du Monde, de celle du prochain président ou premier ministre, de l’accueil que réservera le marché à un produit encore à lancer?

C’est ce à quoi s’emploient les “data scientists”, les experts de l’analytique. Parmi eux, David Rothschild, économiste de formation et “chercheur en science prédictive” (il dirige aujourd’hui Predictwise et travaille pour le Microsoft Research Group – voir son curriculum vitae), était de passage cette semaine aux Pays-Bas et a accordé quelques interviews.

Actualité sportive oblige, il a beaucoup été question de Coupe du Monde – mais pas seulement. A son actif, une précision étonnante de prédiction, qu’il déploie dans divers contextes. Il a ainsi “prédit” les victoires électorales aux présidentielles américaines de 2012, dans 50 des 51 Etats de l’Union, 19 des 24 lauréats aux Oscars en 2013, le vainqueur de l’Eurovision.

Direction Brésil

Quelles sont, dans l’état actuel des choses, ses prévisions/prédictions pour le Mondial?

Vainqueur hautement probable: le Brésil. Suivi par l’Argentine et l’Allemagne. Avec deux pays qui, ces derniers jours, ont quelque peu grimpé dans les chances de l’emporter, à savoir les Pays-Bas et la France.

Cette dernière aurait désormais 10% de chances de l’emporter. Voici un an, elle végétait en bas de classement, avec 3,5%.

 

Et la Belgique dans tout ça?

Les favoris (prédictions chiffrées en date de ce 1er juillet 2014, à 14 heures pour être exact):

  • Brésil: 24,5% – “l’un des facteurs influençant leurs chances étant le fait de jouer à domicile”)
  • Argentine: 18,3% (si la Belgique va en quarts, ce sera donc l’occasion de faire mentir le “modèle Rothschild”)
  • Allemagne: 17,6%
  • Pays-Bas: 15,3%
  • France: 10,4%
  • Colombie: 6,6%
  • Belgique: 4,3%
  • Costa Rica: 1,1%
  • Etats-Unis et Suisse: 1%

Chose intéressante: les prédictions (à suivre au jour le jour sur le site de David Rothschild) concernent les chances de chaque pays d’atteindre chacune des prochaines étapes (quarts de finale, demis, finale).

8 heures avant les huitièmes de finale, la Belgique était considérée comme ayant 65,5% de chances de passer le cap des huitièmes de finale. L’Argentine avait une probabilité de 80,2% de battre la Suisse.

Un élément important à accoler à ces chiffres est le degré de certitude de la prédiction. Prenons à nouveau le cas de la France: le degré de certitude au sujet des 10,4% de chances de victoire finale, ce mardi midi, était de 80%.

Faut-il être “grand clerc” pour sortir ce genre de prévisions? La démarche de David Rothschild se veut scientifique, s’appuyant sur un mixage de multiples données et sources de données.

Voici comment il procède.

“Deux sources de données sont importantes en matière de football. D’une part, les données de base, les statistiques historiques (matchs, classement, scores…). Ces données ont déjà fait la preuve de leur efficacité par le passé, mais ce sont des données statiques. La différence, désormais, est que les masses de données temps réel dont on disposent permettent de faire pivoter cette base.” Ces données sont celles qui sont générées en “live”: position des joueurs sur la pelouse tout au long du match, pourcentage de possession de balle, nombre de passes (réussies ou non)…

Autre source importante de données sur laquelle il s’appuie pour modéliser ses prédictions footballistiques: les marchés des paris ou, plus précisément, les millions de paris qui sont placés sans cesse. C’est le principe, désormais bien établi et documenté, de la précision étonnante de la “crowd wisdom”. Cette aptitude de voir des données émanant d’une multitude de sources ponctuelles, aucunement scientifiques, de donner un résultat s’approchant de la réalité.

Le tout est systématiquement injecté, en temps réel, minute par minute dans de puissants systèmes qui, à l’aide d’algorithmes, font émerger prédictions et taux de probabilité. “Et ce qui est désormais intéressant”, ajoute David Rothschild, “c’est que la puissance de calcul dont on dispose et la foultitude de données permettent, une fois un match fini, d’en générer automatiquement l’impact sur les autres matchs…”

“Right on the nose”

“L’analyse des prédictions et probabilités pour la première phase du Mondial [les ‘pools’] a ceci de remarquable que les équipes pointées comme favorites étaient considérées comme ayant 57% de chances probables de l’emporter. Autrement dit, tout le monde, en réalité, aurait pu gagner. Et que constate-t-on? Que… 58% des favoris sont passés.”

Mais ajoute David Rothschild, les pourcentages variaient sensiblement selon les matchs de ce premier tour. “Pour certains, le pourcentage de probabilité [pour le favori] de l’emporter n’était que de 50%. Pour d’autres, il était de 85%. Il est certaines choses qui sont plus dures que d’autres de prédire. Le facteur incertitude est donc très important.”

L’important, c’est la collecte de départ

“Le plus important, la première étape incontournable est de bien penser et formuler la question.”

David Rothschild (Predictwise): “Il faut, avant toute chose, apprendre à maîtriser les données et leur signification.”

Viennent ensuite le choix des bonnes sources de données et la création des indicateurs pertinents. “Il faut, avant toute chose, apprendre à maîtriser les données et leur signification.”

Autre paramètre important – évidemment – la qualité du traitement, la corrélation à nouer avec les résultats qu’on poursuit (via modélisation), et donc l’aptitude à traiter rapidement de gros volumes, “afin de pouvoir procéder à des mises à jour constantes des prévisions.”

Evidemment, tout cela ne serait qu’exercice futile s’il n’y avait, au bout du compte, passage à l’acte et à la décision en fonction des prédictions. Avec l’obligation de rester attentif à l’évolution des tendances. “Dans le secteur de l’entertainment et de la politique, on constate que les données changent de jour en jour, parfois d’heure en heure.” Une leçon à retenir et à intégrer, à ses yeux, par le monde du business “qui ne tient pas encore suffisamment compte de cet énorme potentiel.”

“Pour la plupart des gens, l’analytique demeure un système d’“alerte rapide” [early warning system] plutôt qu’un instrument pour réaffecter budgets ou campagnes sur-le-champ. Face aux changements de “sentiment” de la clientèle, les annonceurs, par exemple, pourraient – moyennant une infrastructure efficace et une segmentation simple – accroître sensiblement leur potentiel de micro-segmentation et multiplier les campagnes…”

Statistiques contre données temps réel?

Il n’y a en fait pas d’opposition entre ces deux types de sources mais plutôt complémentarité. Mais quelles sont les données les plus précises, celles qui permettront de générer des prédictions tenant la route et qui se vérifieront en finale? Les “old data” ou le “big data” qui se génère à la volée?

Tout dépend, selon David Rothschild, du domaine que l’on étudie. Il prend l’exemple des données collectées au départ des réseaux sociaux (Twitter et consorts) et des requêtes formulées dans les moteurs de recherche. “Les données sont tellement abondantes et sont générées par tellement de gens différents que l’exercice est très confus. Cela tient notamment au fait que les données récoltées et analysées ne correspondent pas, ne répondent pas à la question à laquelle on veut justement une réponse. Cette masse de données peut donc manquer de signification là où un seul chiffre de marché, tel un prix par exemple, garantit une grande précision.” Mais il est aussi certains domaines où les données, puisées dans les réseaux sociaux, sont parfaitement pertinentes. Par exemple dans le registre des “sentiments” des internautes. Même si, là encore, elles ne sont pertinentes que pour certaines finalités – comme on le verra plus loin au chapitre Politique.

Peut-on tout prédire?

Epidémies, victoires politiques, succès commercial ou sportif… Peut-on tout prédire avec un degré de certitude égal?

Nous avons demandé à David Rothschild de se concentrer de manière plus spécifique sur le terrain politique (ou assimilé).

L’une de ses grandes fiertés est d’avoir réussi à prédire “très tôt et avec un haut degré de certitude” l’issue des élections présidentielles et sénatoriales américaines de 2012. Et ce, dans 50 des 51 Etats. “Neuf mois avant les élections, nos prédictions étaient déjà exactes et n’ont fait que gagner en exactitude au fil des mois.” La réactualisation était constante, via injection de données de campagne dans le moteur d’analyse: sondages, impact d’un débat, d’une petite phrase de tel ou tel candidat…

N’y a-t-il pas eu de renversement de tendances? “La Floride était très incertaine. Ce qui fut intéressant fut de pouvoir noter et intégrer efficacement dans nos prédictions l’impact qu’a eu une petite phrase-choc d’un sénateur républicain. Les données évoluaient littéralement d’une minute à l’autre. Oui, un Etat a basculé mais dans la bonne direction [par rapport à ses prédictions].”

Donc, la possibilité de prédire le vainqueur d’une élection présidentielle américaine semble être établie. Qu’en est-il d’autres prédictions électorales?

Nous n’avons pas résisté à demander à David Rothschild s’il s’aventurerait à tenter de prédire la composition du prochain gouvernement fédéral. Défi en forme de boutade. Et il a dû admettre que c’est là une chose qui lui paraît encore impossible à faire. Mais en bonne partie parce que personne ne s’est encore accroché à une collecte et analyse scientifique des données qui seraient les plus “significatives” et pertinentes…

Autre question posée – qui a récemment fait débat aux Etats-Unis: aurait-on pu prédire les “printemps arabes”, les révolutions populaires et les bouleversements de tous ordres qui s’en sont suivis? Outre-Atlantique… D’autres continuent de dire qu’il est toujours facile de prédire l’avenir quand il est arrivé et que l’on peut jeter un regard vers le passé…

La position de David Rothschild sur ce sujet est plus nuancée: “le fait qu’il y a désormais une plus nette prise de conscience par rapport à ce que peut apporter la veille et la collecte de données concernant les événements internationaux et ce, à mesure que les choses se produisent. Il devient donc en effet possible de prédire les conséquences. Du moins dans une certaine mesure. Il s’agit de garder les yeux ouverts et d’agréger les données.”

Mais la surveillance des réseaux sociaux achoppe encore, à ses yeux, sur une difficulté. “L’analyse de ces données se limite encore largement à la langue anglaise et à quelques autres langues. Nous avons donc encore un long chemin à parcourir avant que l’on puisse considérer les médias sociaux comme des prédicteurs.” Il faudra, pour ce faire, progresser sensiblement en termes de traitements linguistiques et d’analyse de sentiments…