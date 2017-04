Les initiatives se multiplient pour tenter de prédire l'avenir électoral, quitte à recourir à des méthodes qui ont déjà prouvé leur inefficacité… mais qui rapportent beaucoup. C'est en effet un échec cuisant pour les analystes des réseaux sociaux, qui brassent de grandes quantités de données glanées sur le Web, ce qu'on appelle le Big data: alors qu'ils prédisaient un duel Fillon-Le Pen au second tour, écartant systématiquement Macron, leurs prédictions sont tombées à l'eau. En revanche, les sondages, malgré leurs récents échecs sur Trump, le Brexit, la primaire de la droite ou celle de la gauche, ont fait un sans-faute: le second tour sera bien entre Macron et Le Pen.





« Ce n'est pas du Big data, c'est du tout-venant », tranche Jean Chiche, ingénieur de recherches CNRS au CEVIPOF. Filteris, Vigiglobe, Predict My President, Predicto, autant de nouvelles entreprises qui ne procèdent pas à des enquêtes statistiques, mais décortique le Big data, c'est à dire analysent les messages sur les réseaux sociaux, les profils sociaux-économiques des internautes, la cote de popularité du candidat, etc. Une méthode qui laisse pantois le chercheur en statistique mathématique, qui fait un parallèle avec la méthode utilisée avant l'échantillonnage, instauré par Gallup dans les années 1930:

« Avant, ce qui se passait, c'est que les grands journaux organisaient des consultations sur un très grand nombre de lecteurs, plusieurs millions. Le Chicago Tribune, le Los Angeles Times par exemple, et tout au long de la fin du XIXe siècle, et au début du XXe siècle, ils donnaient comme ça les pourcentages de lecteurs qui allaient voter pour le républicain ou le démocrate, et très souvent ils se sont plantés. »

L'analyse des perceptions ne remplace pas le recueil d'intentions de vote:

« Quand on récupère toutes les données du Web, Twitter représente 90 % des données totales. Mais Twitter, ce n'est pas n'importe qui, ce sont des militants, des activistes, des journalistes, des catégories socioprofessionnelles supérieures, donc ce n'est pas représentatif », explique Nicolas Vanderbiest, chercheur à l'Université Catholique de Louvain. « De la même manière, si vous êtes dans une urne, vous mettez un vote. Sur Twitter, un militant qui twitte 2 000 fois sera comptabilisé 2 000 fois par rapport à simple quidam qui n'aura voté qu'une seule fois en disant qu'il aimait bien tel candidat. »

Actifs et organisés, les sympathisants de François Fillon l'étaient particulièrement. Voilà qui explique probablement le décalage de représentativité d'avec le « quidam » qui n'a voté qu'une fois, à moins que les seniors ne soient plus connectés qu'on ne l'imagine: 45 % des 70 ans ou plus ont voté pour lui, et 41 % des 65 ans et plus avaient voté pour lui à la primaire de la droite.

La méthode de ces start-up peut d'ailleurs inciter les militants à influencer le résultat: « à partir du moment où l'on sait que tel institut utilise telle méthode, on aura toujours tendance à chercher à influencer ces choses-là. À envoyer tous les militants taper les mots-clés sur Google pour que Google Trends dise telle chose et pas une autre ».

C'est aussi parce que les sondeurs se sont trompés à plusieurs reprises que les attentes se sont tournées vers cette nouvelle méthodologie: les connivences présumées avec les médias, les questions possiblement biaisés, ont ébranlé un peu plus la foi en leurs prédictions. Et si l'échantillonnage est indispensable, encore faut-il l'établir correctement.

Les indicateurs des réseaux sociaux ne sont pas prédictifs mais permettent d'observer et mesurer les tendances, les humeurs à l'annonce de programmes ou de mesures lancées par les candidats. L'analyse du Big Data peut aussi être complémentaire, à travers l'analyse sémantique par exemple, au travail d'instituts de sondages ou de recherches, dans la fabrication de questionnaires ou d'échantillons.

« Le fait que vous portez une grande attention à Big Analytics signifie déjà que la société commence à comprendre la nécessité de ces nouveaux outils de pronostics », commente Svetlana Krylova, directrice de ce centre d'analyse. « Opérationnel, accessible, peu coûteux », l'analyse du Big data peut parfois se substituer au sondage, poursuit-elle: « en Ukraine, lors de la crise ou le dernier référendum ou en Turquie, où la population s'exprimait avec précaution lors des sondages. »

© AFP 2017 Frederick Florin 2e tour : Macron – Le Pen, le dur dilemme des Républicains

Comment expliquer que les spécialistes du Big data ont alors parfois vu juste? Filteris avait prédit la victoire de Trump à la présidence des États-Unis et Fillon comme vainqueur de la primaire de la droite et du centre. Vigiglobe avait identifié la dynamique Trump également, prédit la victoire du Brexit, de François Fillon et même celle de Benoît Hamon à la primaire de la gauche. Le hasard, selon Nicolas Vanderbiest:

Avec une mise en page et un format adéquat, on peut faire penser à un sondage, alors que pas du tout: « De la charlatanerie pure et dure », estime Nicolas Vanderbiest, qui ironise: « C'est malin: durant les 5 prochaines années, vous allez pouvoir dire que vous avez prédit tel cas et pendant ce temps-là vous pourrez vendre cette solution à une entreprise. »