Big data: ‘big’ mais aussi et surtout hétéroclites

Impossible de s’intéresser au “big data” sans s’intéresser à la définition qu’on en donne.

Pour cerner le “big data”, les observateurs recourent souvent à la technique des V.

V comme volume, variété, vélocité, vitesse, variabilité, valeur, véracité, visualisation… Et la liste s’allonge.

Tous ces termes sont censés représenter des caractéristiques du “big data”. Si c’est en effet le cas, elles ne doivent pas forcément être toutes présentes pour que l’on puisse parler de big data. Toutefois, le fait est que plus ces caractéristiques sont présentes, plus on a affaire à un magma de données qui démultiplie à la fois les défis de traitement et les avantages potentiels qu’un traitement efficace peut délivrer.

Volumes? Tout est relatif

Le “big data” – les mégadonnées, en français – suppose inévitablement une masse de données. Mais à partir de quand peut-on parler de “masse” (cette notion étant relative)?

Les données massives que traitent certaines sociétés ne sont guère une nouveauté. Les astrophysiciens, les météorologues, par exemple, se les coltinent depuis bien longtemps.

La nouveauté vient aujourd’hui du fait que les volumes de données ont explosé de toutes parts: données concernant les utilisations téléphoniques mobiles, les réseaux sociaux, la télémétrie, la collecte de paramètres vitaux (ou comportementaux), de consommations énergétiques…

On ne considère donc plus le volume uniquement sous l’angle des réservoirs de données que l’on possède en interne, dans une entreprise ou un service public.

Et cela change sensiblement la donne, non seulement pour le traitement de cette masse mais aussi en termes de sociétés potentiellement intéressées par ce nouveau phénomène. Il n’est en effet pas nécessaire de disposer, en interne, de grandes quantités de données (commerciales, par exemple) pour s’intéresser et tirer parti du big data. Potentiellement, une PME ou TPE peut très bien “faire du big data” puisque les masses d’informations exploitables se situent en dehors de ses murs.

Big data ne signifie donc pas grosse entreprise. Ou pas uniquement.

Le big data, ce n’est pas non plus uniquement du volume. Si c’est très souvent le cas, un autre paramètre majeur est la diversité des sources, la variété des données, l’aptitude et l’intérêt qu’il y a à les croiser, à les combiner. De multiples jeux de données, pas forcément massifs individuellement, peuvent créer les conditions du “big data”. Exemple: des volumes relativement modestes (de l’ordre de quelques dizaines de gigaoctets), internes et externes, qui se caractérisent aussi par des paramètres de vélocité et de variété et qui donnent lieu ou favorisent une (ré)action rapide.

Andy Petrella (Next Lab): “Small data, huge views”.

Big data ne signifie pas non plus obligatoirement gros budget. Et là aussi c’est une chose dont les sociétés plus modestes doivent prendre conscience. Si les outils, plates-formes… et compétences ne sont pas encore adaptées aux capacités de petites sociétés, une piste exploitable dès à présent est celle de la mutualisation des services. C’est en tout cas ce que voudrait mettre en oeuvre la Plate-forme Big Data qui est en cours de création en Wallonie. Lire notre article

La vraie différence

Entre le traitement décisionnel d’hier (“business intelligence”) et les traitements analytiques massifs d’aujourd’hui et de demain, il y a un réel fossé.

L’analytique, hier, consistait, dans une large mesure, à tirer des enseignements de données passées, “historiques”, statiques.

Aujourd’hui, l’analytique se fait de plus en plus “prospectif”. L’objectif est de faire de la prédiction, de l’analyse prospective, voire prescriptive (les simulations et prédictions permettant d’orienter les choix futurs). Et de le faire de manière très rapide, parfois en quasi temps réel.

Les jeux de données seront, pour certains, minimes comparés à d’autres. Mais certaines autres propriétés feront malgré tout relever les traitements du domaine du big data.

La technologie le permettant désormais et la démocratisation des prix (stockage, notamment) ayant fait son oeuvre, le principe consiste à collecter tout ce qu’on peut et de voir ensuite ce qu’on peut en dégager.

Lors des Assises du Big Data, qui s’étaient tenues en décembre 2013 à Gosselies, François Royer, directeur général de la société française Datasio, prestataire de services en “fouille de données”, l’exprimait comme suit: “on peut parler de big data dès l’instant où l’on collecte d’abord et que l’on réfléchit ensuite aux possibilités d’exploitation. Le big data, c’est la promesse de création de valeur. Certes, il y a des risques de débordement. Le tout est dans la quantification. Nous sommes entrés dans l’ère de la “culture quantitative”, adoptée par la moindre entreprise. On stocke tout et non plus uniquement pour des besoins purement opérationnels ou d’audit.”

Défis technologiques

L’avènement du ‘big data’ implique la mise en oeuvre de nouvelles technologies, à tous niveaux:

systèmes supportant des accès multiples simultanés par d’innombrables utilisateurs
modèles parallélisés et informatique distribuée
traitements temps réel
algorithmes spécifiques
apprentissage machine (“machine learning”) itératif
techniques et outils de transformation de données
techniques nouvelles de visualisation, en ce compris temps réel pour “capter” l’évolution permanente des données
traitement de données disparates: textes, vidéos, xml, données de capteurs, données géospatiales, séries chronologiques…
traitement parallèle et itératif
redimensionnement dynamique des serveurs
besoins en bande passante
qualification et “nettoyage” des données
etc. etc.

Le big data induit en fait des changements profonds qui touchent de multiples registres. Il impose de nouvelles approches, de nouveaux outils, algorithmes, compétences, méthodologies. Il provoque une réorganisation dans les démarches, en ce compris dans l’organisation des équipes et la gestion des projets. Puisque la clé est la réactivité, la rapidité, parfois l’immédiateté, les cycles de projets, les scénarios d’exploration des données doivent pouvoir adopter de nouveaux rythmes. Comme en témoignent, dans ce dossier, UCB (voir ci-dessous) ou encore Swan Insights.

Ces adaptations sont nécessaires pour une multitude de raisons.

Notamment parce qu’il s’agit de traiter, rapidement, de gros volumes de données mouvantes, multi-sources, hybrides et non plus, ou plus seulement, des données figées, stockées pour de longues périodes dans des datawarehouses où on va les repêcher à intervalles plus ou moins longs.

Parce qu’il s’agit de faire émerger des tendances, des informations, des corrélations nouvelles, qu’on n’a pas pu découvrir par le passé, faute d’outils, de puissance de traitement, et de données suffisamment diverses et nombreuses.

Vélocité

Les usages potentiels?

Une méga-liste à la Prévert. Quelques exemples?

analyse prédictive et maintenance prédictive dans le monde industriel
optimisation de réseaux en tous genres (informatiques, logistiques, sociaux…)
analyse prédictive en médecine
optimisation de flux (circulation routière, migrations de population…)
analyse des comportements des client
prédiction d’intrusions
optimiser de l’efficience énergétique
prévision climatologique et environnementale
exploration pétrolière
études sismiques…

Toutes les “big data” ne se traitent pas à la même vitesse. Tout dépend de la nature des jeux de données et des objectifs que l’on se fixe. Mais le fait est que l’époque est à la réactivité. Et pas seulement en raison de l’accélération des modes de communications et de la pression de l’instantané.

“Dans le contexte économique actuel”, souligne par exemple Pierre-Paul Fares, responsable de l’unité Business Intelligence & Advanced Analytics de NRB, “il est important, pour toute entreprise de préserver ses différenciateurs concurrentiels. Et cela passe notamment par la maîtrise de l’information et la vitesse de mise à disposition des éléments sur lesquels décider et agir.”

Il s’aventure même à pousser le raisonnement très loin, imaginant un monde où – en tout cas dans le registre marketing – les entreprises, marques et enseignes géreraient leur stratégie et leur relation client en mode purement instantané.

“A terme, il est envisageable que nous n’ayons plus besoin de grosses structures de stockage, de grosses bases de données. Toute l’analyse CRM se ferait en Hadoop, sur base des informations puisées par exemple dans les réseaux sociaux. Une sorte de crowdsourcing orienté qualification client. Le client devient en effet de plus en plus mouvant. Stocker son profil à des fins d’analyse historique perd de son sens. Nous sommes dans la réactivité, dans la mouvance.

Les outils de support doivent donc devenir temps réel, pour capter les changements d’humeur du client qui, lui, ne se donne plus de longues périodes de réflexion comme c’était le cas hier. Il est dans la réaction-action. Dans un tel contexte, l’information perd de sa valeur avec le temps. Cela n’a plus rien à voir avec la pérennité qui prévalait avec les concepts de business intelligence…”

Valeur

Les méga-données, en soi, ne sont pas porteuses de plus de valeur. L’augmentation du volume disponible accroît certes la richesse potentielle d’informations qu’on peut y dénicher et en déduire. Mais encore faut-il les utiliser à bon escient et trouver dans cette méga-botte l’aiguille que l’on recherche. d’autant plus que données massives impliquent aussi une pureté moindre des données. Comme le dit Marc Santerre d’UCB dans notre article consacré à la qualité des données , “il serait illusoire de croire pouvoir contrôler la qualité des méga-jeux de données qui se chiffrent parfois en téra-octets.”

Tout l’enjeu réside donc dans la “valorisation” de ces amas. “Il faut organiser correctement les données”, souligne Philippe Mack, directeur général de Pepite. Et ce, très en amont dans le processus. Avant de se lancer dans le big data, toute société doit d’abord apprendre à “comprendre le cycle de valorisation des données et, petit à petit, mettre des choses plus ambitieuses en oeuvre.”

L’un des avantages majeurs des mégadonnées – de par justement les volumes et la variété de données qui se prêtent désormais aux traitements – est de permettre de faire émerger des informations, des perspectives jusqu’alors insoupçonnées.

C’est dans cet esprit-là, par exemple, qu’UCB a transformé son département BI en département “Digital & Analytics” et a revu de manière assez fondamentale ses méthodes d’analyse, abandonnant l’approche historique (basé sur un datawarehouse classique pour adopter une démarche de type “data lab”.

Marc Santerre (UCB): “Nous imaginons des questions et scénarios en recourant à des méthodologies inconnues jusqu’alors.”

“Nous recourons désormais tant à des données internes qu’à des sources de données externes: données venant d’études cliniques, données de ventes, de marketing stratégique, données de prescriptions pharmaceutiques [ces données sont disponibles sous forme d’open data aux Etats-Unis], chiffres de la concurrence… Nous imaginons des questions et scénarios en recourant à des méthodologies inconnues jusqu’alors”, déclare Marc Santerre, vice-président IT Enterprise Technology chez UCB. “L’objectif? Combiner des données qui ne l’avaient jamais été auparavant pour identifier de nouvelles manières, innovantes, de faire parler les chiffres.”

Et les finalités sont nombreuses et variées: segmentation des ventes, analyse commerciale, recrutement de patients qui participeront à des études cliniques, création de “panoramas” d’intelligence concurrentielle (caractérisation de la concurrence), marketing stratégique, analyse comportementale (dans ce dernier cas, en recourant aussi aux données puisées dans les réseaux sociaux), …

UCB a par exemple utilisé les big data, combinant données commerciales internes et données disponibles sur Internet, pour optimiser ses ventes aux Etats-Unis, procédant à une resegmentation de sa clientèle. Autre type de projet: le calcul de la probabilité de mise sur le marché d’un nouveau produit, “afin de déterminer qu’elle est la bonne approche pour entrer sur un marché.”

UCB a également adapté ses méthodes d’analyse. Chaque question à laquelle l’analyse par croisement et malaxage de mégadonnées doit répondre est formulée dans l’espoir de dégager des enseignements et conclusions à valeur ajoutée pour ses activités ou pour les projets auxquels elle se rapporte.

Dans le secteur hyperconcurrentiel qui est le sien (le pharmaceutique), l’important pour UCB est de dégager des pistes différenciatrices, une valeur ajoutée nouvelle… “Nous travaillons dans deux axes: accélérer la mise sur le marché et maîtriser les coûts de cette mise sur le marché.”

La “vélocité” est donc essentielle. Et cela se traduit dans les méthodes utilisées. “Nous travaillons par segments (“sprints”) courts, de maximum 50 jours.” Si l’équipe d’analyse s’aperçoit, avant que ce délai de 50 jours arrive à échéance, que le projet, la question posée, les sources de données sollicitées ne donnent pas de résultat ou pas suffisamment, le projet est abandonné.

“Il faut éviter au maximum toute perte de temps. Chaque étape que nous définissons à des points de sortie. Si le déroulement n’est pas convaincant, on arrête. Si le projet [dans ce “sprint” de 50 jours] semble convaincant, on repart pour une deuxième durée de 50 jours. Mais il n’y a jamais plus de 3 “sprints” consécutifs. Si les trois étapes sont convaincantes, UCB passe ensuite à l’industrialisation du projet, en revenant à des méthodes de gestion de projet plus classiques.”

Et de multiples projets se déroulent simultanément, en “sprints” parallèles, où les vastes jeux de données sont malaxés pour trouver des réponses et des conclusions aux diverses questions imaginées. En mai de cette année, pas moins de 20 de ces processus étaient en cours simultanément. Ce qui nécessite d’ailleurs le recrutement de nouvelles personnes pour venir renforcer les effectifs du département. Il compte aujourd’hui quelque 30 collaborateurs. 12 autres sont recherchés, présentant soit un profil de “data scientist”, soit ayant “acquis une expérience en transformation numérique de société.”

Regional-IT Toute l'information sur les startups et les TICs en région Wallonie-Bruxelles

Volumes? Tout est relatif

La vraie différence

Défis technologiques

Vélocité

Les usages potentiels?

Valeur

Thèmes

Regional-IT Toute l'information sur les startups et les TICs en région Wallonie-Bruxelles

Big data: ‘big’ mais aussi et surtout hétéroclites

Volumes? Tout est relatif

La vraie différence

Défis technologiques

Vélocité

Les usages potentiels?

Valeur

Découvrez-nous sur Facebook

Suivez-nous sur Twitter

Retrouvez-nous sur LinkedIn

Thèmes

Connectez-vous à votre espace membre sur Régional-IT