Quand la pollution s’invite dans les données


Share Button
Quand la pollution s’invite dans les données

Nous exploitons toujours plus de données en tout genre dans les nouveaux écosystèmes analytiques. Nous engrangeons de la pollution qui va poser des problèmes à l’Intelligence Artificielle (IA). Il nous faut alors prendre un peu de recul pour tenter de dégager des axes fondamentaux d’amélioration.

Par Pascal MUCKENHIRN*

La pollution se multiplie au sein des nouveaux écosystèmes analytiques

L’ouverture de l’analytique traditionnelle aux nouvelles techniques issues du Big Data et du prédictif, en particulier les réseaux de neurones profonds, a engendré l’apparition de nouveaux facteurs de pollution des données. Avant de continuer, définissons ce que nous entendons par « pollution des données ». Il s’agit de la dégradation, directe ou indirecte, des données, ce qui entraîne des détériorations susceptibles de perturber leur utilisation dans les écosystèmes d’analyse.

Tout a commencé avec la BI libre-service. Au nom du temps passé à intégrer les nouvelles données par les IT, les métiers ont souhaité y avoir accès plus rapidement. Les IT ont ouvert la boîte de Pandore et avec, le relâchement des contrôles qui peuvent parfois sembler superflus aux personnes qui ont hâte d’extraire cette valeur tant promise. Ce qui a tendance à limiter/entraver le partage des contrôles effectués par chacun ou à produire plus de pollution.

Deep Learning et Machine Learning

Est venu ensuite le Deep Learning avec ses besoins énormes en échantillons d’apprentissage. Cela nécessite parfois de solliciter, via des plateformes, des participant.e.s pour recueillir leurs décisions. Par exemple, dans le cadre de la voiture autonome, pour régler le problème des dilemmes moraux, les chercheur.se.s ont bâti une base de plusieurs millions de réponses humaines qui peuvent servir de base d’apprentissage pour un algorithme. Même s’il existe des algorithmes de redressement d’erreur comme une analyse factorielle qui croise des données sociodémographiques et les réponses fournies, nous ne sommes pas à la merci d’influenceurs en tout genre. Sans oublier que les hackers ne se sont pas encore trop amusés avec l’IA.

On ajoute à cela les biais d’apprentissage, ou les relations de cause à effet trop vite déduites d’une corrélation fortuite. Les données collectées sur les réseaux sociaux comportent une grande part de bruit. Ainsi, les robots sont sources de pollution.

Le Machine Learning révèle et amplifie les défauts. Il n’a pas la souplesse de faire avec. Le besoin d’immédiateté et la tendance à tout collecter bien avant d’utiliser les données dans la couche de données brutes (Raw Data) du Datalake décalent la question de la qualification des données au moment de l’usage autonome et laisse rentrer les défauts qui, dans certains cas, peuvent être des signaux faibles d’alerte. Cependant, on le constate, les contrôles autonomes ne sont pas forcément complets ou bien chacun les refait à sa sauce, générant ainsi des surcoûts de productivité.

Entreprise de dépollution

La dépollution n’est pourtant pas si évidente… Le bon sens nous dit d’agir au plus près de la source de pollution, mais la réalité est tout autre, surtout en intégrant des données Open Data, de parcours Internet ou multipartenaires. L’analytique, dans sa vision transverse, récolte toutes les misères du monde.

Une première solution pour pallier ce problème est la culture de la vigilance. Face au dilemme entre la facilité de faire parler les données, et la conscience de prendre le temps de valider ses jeux de données, il est temps de favoriser la seconde, surtout dans une approche de Data Factory. On constate parfois une grande naïveté face à la donnée qui est déconcertante.

Une seconde solution est incluse dans le vocable générique de la gouvernance de la donnée qui englobe la qualité. Cette gouvernance est à appréhender sur plusieurs points ; et surtout elle ne se réduit pas au seul catalogage de la description des données dans un dictionnaire. Elle doit appréhender la dynamique du cycle de vie de la donnée.

Quelles bonnes pratiques ?

On peut commencer par la mise en place d’un système d’alerte du niveau de qualité des données, puis aller vers une notation de la renommée des sources. On peut aussi travailler sur la traçabilité en analysant l’authenticité du créateur d’un fichier et la non modification du fichier. Il est important pour réussir la gouvernance d’exploiter les capacités d’une équipe centrale réduite, agile et interfonctionnelle. Elle favorise la création d’informations métiers précises et cohérentes qui répondent aux besoins et améliorent la qualité. Sa force est de croiser les connaissances pour détecter plus vite les risques de non qualité. 

La qualité évolue et doit être revue à intervalle régulier – l’idéal étant à chaque injection ou par profiling périodique. Le rêve serait une appli de type Yuka qui, sur chaque colonne, serait capable de donner son niveau de qualité. En attendant, il reste bien d’autres solutions à exploiter…

Lire/Relire aussi : La Green Tech est-elle la réponse à la pollution numérique ?

Découvrez nos formations

*Pascal MUCKENHIRN

Expert de la Business Intelligence, consultant en systèmes d’information depuis plus de vingt ans, spécialiste des migrations de SI Décisionnel (SID), il aide aujourd’hui les entreprises à intégrer le Big Data dans le SID pour profiter des opportunités tout en maîtrisant les coûts.

Share Button

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *