Contenu du billet
Le salon du Big Data s’est tenu le 12-13 mars 2018. Pour Artik Consulting, cet évènement qui rassemble de très nombreux acteurs de la donnée est l’occasion de revenir sur l’évolution des Big Data tant en termes technologique que stratégique.
L’objectif est de décrire les tendances de fond et les signaux faibles de ce secteur. Il dresse un panorama de certains outils ou technologies appliquées au Big Data : plateformes de traitement, data visualisation, réseaux neuronaux…
Illustration 1, Air Liquide – REX TIBCO Spotfire
« Comment Air Liquide optimise l’efficacité économique de ses usines grâce à TIBCO Spotfire, plateforme de traitement en temps réel, de data visualisation et analytique avancée ? »
Réponse, en utilisant des algorithmes basés sur l’empirisme, applicables à d’autres systèmes qu’aux usines.
Volumétrie
Cela fait 18 ans qu’Air Liquide a commencé à connecter ses usines. Chaque usine est pourvue de 500 à 800 capteurs, et produit 1 milliard de données par jour. Ce volume pourrait être multiplié par dix sans qu’il y ait à changer le système.
Etapes de mise en place de la solution
Méthodologie
1. Conception de l’algorithme mathématique
2. Développement en R
3. Benchmark, test de l’algorithme sur chacune des solutions envisageables
4. Choix final
Critères de choix
1. Interface de paramétrage accessible pour des utilisateurs au profil métier
2. Solution compatible avec le langage R
3. Temps de calcul courts
4. Nombreux connecteurs disponibles
Résultats
- Cycle d’industrialisation d’un algorithme réduit à 20 minutes.
- Optimisation de la production en temps réel (à l’échelle de l’usine, dans la mesure où de la thermodynamique est en jeux, une latence d’une heure est présente entre le réglage de l’usine et l’effet sur la production).
- Efficacité économique multipliée par dix depuis le déploiement de la solution.
Recommandations
- Il faut raisonner de manière agile, car ce type de solution est long à mettre en place et doit évoluer.
- Il faut prévoir avec attention le dimensionnement en CPU et en mémoire, même si c’est difficile à prédire.
- Il faut mettre l’accent sur la communication. La hiérarchie n’allouera pas de ressource à ce type de projet si elle n’est pas convaincue de son utilité.
La suite du projet
- Rendre le système plus scalable (que l’on puisse aussi bien traiter 5 que 50 milliards de données par jour dans chaque usine) en jouant sur la répartition des charges.
- Améliorer l’algorithme.
- Développer de nouvelles offres grâce à cette solution.
Illustration 2, Coheris – Détection de verbatims litigieux
Dans les champs où les collaborateurs peuvent saisir du texte, des informations personnelles sur les clients peuvent transparaître. Par exemple une phrase telle que « Il ne faut pas déranger cette cliente qui suit un traitement contre le cancer. » révèle des données de santé, ce qui ne sera plus légalement acceptable dans quelques semaines (RGPD).
Coheris propose une solution de détection des verbatims litigieux. Le texte est analysé afin de trouver les mots potentiellement problématiques, en tenant compte des accords, de la conjugaison, des fautes de frappes ou de langue, et surtout, du contexte. Ainsi, le mot « Bible » ne révèle pas la confession du client s’il s’agit de la « Bible des relation client », et le mot « Goujat » n’est pas une insulte s’il s’agit d’un nom propre « Madame Goujat » par exemple. Les textes ainsi analysés sont priorisés en fonction de leur non-conformité, dans le but d’avertir les collaborateurs fautifs et de leur proposer de reformuler les passages problématiques. La mise en place d’une telle solution permet donc une réduction considérable des volumes à traiter manuellement. La solution est paramétrable via une interface graphique, malheureusement peu présentée en séance.
Illustration 3, Artificial Intelligence at SAP – Les machines ont-elles dépassé l’homme ?
La présentation débute avec une vidéo prise du point de vue du conducteur d’une Tesla modèle S en mode autopilote. La voiture s’arrête seule car un accident a lieu devant elle. Le public, lui n’a pas su anticiper l’accident, même en visualisant la vidéo une seconde fois.Comment expliquer que la voiture soit plus apte à anticiper l’accident qu’un humain ?
Premièrement, la voiture a accès à de nombreuses informations grâce aux nombreux capteurs qui l’entourent, tandis que l’humain ne peut compter que sur ses yeux. Deuxièmement, l’intelligence artificielle qui pilote la voiture a été formée à de nombreux scénarios d’accident de la route, contrairement à un humain.
Ainsi, devrions-nous laisser la voiture conduire seule ?
Non, ou du moins pas encore. Des accidents peuvent avoir lieu si l’utilisateur oublie d’activer le pilotage automatique ou si l’intelligence artificielle prend une mauvaise décision. En revanche, statistiquement parlant, les véhicules intelligents sont plus sûrs. Lorsqu’ils seront parfaitement fiables et démocratisés, ils devraient permettre de sauver des milliers de vies humaines.
L’utilisation du Machine Learning, Deep Learning et intelligence artificielle dans la voiture autonome
Machine Learning :
- Sans Machine Learning :
- Élaboration des règles.
- Transmission des consignes au développeur pour qu’il puisse coder.
- Avec Machine Learning :
- Pas de connaissance des règles donc pas d’élaboration des consignes à transmettre au développeur.
- La machine va détecter des motifs récurrents dans les données dont elle dispose afin de déterminer les règles. Elle va trouver un modèle, établir une corrélation entre données d’entrées et résultats.
- Il faut noter que cette approche ne fonctionne que si le futur ressemble au passé, si les règles et donc le modèle n’évoluent pas.
Deep Learning :
Le deep learning est un type de Machine Learning qui met en jeu un réseau neuronal. Plus il y a de neurones, plus le réseau a de couches, plus il y a de puissance de calcul.
Importance de la qualité des données pour les réseaux neuronaux
La détermination d’un modèle par un réseau neuronal est toujours basée sur les données. Si les données en entrée sont de mauvaise qualité, les décisions qui en résulteront le seront tout autant. La qualité de la donnée doit donc être une priorité, en particulier lorsqu’un réseau neuronal est impliqué.
Évolution des volumes de données
Les volumes sont de plus en plus élevés. Un humain ne peut pas adresser de tels volumes.
Traitement du langage naturel
- Avant le Machine Learning :
- Détection de langue.
- Passage par des systèmes expert appliquant les règles permettant de passer d’une
langue à une autre.
- Avec le Machine Learning :
- Logique reposant sur des vecteurs sémantiques, donc sur le sens.
- Passage par un système de type « boite noire ». Il y a une entrée une sortie, sans explications entre les deux.
Transparence des algorithmes
- White box :
- Connaissance des données traitées pour prendre la décision.
- Le système peut restituer le fil logique ayant mené à la décision.
- Black box :
- Systèmes très performants.
- Pas de connaissance des bases sur lesquelles le réseau neuronal a pris la décision.
Chaque système est adapté à différents usages. La transparence est très importante dans l’aide à la décision à l’échelle d’une entreprise car le but pour les collaborateurs est de prendre des décisions éclairées.
La vision de SAP : Machine Learning et entreprise
Dans un premier temps, le Machine Learning permet l’automatisation de tâches laborieuses avec peu de valeur ajoutée. Par la suite, il peut amener à innover et à créer des choses nouvelles. A l’heure actuelle, 76% des transactions du monde passent par un système SAP. L’Intelligence Artificielle permet d’en améliorer la sécurité en détectant les transactions frauduleuses, qui s’écartent des motifs récurrents.

L’IA peut contribuer à plusieurs niveaux
- Exemple à bas niveau : le traitement du langage naturel.
- Exemple à haut niveau : gestion de l’assignation des tickets dans le cadre de la gestion des demandes et incidents.
- Autre exemple : agents conversationnels pour la simplification des interactions Homme – Machine.
Au lieu de passer du temps à apprendre à se servir d’un outil, l’humain échange avec une machine qui s’adapte à lui. Dès lors qu’il y a de la donnée, il est possible de trouver une application du Machine Learning. Dès lors qu’il y a des SLA, il est possible d’essayer de prédire leur évolution.
Quelques exemples
REX, Trenitalia
Amélioration de la maintenance préventive. Si le système est sain a priori, la date d’intervention planifiée est repoussée, ce qui évite à des agents de se mobiliser.
MBANK
MBANK est la première banque en ligne de Pologne. En tant que banque en ligne, MBANK n’a pas d’agence et communique donc par email, sur les smartphones. Son projet était de profiler les clients pour comprendre leurs comportements.
Grâce au profiling, la banque a fait évoluer son modèle économique en créant une agence publicitaire interne à la banque. Elle fait désormais la promotion des produits partenaires en fonction des profils utilisateurs, ce qui constitue une nouvelle source de revenu.
Retail (une boutique londonienne)
- Une machine analyse le style vestimentaire du client.
- Elle releve des couleurs que porte le client.
- Le client exprime ses souhaits vestimentaires.
- La machine projette une recommandation sur les mannequins et propose des accessoires assortis.
- Un vendeur agit de manière conversationnelle avec la machine. « Quelles sont les tendances de Londres ? »
- La machine analyse les stocks du magasin par rapport à ce qui est tendance.
La suite prévue par SAP
SAP revoit son offre pour faciliter interactions. Les solutions choisies sont de type « boites blanches » car les entreprises ont besoin de connaître les raisons des décisions. La solution prévue s’appelle LEONARDO, un système d’innovation basé sur la plateforme HANA (qui contient des algorithmes internes à SAP et des algorithmes externes), les technologies disponibles chez SAP et le design thinking afin de s’assurer que les objectifs stratégiques du client sont atteints.
Illustration 4, Qlik ou la Data Visualisation
Qlik est une solution d’analyse et de visualisation des données née en 1993 d’une demande de Tetrapack en Suède qui voulait analyse des données mais ne trouvait pas de solution adaptée sur le marché. Qlik organise les données via des associations (en opposition à une arborescence) ce qui apporte de la souplesse aux utilisateurs métiers. Des vues par défaut sont proposées pour les utilisateurs les moins aguerris mais tout est paramétrable.
Voici quelques exemples…
L’application d’un IOT dans un aéroport
Naturellement et historiquement le travail des aéroports et des compagnies aérienne est de faire en sorte que les voyageurs et leurs bagages arrivent à bon port. Petit à petit, l’aéroport s’est transformé en place commerciale.
Comment proposer quelque chose de novateur afin d’encourager ce changement en exploitant les
données déjà disponibles ?
Exemple de la mise en relation entre les cartes d’embarquements, les données de vente, et les données de localisation obtenues via le réseau wifi.
Données en entrée
Les cartes d’embarquements permettent d’obtenir la nationalité des voyageurs.
Les données de ventes sont liées à une carte d’embarquement car les voyageurs doivent les présenter en caisse.
La connexion des voyageurs au réseau wifi de l’aéroport permet de connaitre leurs déplacements.
Il faut placer sur un plan en deux dimension, temps passé sur place et argent dépensé ainsi que les nationalités des voyageurs. Nous aimerions que les clients chinois dépensent plus car ils représentent une part de plus en plus grande des voyageurs.
Comment faire pour augmenter les dépenses des clients chinois ? En sélectionnant le point « Chine » dans le graphique, nous pouvons accéder au détail de ce qu’ils achètent. Et nous constatons qu’ils achètent très peu d’articles dans la catégorie « vin et spiritueux ». En reportant sur un plan de l’aéroport les données de localisation obtenues grâce à la connexion wifi des voyageurs, nous constatons qu’il y a de manière générale peu de clients aux alentours de boutiques qui en vendent.
Comment exploiter ces informations ?
L’aéroport peut proposer un service d’aide à la vente ciblée pour aider les commerces à améliorer leur activité. Le rôle de Qlik est de récupérer les données, fournir les visualisations et donc de rendre les données parlantes. Des données qui paraissent hétérogènes mises ensemble ont une plus-value. Une version gratuite de Qlik est disponible sur le site de Qlik Sense.