Pour cette deuxième édition, la Learning Expedition Artik s’est focalisée sur les thématiques du Big Data :

Le principe de la Learning Expedition reste le même, proposer à nos clients un parcours auprès de cinq acteurs qui ont pu présenter leur offre et répondre à nos questions. 

C’est ainsi que Kering, le groupe Pomona, SNCF Mobilité et Réseau, la Société Générale et le groupe Unibail-Rodamco-Westfield ont pu découvrir ou redécouvrir les solutions proposées par DataGalaxy, Gigaspaces, Neo4j, DigDash et Elastic. 

Retour sur une Learning Expedition riche en découvertes. 

DataGalaxy, la plateforme de cartographie des données 

Pour réussir son approche Big Data, il faut connaître ses data ! Tel est le leitmotiv de cette jeune société lyonnaise. Pour cela, DataGalaxy propose une plateforme de cartographie des données. 

Cette solution est née d’un triple constat concernant les données de l’entreprise. Elles sont trop souvent : 

  • Eparpillées 
  • Incomprises 
  • Inaccessibles 

La plateforme a pour vocation de rassembler la connaissance sur la data, de l’expliciter et de la rendre accessible à tous les collaborateurs. 

Il ne s’agit pas de stocker les données en tant que telles, mais des méta-données descriptives et explicatives. 

Afin d’outiller les data-bakers, les principaux composants de la plateforme sont : 

  • Le glossaire, décrivant les données 
  • La modélisation (structures de données) 
  • Les sources de données 
  • Le catalogue de traitements, décrivant l’utilisation qui est faite de chaque donnée 
L’ambition de DataGalaxy : outiller les data bakers.

DataGalaxy n’offre pas la donnée directement – c’est le rôle des applications métier – mais se pose en tant que Wikipédia de la data d’entreprise. 

Des initiatives de cartographie sont parfois réalisées dans une approche top-down, mais le niveau d’implication des équipes opérationnelles est faible. Pour répondre à cet enjeu de gouvernance, DataGalaxy compte sur la force du collaboratif, ou la cartographie participative.

La société a également développé des connecteurs permettant d’explorer les bases de données de l’entreprise et d’en découvrir automatiquement les structures de données. Parmi les technologies supportées : Hadoop, Oracle, PostGreSQL, MySQL, Azure…

GigaSpaces démultiplie les performances du temps réel 

De nombreuses entreprises ne sont pas seulement confrontées aux problématiques Big Data mais rencontrent également un enjeu Fast Data. Les ensembles de données doivent ainsi être traités et analysés en temps réel dès qu’ils sont générés. Les cas d’usage sont, par exemple, l’analyse d’un flux vidéosurveillance pour détecter instantanément les menaces, la livraison de colis avec interactivité client, les transactions bancaires instantanées… 

Pour répondre à cet enjeu, GigaSpaces propose InsightEdge Platform, une plateforme conçue pour faire tourner les applications pour lesquelles les performances temps réel sont cruciales. 

Prenons l’exemple d’une requête sur les données de vol aéroportuaires. Nous souhaitons compter le nombre de vols entre les aéroports JFK et LAX, à partir de l’ensemble des données de vol de l’année. Un job Spark classique, qui charge les données depuis un stockage HDFS et les filtre, s’exécute en 25 secondes. La même requête exécutée par un job Spark sur InsigtEdge prend moins de 2 secondes. La rapidité a été multipliée par 12 ! 

Pour obtenir un tel résultat, la plateforme réalise un traitement in-memory. Toutes les données sont chargées en mémoire, de façon à ne pas perdre de temps avec des accès disque.

Architecture de la plateforme InsighEdge.

InsightEdge peut être déployée en mode Cloud ou on-premise et s’interface avec de multiples sources de données. 

Dans une architecture Big Data typique composée d’une swimline temps réel et d’une swimline batch, la solution s’intègre dans la swimline temps réel. 

Neo4j ouvre la voie aux associations nouvelles 

Neo4j se présente sur le marché du stockage en base de données comme le leader des bases graphes. 

Les bases de données orientées graphe sont conçues pour stocker et rechercher des relations entre des nœuds. 

Une base graphe est composée de nœuds et de relations.

Dans les bases graphe, traverser des relations se fait très rapidement, car les relations entre les nœuds ne sont pas calculées au moment de la demande, mais à l’insertion. Elles sont maintenues dans la base au fil du temps. Les bases graphes possèdent des avantages sur les bases de données relationnelles pour des cas d’utilisation tels que les réseaux sociaux, les moteurs de recommandation ou encore la détection des fraudes, pour lesquelles il est nécessaire d’établir des relations entre des données et d’interroger rapidement ces relations. 

Pour l’anecdote, les bases graphes ont contribués aux révélations des Panama Papers. 

Graphe simplifié des relations ayant contribué aux révélations des Panama Papers.

Voici quelques exemples de cas d’usage : 

Moteurs de recommandation en temps réel 

La recommandation en temps réel est un cas d’usage très fréquent dans le monde retail, des réseaux sociaux ou encore des médias. Cela demande de traiter de gros volumes de données et de relations pour comprendre un contexte. Les problématiques d’ingestion et de traitement temps réel sont classiques des projets Big Data. La particularité vient ici de l’analyse des relations entre chaque donnée, qu’elle soit connue ou nouvelle. 

Les moteurs de recommandation fonctionnant sur un graphe peuvent adopter deux approches majeures : identifier les ressources relevant d’un intérêt pour les individus ou identifier les individus allant probablement s’intéresser à une ressource donnée. 

L’enjeu n’est pas tant de lister toutes les recommandations possibles mais d’obtenir la pertinence du point de vue de l’utilisateur final. 

Neo4j cite notamment ses clients Walmart et eBay, dans le retail, ou encore le succès de Gusto qui tire profit de sa base graphe pour personnaliser les ingrédients des recettes selon les goûts de ses clients. 

Opérations informatiques et réseau 

Les réseaux et environnements informatiques, présentent des interdépendances physiques et humaines extrêmement complexes, ce qui rend la résolution des problèmes difficile. 

Les relations existantes parmi les nœuds d’un réseau ne sont ni purement linéaires ni hiérarchiques. Il est donc difficile de déterminer les interdépendances des éléments les uns envers les autres. En réalité, de par leur nature, les réseaux sont des graphes. Les bases de données de graphes peuvent alors être utilisées efficacement pour stocker des informations de configuration, alerter les opérateurs en temps réel sur les types d’erreur partagés potentiels et raccourcir les temps d’analyse et de résolution des problèmes. Les questions suivantes peuvent enfin obtenir une réponse : de quelles portions de l’infrastructure certains clients particuliers dépendent-ils ? Ou à l’inverse, quels services et applications et, en définitive, quels clients seront affectés si un élément routeur tombe en panne ? Y a-t-il une redondance à travers le réseau pour les clients les plus importants ? 

Les bases de données de graphes sont conçues pour stocker ces données interconnectées, et il est ainsi facile de traduire les données informatiques et réseau en informations exploitables. 

Gestion des données de référence et Knowledge Management 

Un autre cas d’usage classique consiste en la gestion des données de référence. Les données de référence constituent un pilier du fonctionnement de l’entreprise. Nous pouvons citer par exemple : les utilisateurs, les clients, les produits, les comptes, les partenaires, les unités commerciales… Les jeux de données sont souvent complexes et hiérarchiques. Le stockage doit permettre un requêtage en temps réel. Enfin les structures de données peuvent s’avérer dynamiques. La gestion des hiérarchies descendantes des données de référence avec une base de données relationnelle se traduit par un code complexe, bien souvent lent à exécuter, cher à concevoir et long à maintenir. Le graphe est un outil idéal pour représenter les hiérarchies métier qui sont en réalité des réseaux composés des complexités du monde réel et des types de relations. La base graphe est une opportunité de repenser les relations dans l’optique de casser les silos.

C’est par exemple le cas de l’armée des Etats-Unis qui a choisi l’approche graphe pour l’analyse de la maintenance de ses équipements. 

Dans le cadre ses études, le centre allemand de recherche sur le diabète, utilise une modélisation graphe pour offrir aux chercheurs un accès facilité aux données associant les recherches fondamentales et les essais cliniques. 

DigDash dynamise votre reporting

L’avant-dernière étape de ce parcours nous emmène sur le domaine du reporting. 

DigDash se positionne comme un logiciel de tableaux de bord agile permettant la visualisation des données et leur exploration en incluant la dimension analytique. 

La société fondée en 2006 s’est installée à Aix-en-Provence pour développer son produit : la plateforme DigDash Entreprise. Cette plateforme offre les briques pour construire des applications décisionnelles métiers : préparation de données (collecte, agrégation, transformation, …), Data Visualisation (représentations graphiques avancées, interactions, …), publication (Web, mobile, Office, …), analyses avancées (analyse d’ensembles, prédictions, …). Elle est hautement configurable en matière de charte graphique, de processus métiers et d’interactions. 

Le petit plus vient de l’intégration de fonctionnalités basées sur l’IA : les requêtes en langage naturel et la découverte de données. 

Les sources de données peuvent être variées, des données structurées des systèmes décisionnels, formats JSON/XML, aux documents, en passant par les données semi-structurées de type Excel ou CSV. 

La démonstration montrait comment les données des points de ventes d’un commerçant étaient présentées sur une carte du monde (avec le module OpenStreetMap). Cette carte était ensuite exportée vers un document PowerPoint, chaque zone géographique étant réalisée grâce à une forme PowerPoint (et non une simple image globale). Cette très bonne intégration avec le pack Office m’est tout de suite apparue comme un bel avantage, car les présentations en comité de direction ou autres assemblées se font bien souvent à l’aide d’un support PowerPoint.

Visualisation des données sous forme de HeatMap, histogrammes, cartes géographiques…

Elastic indexe vos données et vos logs 

Les solutions Elastic ne sont plus à présenter. Nos clients ont pu (re)découvrir la stack permettant d’ingérer, stocker, indexer et restituer les données. 

La Stack Elastic se compose des classiques Logstash, Elasticsearch et Kibana, mais également de services Cloud, Sécurité et Machine Learning.

Le cas typique du « logging », i.e. analyse des logs a permis d’introduire la nouveauté de la version 6 d’Elastic : le module de Machine Learning. Il faut comprendre par là, l’analyse des données sur une fenêtre temporelle permettant d’en déduire un pattern logique et de détecter des anomalies de comportement. 

Nous pouvons citer bon nombre de clients ayant déjà adopté cette technologie pour l’indexation de logs ou de données métier, tels que La Poste, Kering ou Alianz… 

L’expédition s’est terminée selon la tradition, autour d’une flûte de champagne bien méritée ! Nos invités ont pu échanger leurs impressions, et également renouveler leur intérêt pour ce parcours original d’évolution dans la jungle du Big Data. 

Nous vous donnons donc rendez-vous prochainement pour une Learning Expedition orientée intelligence artificielle ! 

Merci à Cloe Girardin pour l’illustration principale de cet article.