Métadonnées : ouvrez la boîte noire de vos pipelines de données
Irina Slavitch, Experte en data integration, Chez Fivetran
Les pipelines d’intégration de données fournissent des données précieuses des producteurs aux consommateurs, mais même les meilleurs pipelines peuvent se briser. Que se passe-t-il alors ?
L’ère du big data et le passage au cloud ont poussé les équipes data à innover dans la construction de leurs écosystèmes de données. C’est une nécessité, car les organisations s’efforcent d’être davantage axées sur les données. Les entreprises ne peuvent plus attendre des jours pour obtenir les données nécessaires à la prise d’une décision immédiate. Les pipelines de données supportent plus que jamais des analyses opérationnelles, en temps réel et basées sur des événements, en plus des rapports de base exigés par les dirigeants.
Qu’est-ce que les métadonnées actives ?
Pendant une vingtaine d’années, les entreprises ont dépensé des millions pour leurs métadonnées et des outils de catalogage de données d’une valeur de plusieurs milliards de dollars ont vu le jour. Pourtant, l’année dernière, le Gartner déclarait que « les pratiques traditionnelles en matière de métadonnées étaient insuffisantes ». Cela s’explique par le fait que cette époque a été marquée par des catalogues de données passifs, qui regroupent des métadonnées provenant de différentes parties du data stack et les laissent stagner. Le problème du « trop grand nombre d’outils » a été résolu en ajoutant… un autre outil.
Les métadonnées actives renvoient des métadonnées dans chaque outil du data stack, donnant aux équipes de données un contexte où et quand elles en ont besoin : dans Slack lorsque quelqu’un envoie le lien vers une ressource, dans l’éditeur de requêtes lorsqu’elles essaient de trouver la bonne colonne et dans Jira lorsqu’elles créent des tickets pour les ingénieurs data ou les analystes. Les métadonnées peuvent ainsi circuler rapidement et sans effort dans l’ensemble du data stack, en intégrant un contexte et des informations enrichis partout où les professionnels des données passent leur temps.
Quatre façons dont les métadonnées actives peuvent éclairer vos pipelines de données
Possibilité de découverte : Les métadonnées telles que les descriptions, la propriété, les certifications et les classifications de données aident les utilisateurs à trouver les données dont ils ont besoin, à savoir s’ils peuvent s’y fier et à savoir à qui s’adresser si quelque chose leur semble anormal. Cependant, pour que ces métadonnées soient activées, elles doivent être fournies au consommateur dans le cadre d’un workflow qui lui est familier.
Analyse des causes profondes : Des événements se produisent tels que des modifications des données en amont ou de nouveaux schémas. Diagnostiquer où et ce qui s’est passé nécessite des métadonnées actives. Il est possible de les intégrer à vos pipelines existants ou à vos process, en utilisant les métadonnées opérationnelles pour détecter quand quelque chose ne va pas et déclencher des annonces aux utilisateurs. À un niveau plus fondamental, des informations telles que la date de la dernière exécution, les indicateurs de succès et les propriétaires de pipelines sont visibles pour accélérer l’analyse des causes profondes.
Analyse de l’impact : En activant les métadonnées, vous pouvez générer des liens au niveau des colonnes sur l’ensemble de votre pipeline de données en apportant les informations directement dans votre processus Git, de sorte que toute demande d’extraction génère automatiquement un rapport d’impact de tous les actifs qui seraient affectés si vous apportiez vos modifications.
Optimisation des coûts : Les coûts d’informatique en cloud et de stockage sont l’un des éléments les plus onéreux de votre data stack, si ce n’est le plus onéreux. L’utilisation des métadonnées pour identifier les données sans lignage permet aux entreprises de nettoyer les tables inutilisées ou orphelines. Grâce à ces informations, vous pouvez apporter de légères modifications à la structure des requêtes ou allouer intelligemment les ressources informatiques afin de réaliser des économies substantielles.
En facilitant la compréhension du flux de données à travers le data stack, la traçabilité des données jusqu’à leur origine au niveau des colonnes, l’analyse des causes profondes des tableaux de bord défectueux et la notification des consommateurs de données en aval, les ingénieurs data peuvent ainsi renforcer la confiance et la visibilité pour l’ensemble de l’organisation. Pendant ce temps, les analystes de données peuvent obtenir un contexte complet sur les sources, les connecteurs et les destinations qui alimentent leurs tableaux de bord sans quitter ces derniers.