Au-delà de l’intégration des données : pourquoi le mouvement des données est l’avenir
Irina Slavitch, Experte en data integration, Chez Fivetran
Les utilisations futures des données nécessiteront une plateforme automatisée de circulation des données, et pas seulement des data pipeline en tant que solutions uniques.
L’adoption rapide de l’informatique dématérialisée a radicalement changé les réalités de l’utilisation et du traitement des données. La prolifération des sources de données telles que les applications, les bases de données opérationnelles, les systèmes de fichiers, les flux de données et bien d’autres encore, a entraîné celle des outils, de l’infrastructure et des processus de traitement des données. Ces nouvelles approches permettent souvent l’automatisation et le traitement en temps réel. Il en résulte qu’au-delà de la centralisation des données pour soutenir les décisions, il existe aujourd’hui de plus en plus d’opportunités d’opérationnaliser les données et de les intégrer dans des produits innovants.
À la lumière de cette nouvelle réalité, l’expression « intégration des données » ne décrit plus correctement les activités qui soutiennent les utilisations finales des données. Un meilleur modèle de réflexion sur la manière de traiter les données est celui du « mouvement des données ». L’intégration des données centralise les données afin d’établir une source unique de vérité pour l’analyse. Il s’agit fondamentalement d’un processus unidirectionnel, dans lequel les données circulent de différentes sources vers une destination centrale. En revanche, pour les utilisations opérationnelles ou axées sur les produits, les données doivent circuler dans de nombreuses directions entre plusieurs types de plateformes.
Une organisation peut répliquer des données sur des systèmes opérationnels répartis dans différentes régions afin que les utilisateurs puissent accéder aux serveurs locaux avec moins de temps de latence. Pour éviter les interruptions en cas de défaillance, une organisation peut intégrer des redondances dans ses opérations en répliquant les données en temps réel et en grand volume depuis les serveurs de production vers les instances de basculement. D’autres cas d’utilisation du mouvement des données nécessitent la mise en production ou l’activation des données en déplaçant les modèles de données vers les applications et les systèmes opérationnels. Les modèles prédictifs, par exemple, dépendent des ensembles de formation, de test et de validation présents dans les systèmes opérationnels. Mais le cas d’utilisation le plus simple pour l’activation des données consiste simplement à rendre les données disponibles en temps réel pour les personnes au sein d’une organisation ou à les introduire dans les systèmes afin d’automatiser les processus d’entreprise.
À mesure que les organisations développent leur utilisation des données, elles doivent également assumer certaines obligations et responsabilités concernant les données. Afin d’étendre l’utilisation des données de manière responsable, les organisations doivent utiliser des outils qui peuvent soutenir la gouvernance, la sécurité et l’extensibilité des données.
La gouvernance des données est essentielle pour permettre aux organisations de connaître, d’accéder et de protéger leurs données. Les fonctions de gouvernance des données comprennent l’intégration facile avec les catalogues de données, l’exposition graphique des modèles de données, la capture des métadonnées et d’autres outils d’audit. La gestion d’une plateforme de données via une API permet également à une organisation de gouverner systématiquement ses données. Sans gouvernance, les organisations sont confrontées à une prolifération incontrôlée des actifs de données accompagnée d’une hausse des dépenses liées au cloud. Les organisations courent également le risque de refuser presque complètement ou d’ouvrir complètement l’accès aux données sensibles et une utilisation abusive ou à une exposition non désirée.
Dans le même ordre d’idées, les fonctions de sécurité sont indispensables pour garantir la conformité réglementaire, protéger les opérations internes et la propriété intellectuelle, sauvegarder les informations sur les clients et d’autres données critiques de l’entreprise d’une manière éthique lorsqu’elles sont déplacées. En ce qui concerne la sécurité des plateformes, les caractéristiques communes comprennent un déploiement flexible et des options de réseau sécurisées, des certifications de conformité à la sécurité pour les plateformes SaaS, la protection des données par chiffrement de bout en bout et l’isolation des process.
Enfin, les fonctions d’extensibilité permettent à une organisation de contrôler par programme un écosystème croissant d’outils de gestion des données et d’intégrer des ressources de données dans des produits. Au fur et à mesure que les besoins en données augmentent en taille et en complexité, les organisations doivent être en mesure de gérer les utilisateurs à grande échelle, de s’intégrer à d’autres technologies d’exploitation des données et d’élaborer des process et des workflow personnalisés qui dépendent des données.
Lorsqu’il s’agit de l’éventail complet des utilisations possibles des données, le cas d’utilisation analytique classique, soutenu par l’intégration des données, n’est que la partie émergée de l’iceberg. Pour que votre organisation soit compétitive et innovante, vous devrez déplacer des données en temps réel dans de nombreuses directions vers des plateformes analytiques et opérationnelles. Sans ces capacités, votre entreprise sacrifie des opportunités d’innovation ainsi que l’agilité et la réactivité face à des marchés dynamiques et en évolution rapide.