Google n’est pas la première entreprise à lancer une solution dédiée, mais ses efforts renforcent l’évolution du secteur vers l’offre de fonctionnalités de type « Lakehouse » sous différentes formes – comme le font depuis un certain temps les fournisseurs de logiciels Cloud Databricks et Snowflake – dans le but ultime d’aider les entreprises à répondre à un plus grand nombre de cas d’utilisation, y compris la convergence des analyses commerciales de base et de la data science plus avancée au même endroit. Alors, qu’est-ce qu’un Data Lakehouse, est-il à la hauteur de sa réputation et comment les entreprises peuvent-elles décider si elles en ont besoin ?
Data Warehouse ou Data Lake
Le Data Lakehouse cherche à réunir les meilleures caractéristiques – et à surmonter les limites respectives – des deux systèmes fondamentaux de stockage dans le cloud qui se trouvent au centre du Data Stack : les Data Warehouse et les Data Lakes. Tous deux sont des destinations où les données brutes sont chargées (et où elles sont transformées dans un format prêt à être analysé) et la source qui alimente les différents moteurs d’analyse qui se trouvent au sommet du Data Stack. L’un des moteurs d’analyse les plus courants est la Business Intelligence, qui fournit des tableaux de bord, des rapports et des visualisations pour des fonctions commerciales plus larges – du directeur financier aux responsables marketing en effectuant des analyses descriptives sur des « données structurées ». Le Data Warehouse, avec ses lignes et ses colonnes hautement organisées, aide les outils de BI à réaliser cette tâche.
Mais toutes les données collectées par une entreprise ne sont pas structurées, pensez aux factures ou aux fichiers multimédias et peu d’entreprises peuvent se permettre le coût relativement élevé associé au Data Warehouse. C’est pourquoi de nombreuses entreprises commencent par utiliser des Data Lakes. Rapides à interroger et capables de contenir d’énormes volumes de données structurées ou non, les Data Lakes peuvent être à la fois une bénédiction et une malédiction. Les entreprises qui s’y fient pour tous leurs besoins en matière d’analyse ont tendance à les dépasser, les volumes de données toujours plus importants brouillant les pistes et rendant les processus d’analyse quotidiens difficiles. En effet, le véritable pouvoir des Data Lakes réside dans leur potentiel exploratoire et prédictif. Les utilisateurs finaux des Data Lakes sont les data scientists, qui entraînent les algorithmes du Machine Learning à reconnaître de nouveaux modèles dans les données et à établir des liens entre des informations précédemment non reliées.
Avantages et inconvénients d’un Data Warehouse
La plus grande promesse d’un Data Warehouse est la possibilité d’effectuer des analyses rétrospectives et des analyses prospectives pilotées par le Machine Learning sur le même ensemble de données et au même endroit. En combinant les performances et la convivialité des Data Warehouse avec l’agilité et la diversité des applications des Data Lakes, les entreprises peuvent, en théorie, répondre à un plus grand nombre de cas d’utilisation et découvrir des opportunités de marché différenciantes, sans avoir à gérer deux systèmes parallèles. Dans un contexte d’augmentation des dépenses d’infrastructure dans le Cloud, il n’est pas surprenant que des fournisseurs comme Google se lancent dans l’espace des Data Lakes, les réalités commerciales ne justifieront probablement pas une adoption à grande échelle avant un certain temps, pour la simple raison que la plupart des entreprises n’ont pas encore atteint un point de maturité de leurs données où elles peuvent raisonnablement ou efficacement exploiter le Machine Learning ou l’intelligence artificielle.
En fait, Dimensional Research a constaté que les analystes de données perdent un tiers de leur temps à attendre des ressources d’ingénierie Data simplement pour rendre les données accessibles – et le fait de devoir effectuer des tâches en dehors de leur rôle signifie que seulement la moitié de leur temps est consacré à l’analyse des données. Et il ne s’agit là que de l’analyse des données. Engager des data scientists pour construire des algorithmes complexes sur des données qui ne répondent même pas aux besoins quotidiens d’une entreprise en matière d’analyse peut être une dure confrontation avec la réalité et une courbe d’apprentissage coûteuse.
Marcher avant de courir – se concentrer sur la gouvernance des données
Une bonne gouvernance des données signifie que des politiques, des processus, des rôles et des technologies solides sont en place pour garantir la disponibilité, l’utilisabilité, l’intégrité et la sécurité des données. En d’autres termes, les bonnes personnes ont accès aux bonnes données et ces dernières sont à la fois fiables et traitées de manière appropriée. Une fois ces « règles de base » établies, les Data Warehouse et les Data Lakes peuvent servir les entreprises avec succès et de manière durable, même si leur data stack évolue. Une solide gouvernance des données ouvre également la porte à la démocratisation des données lorsque différentes unités commerciales peuvent librement examiner et manipuler les données pertinentes qui sont mises à leur disposition ainsi qu’aux programmes d’initiation aux données. Ainsi, si un représentant commercial de votre équipe est à la fois capable et motivé pour consulter les derniers tableaux de bord avant de se rendre à une réunion, et que les informations glanées peuvent informer et influencer les résultats de cette réunion, vous êtes déjà gagnant en matière de prise de décision basée sur les données.
En fin de compte, bien que le Data Lakehouse ait le potentiel de prendre en charge des cas d’utilisation divers et avancés et qu’il puisse convenir à certains, la question que la plupart des organisations devraient se poser est la suivante : s’agit-il de la meilleure solution pour répondre à nos besoins commerciaux actuels et futurs ?