Data lakes et gouvernance de la donnée
- Olivier Marquis
- 3 juin 2021
- 1.4k vues
- Environ 3 minutes de lecture
L’année 2017 marquait l’arrivée en force des Data lakes censés centraliser l’intégralité de la donnée client et la rendre utilisable par l’ensemble des métiers. Véritables agrégateurs de la donnée marketing, ils devaient apporter une vue globale sur le comportement des clients et permettre d’en tirer de nouveaux enseignements. Avec quelques années de recul, est-ce que ces Data lakes ont tenu leurs promesses ou ne sont-ils qu’un élément d’une vision plus globale de la bonne gestion de la donnée client ?
Les promesses des Data Lakes
Pour chaque entreprise B2C ou B2B, la gestion et l’organisation de la donnée client est un graal dont il faut disposer afin d’optimiser ses actions marketing. Cette vision au cœur de l’ADN de Kiss The Bride a été consolidée ces dernières années par l’émergence de nouvelles technologiques permettant de gérer l’afflux de données clients. Une nouvelle structure d’enregistrement de la donnée est apparue : le Data lake.
Plutôt que de valider, structurer et organiser la donnée, l’idée est de stocker les données « brutes » pour les avoir à disposition et pouvoir implicitement en tirer profit. La promesse mise en avant était moins de se préoccuper de l’apport de donnée, via sa structuration ou sa qualité, mais de simplement en disposer en faisant confiance aux nouvelles technologies pour l’exploiter du mieux possible.
Nous nous sommes donc retrouvés face à une « opposition » entre les modèles classiques d’organisation de la donnée dans des bases SQL ou NoSQL et l’émergence de ces Data lakes permettant de stocker rapidement et à moindre coût des nouvelles typologies et nouveaux volumes de données.
En termes de connaissance client, on a pu s’imaginer disposer de toute cette masse de donnée aussi volatile qu’elle soit. De nombreux espoirs ont alors été mis sur l’analyse de l’ensemble des interactions clients via les Data lakes : achats via les remontées de vente, interactions sur les réseaux sociaux ou avis sur les forums d’échanges entre consommateurs.
Cependant stocker de la donnée ne veut pas dire exploiter de la donnée. Les Data lakes ont été confrontés aux mêmes écueils d’organisation, de structuration et de gestion de la donnée qui sont communs aux bases de données plus traditionnelles.
Confrontés à l’opérationnel
Les Data lakes ne sont pas des outils miracle, ils doivent s’intégrer dans une vision, une gouvernance de la donnée qui est le prérequis de sa bonne utilisation.
Il faut d’abord réussir à se défaire de l’héritage des modèles de gestion qui ne sont pas orientés Data first. Dans les entreprises où les données restent extrêmement silotées, l’enjeu de la bonne utilisation des Data lakes se trouve dépassé par celui de l’organisation de la donnée. On essaie classiquement de s’en remettre à un outil technique alors que la problématique est avant tout organisationnelle.
Ces Data lakes ont été vus comme un must-have dans de nombreux réseaux de vente physiques qui sont ensuite passés à l’ère du eCommerce. Les plateformes web ont, par leur technicité, une organisation native de la donnée client. Elle est directement consolidée et apte à s’interfacer avec des Data lakes. En revanche, vouloir agréger toute la donnée client, web, magasin ou comportementale, dans un Data lake ne peut avoir de sens que si toute cette donnée est aussi bien structurée et organisée que celle venant des sites eCommerce.
L’un des écueils a été de négliger cette non-organisation de la donnée et de vouloir exploiter des Data lakes sans maitrise, rendant alors impossible l’exploitation de cette information client. Les principaux problèmes rencontrés reposent sur l’hétérogénéité des données et sur son éparpillement en silos. Les Data lakes ne peuvent gérer les doublons clients, garantir l’unicité d’une nomenclature d’articles ou réorganiser des référentiels d’offres marketing. Il faut gérer ces problématiques en amont. Les Data lakes peuvent être un outil pour y répondre, mais pas directement une solution.
D’un point de vue plus technique, les premiers Data lakes n’étaient pas assez aboutis sur la gestion de la donnée. Vu comme un élément isolé, ils n’embarquaient pas l’ensemble des outils nécessaires à leur gestion : Data Pipeline, Data Loading, performance de requête, … De nouvelles solutions continuent d’ailleurs à émerger aujourd’hui permettant de relever ces enjeux (Snowflake, Databricks, Data Lake on AWS, …).
Data lakes : la solution miracle ?
On le constate aujourd’hui, les Data lakes ne sont pas la solution miracle pour exploiter et tirer le maximum des données clients, car ils ne sont en fait qu’un outil technique pour organiser et gérer la donnée. Cette vision, bien appréhendée dans le monde de la data, a été corroborée par les difficultés rencontrées par la mise en place de Data lakes sans œuvrer en amont sur la gouvernance de la donnée.
Gouverner la donnée c’est l’ordonner, la préparer et la convertir pour la rendre utilisable par le métier. C’est cette gouvernance qui doit s’appuyer sur des outils tels que les Data lakes. Elle est le prérequis pour mieux gérer la donnée dans les organisations de vente. Elle se traduit généralement par la mise en place d’une organisation capable de fédérer et d’opérer autour de la donnée. Les Data Stewarts, Data Analysts, Data Engineers et Data Managers sont les acteurs de la mise en application de cette gouvernance. A eux de définir l’ensemble des process et architectures techniques qui permettront d’exploiter au maximum la donnée client pour permettre aux métiers d’en profiter.
Les faux espoirs mis dans les Data lakes ont permis de renforcer le rôle primordial de la gouvernance de la donnée au sein de nos structures marketing. Chez Kiss The Bride, cette gouvernance nous permet d’unifier des nomenclatures articles, d’harmoniser des référentiels clients, de prédire des comportements de consommation et de proposer des solutions de Dataviz les plus justes possibles. C’est cette organisation des équipes Data et l’utilisation des technologies les plus adaptées qui instaure une vraie gouvernance de la donnée dans nos structures, permettant ainsi de relever les défis de l’exploitation des données clients B2C et B2B.
>> Pour aller plus loin découvrez notre livre blanc sur la data :
0 commentaire