News

Orchestration des workflows data avec précision et observabilité

Dans le monde en constante évolution du traitement des données, construire des pipelines robustes, observables et testables n’est plus un luxe, c’est une nécessité. Lors du Databricks Meetup Belgium (présenté par Flavien Hancart), Dagster a été présenté comme un orchestrateur open-source. Il a démontré comment Dagster s’intègre efficacement avec des outils tels que Azure Data Factory, Databricks et dbt.

  • Qu’est-ce que Dagster ?

Dagster est une plateforme d’orchestration de données pensée pour les architectures data modernes. Contrairement aux orchestrateurs classiques, Dagster propose une orchestration data-aware : il ne se contente pas d’exécuter des tâches, il comprend la structure et le contexte des données manipulées.

Avec Dagster, les pipelines sont scriptés en Python de manière modulaire et déclarative. Les workflows, appelés « jobs », sont constitués de tâches facilement testables, versionnables et observables. Cette approche encourage une séparation claire des responsabilités, facilitant la maintenance et la scalabilité des pipelines.

  • Pourquoi Dagster se démarque ?

Dagster offre une expérience développeur moderne et efficace, avec notamment :
Une interface web (Dagster UI) pour visualiser les workflows en temps réel.
Des capacités de test intégrées, permettant de valider les transformations avant leur mise en production.
Une surveillance et des alertes, pour être immédiatement informé en cas de problème.
Des assets définis par le code (software-defined assets), assurant la traçabilité des données et la gestion des dépendances.

La démonstration de Flavien Hancart a mis en lumière la façon dont Dagster apporte transparence et fiabilité à l’orchestration.

  • L’intégration avec Azure

Dagster peut être positionné comme couche centrale d’orchestration, connectant des services comme Azure Data Factory (ADF) pour l’ingestion, Databricks pour les transformations, et Power BI pour la visualisation.

Azure Data Factory (ADF) peut être déclenché ou surveillé via des jobs Dagster, centralisant ainsi les logs et la gestion. (custom pipeline utilisant les Azure APIs)
Les notebooks et workflows Databricks peuvent être orchestrés directement dans les pipelines Dagster grâce à des intégrations prêtes à l’emploi.
Il est même possible de déclencher des rafraîchissements Power BI à la suite d’étapes de validation de données.

Cette interconnexion permet de construire des pipelines data de bout en bout, testables et entièrement observables sur l’ensemble de la stack Azure, tout en gardant la flexibilité nécessaire aux équipes data.

  • Tests et notifications simplifiés

Avec Dagster, les tests ne sont pas une option secondaire. Des tests unitaires et d’intégration peuvent être définis pour chaque transformation et exécutés automatiquement lors des déploiements. De plus, grâce à la prise en charge native des notifications Slack, email ou webhooks personnalisés, les équipes restent informées à chaque étape, que ce soit en cas de succès ou d’échec d’un pipeline.

  • Conclusion

Dagster est un orchestrateur moderne, pensé pour les besoins des équipes data d’aujourd’hui.