________________________________________________________________
Voulez-vous suivre ce cours à distance ou en personne?
Contactez-nous par email : info@nanforiberica.com , téléphones : +34 91 031 66 78 / +34 605 98 51 30, WhatsApp : +34 685 60 05 91 , ou contactez nos bureaux
________________________________________________________________
Important : Ce cours sera disponible le 18/07/25
Cours DP-3027 : Implémenter une solution d'ingénierie des données avec Azure Databricks
Dans ce cours, découvrez comment exploiter la puissance d’ Apache Spark et des puissants clusters exécutés sur la plateforme Azure Databricks pour exécuter de grandes charges de travail d’ingénierie de données dans le cloud.
Niveau : Débutant - Rôle : Analyste de données, Ingénieur de données, Scientifique des données - Produit : Azure - Sujet : Ingénierie des données
Cours destiné à
Les ingénieurs de données, les scientifiques des données et les développeurs ELT apprennent à exploiter la puissance d' Apache Spark et des puissants clusters exécutés sur la plateforme Azure Databricks pour exécuter de grandes charges de travail d'ingénierie de données dans le cloud.
Objectifs du cours officiel DP-3027
-
Comprendre l’architecture Azure Databricks : familiarisez-vous avec les composants clés de la plateforme et la manière dont ils s’intègrent aux autres services Azure.
-
Mettre en œuvre des techniques d'ingestion de données : Apprenez à capturer des données provenant de plusieurs sources à l'aide d'outils tels que Structured Streaming et Delta Lake
-
Effectuer des transformations et des traitements de données : utilisez Apache Spark pour nettoyer, transformer et préparer les données pour l’analyse ou le stockage.
-
Développez des flux de travail ETL évolutifs : créez des pipelines de données efficaces et réutilisables qui prennent en charge de grands volumes de données.
-
Optimisez les performances des processus : appliquez des stratégies de réglage, de mise à l'échelle automatique et d'observabilité pour améliorer l'efficacité du flux de travail.
-
Implémentez des architectures de streaming avec Delta Live Tables : concevez des solutions en temps réel pour le traitement continu des données.
-
Automatisez les tâches avec Azure Databricks Jobs : orchestrez et planifiez les flux de travail pour réduire les interventions manuelles et accélérer la diffusion des informations.
-
Appliquer CI/CD aux environnements de données : intégrer des pratiques de développement continu pour maintenir la qualité et la stabilité des solutions de données.
Contenu du cours officiel Azure Databricks DP-3027
Module 1 : Exécution d'un traitement incrémentiel avec Spark Structured Streaming
- Introduction
- Configuration des sources de données en temps réel pour le traitement incrémentiel
- Optimisation de Delta Lake pour le traitement incrémentiel dans Azure Databricks
- Gestion des arriérés et des événements hors service dans le traitement incrémentiel
- Stratégies de surveillance et de réglage des performances pour le traitement incrémentiel dans Azure Databricks
- Exercice : Ingestion et traitement en temps réel avec Delta Live Tables dans Azure Databricks
Module 2 : Implémentation de modèles d'architecture de streaming avec Delta Live Tables
- Introduction
- Architectures pilotées par événements avec Delta Live Tables
- Ingestion de données avec streaming structuré
- Maintenir la cohérence et la fiabilité des données grâce au streaming structuré
- Mise à l'échelle des charges de travail de streaming avec Delta Live Tables
- Exercice : Pipeline de streaming de bout en bout avec tables Delta Live
Module 3 : Optimisation des performances avec Spark et Delta Live Tables
- Introduction
- Optimisation des performances avec Spark et Delta Live Tables
- Effectuer une optimisation basée sur les coûts et un réglage des requêtes
- Utilisation de la capture des données modifiées (CDC)
- Utilisation de la mise à l'échelle automatique améliorée
- Mettre en œuvre des mesures d'observabilité et de qualité des données
- Exercice : Optimisation des pipelines de données pour améliorer les performances dans Azure Databricks
Module 4 : Implémentation de workflows CI/CD dans Azure Databricks
- Introduction
- Mise en œuvre du contrôle de version et de l'intégration Git
- Réalisation de tests unitaires et de tests d'intégration
- Administration et configuration de l'environnement
- Mise en œuvre de stratégies de retour en arrière et de rattrapage
- Exercice : Mise en œuvre des flux de travail CI/CD
Module 5 : Automatisation des charges de travail avec les tâches Azure Databricks
- Introduction
- Mise en œuvre de la planification et de l'automatisation des tâches
- Optimiser les flux de travail avec des paramètres
- Contrôle de gestion des dépendances
- Mise en œuvre de mécanismes de contrôle des erreurs et de nouvelle tentative
- Explorer les procédures et instructions recommandées
- Exercice : Automatiser le traitement et l’ingestion des données
Module 6 : Gestion de la confidentialité et de la gouvernance des données avec Azure Databricks
- Introduction
- Implémentation de techniques de chiffrement de données dans Azure Databricks
- Gestion des contrôles d'accès dans Azure Databricks
- Implémentation du masquage et de l'anonymisation des données dans Azure Databricks
- Utilisation des cadres de conformité et du partage sécurisé des données dans Azure Databricks
- Utilisation de la lignée de données et de la gestion des métadonnées
- Implémentation de l'automatisation de la gouvernance dans Azure Databricks
- Exercice : Pratiquez la mise en œuvre du catalogue Unity
Module 7 : Utilisation des magasins SQL dans Azure Databricks
- Introduction
- Introduction aux entrepôts SQL
- Création de bases de données et de tables
- Création de requêtes et de tableaux de bord
- Exercice : Utilisation d'un entrepôt SQL dans Azure Databricks
Module 8 : Exécution d'Azure Databricks Notebooks avec Azure Data Factory
- Introduction
- Comprendre les notebooks et les pipelines Azure Databricks
- Création d'un service lié pour Azure Databricks
- Utilisation d'une activité de bloc-notes dans un pipeline
- Utilisation des paramètres dans un notebook
- Exercice : Exécution d'un bloc-notes Azure Databricks avec Azure Data Factory
Prérequis
Aucun
Langue
- Cours : Anglais / Espagnol