Microsoft retirera DP-203 : Ingénierie des données sur Microsoft Azure le 31 mars 2025. Il sera remplacé par DP-700 : Ingénieur de données Microsoft Fabric.
Cours DP-203 : Ingénierie des données sur Microsoft Azure
Dans ce cours, les étudiants découvriront l’ingénierie des données en relation avec le travail avec des solutions d’analyse par lots et en temps réel à l’aide des technologies de la plateforme de données Azure. Les étudiants commenceront par apprendre les processus de base et les technologies de stockage utilisés pour créer une solution analytique. Ils apprendront également à explorer de manière interactive les données stockées dans des fichiers d’un lac de données. Vous découvrirez les différentes techniques d’ingestion qui peuvent être utilisées pour charger des données à l’aide de la fonctionnalité Apache Spark incluse dans Azure Synapse Analytics ou Azure Databricks, ou comment ingérer à l’aide des pipelines Azure Data Factory ou Azure Synapse. Les étudiants apprendront également les différentes manières dont ils peuvent transformer les données en utilisant les mêmes technologies utilisées pour ingérer des données. Ils comprendront l’importance de mettre en œuvre la sécurité pour garantir la protection des données (au repos ou en transit). Après cela, on leur expliquera comment créer un système analytique en temps réel pour créer des solutions analytiques en temps réel.

Le cours comprend l'examen de certification en guise d'opportunité cadeau ! *Promotion valable jusqu'au 28 février uniquement pour les clients d'Espagne
Cours destiné à
Le public principal de ce cours est constitué de professionnels des données, d’architectes de données et de professionnels de l’intelligence d’affaires qui souhaitent en savoir plus sur l’ingénierie des données et la création de solutions d’analyse à l’aide des technologies de plate-forme de données dans Microsoft Azure. Le public secondaire de ce cours est constitué d'analystes de données et de scientifiques de données travaillant avec des solutions d'analyse basées sur Microsoft Azure.
Éléments de la formation DP-203
-
Introduction à l'ingénierie des données dans Azure (3 unités)
-
Création de solutions d'analyse de données avec les pools SQL sans serveur Azure Synapse (4 unités)
-
Réalisation de tâches d'ingénierie des données avec des pools Apache Spark dans Azure Synapse (3 unités)
-
Transférer et transformer des données avec les pipelines Azure Synapse Analytics (2 unités)
-
Mise en œuvre d'une solution d'analyse de données avec Azure Synapse Analytics (6 unités)
-
Travailler avec des entrepôts de données avec Azure Synapse Analytics (4 unités)
-
Utilisation de solutions de traitement transactionnel et analytique hybrides avec Azure Synapse Analytics (3 unités)
-
Mise en œuvre d'une solution de streaming de données avec Azure Stream Analytics (3 unités)
-
Mise en œuvre d'une solution d'analyse d'entrepôt de données Data Lake avec Azure Databricks (6 unités)
Contenu du cours DP-203
Module 1 : Exploration des options de calcul et de stockage pour les charges de travail d'ingénierie des données
Ce module fournit un aperçu des options technologiques de calcul et de stockage Azure disponibles pour les ingénieurs de données qui créent des charges de travail d’analyse. Ce module vous apprend à structurer votre lac de données et à optimiser les fichiers pour les charges de travail par lots, en flux et en analyse. L'étudiant apprendra à organiser le lac de données en niveaux de raffinement des données à mesure qu'il transforme les fichiers via le traitement par lots et par flux. Ils apprendront ensuite à créer des index sur leurs ensembles de données, tels que les fichiers CSV, JSON et Parquet, et à les utiliser pour une accélération potentielle des requêtes et des charges de travail.
Cours
-
Prise en main d'Azure Synapse Analytics
-
Présentation d'Azure Databricks
-
Prise en main d'Azure Data Lake Storage
-
Aperçu de l'architecture du lac Delta
-
Utilisation des flux de données à l'aide d'Azure Stream Analytics
Laboratoire : Exploration des options de calcul et de stockage pour les charges de travail d'ingénierie des données
-
Combinez le traitement par lots et par flux dans un seul pipeline
-
Organiser le lac de données en niveaux de transformation de fichiers
-
Indexation du stockage du lac de données pour accélérer les requêtes et la charge de travail
Après avoir terminé ce module, les étudiants seront capables de :
-
Décrire Azure Synapse Analytics
-
Présentation d'Azure Databricks
-
Décrire Azure Data Lake Storage
-
Décrivez l'architecture du lac Delta
-
Décrire Azure Stream Analytics
Module 2 : Exécution de requêtes interactives avec des pools SQL sans serveur Azure Synapse Analytics
Dans ce module, les étudiants apprendront à travailler avec des fichiers stockés dans le lac de données et des sources de fichiers externes à l’aide d’instructions T-SQL exécutées par un pool SQL sans serveur dans Azure Synapse Analytics. Ils interrogeront les fichiers Parquet stockés dans un lac de données, ainsi que les fichiers CSV stockés dans un entrepôt de données externe. Ils créeront ensuite des groupes de sécurité Azure Active Directory et appliqueront l’accès aux fichiers du lac de données via le contrôle d’accès basé sur les rôles (RBAC) et les listes de contrôle d’accès (ACL).
Cours
-
Découverte des fonctionnalités des pools SQL sans serveur Azure Synapse
-
Interrogation des données du lac à l'aide des pools SQL sans serveur Azure Synapse
-
Création d'objets de métadonnées dans les pools SQL sans serveur Azure Synapse
-
Protection des données et gestion des utilisateurs dans les pools SQL sans serveur Azure Synapse
Laboratoire : Exécution de requêtes interactives avec des pools SQL sans serveur
-
Interrogation des données Parquet avec des pools SQL sans serveur
-
Créer des tables externes pour les fichiers Parquet et CSV
-
Création de vues avec des pools SQL sans serveur
-
Protection de l'accès aux données dans un lac de données lors de l'utilisation de pools SQL sans serveur
-
Configurer la sécurité du lac de données via le contrôle d'accès basé sur les rôles (RBAC) et les listes de contrôle d'accès (ACL)
Après avoir terminé ce module, les étudiants seront capables de :
-
Décrire les fonctionnalités des pools SQL sans serveur Azure Synapse
-
Interrogation des données du lac à l'aide des pools SQL sans serveur Azure Synapse
-
Création d'objets de métadonnées dans les pools SQL sans serveur Azure Synapse
-
Protection des données et gestion des utilisateurs dans les pools SQL sans serveur Azure Synapse
Module 3 : Explorer et transformer les données dans Azure Databricks
Ce module vous apprend à utiliser différentes méthodes Apache Spark DataFrame pour explorer et transformer des données dans Azure Databricks. Les étudiants apprendront à utiliser les méthodes DataFrame standard pour explorer et transformer les données. Ils apprendront également à effectuer des tâches plus avancées, telles que la suppression des données en double, la manipulation des valeurs de date et d’heure, le changement de nom des colonnes et l’ajout de données.
Cours
-
Présentation d'Azure Databricks
-
Lecture et écriture de données dans Azure Databricks
-
Utilisation des éléments DataFrame dans Azure Databricks
-
Utilisation des méthodes DataFrame avancées dans Azure Databricks
Laboratoire : Réalisation d'explorations et de transformations de données dans Azure Databricks
-
Utilisation de DataFrames dans Azure Databricks pour explorer et filtrer les données
-
Mettre en cache les DataFrames pour des requêtes ultérieures plus rapides
-
Déduplication des données
-
Manipulation des valeurs de date et d'heure
-
Suppression et renommage des colonnes du DataFrame
-
Ajout de données stockées dans un DataFrame
Après avoir terminé ce module, les étudiants seront capables de :
-
Présentation d'Azure Databricks
-
Lecture et écriture de données dans Azure Databricks
-
Utilisation des éléments DataFrame dans Azure Databricks
-
Utilisation des méthodes DataFrame avancées dans Azure Databricks
Module 4 : Exploration, transformation et chargement de données dans des entrepôts de données avec Apache Spark
Ce module vous apprend à explorer les données stockées dans un lac de données, à transformer les données et à charger les données dans un entrepôt de données relationnelles. Les étudiants exploreront les fichiers Parquet et JSON et utiliseront des techniques pour interroger et transformer des fichiers JSON avec des structures hiérarchiques. Ils utiliseront ensuite Apache Spark pour charger les données dans l'entrepôt de données et joindre les données Parquet dans le lac de données avec les données du pool SQL dédié.
Cours
-
Définition de l'ingénierie Big Data avec Apache Spark dans Azure Synapse Analytics
-
Ingestion de données avec des blocs-notes Apache Spark dans Azure Synapse Analytics
-
Transformation des données avec des objets DataFrame provenant de pools Apache Spark Azure Synapse Analytics
-
Intégration des pools SQL et d'Apache Spark dans Azure Synapse Analytics
Laboratoire : Exploration, transformation et chargement de données dans des entrepôts de données avec Apache Spark
-
Effectuer des explorations de données dans Synapse Studio
-
Ingérer des données avec des blocs-notes Spark dans Azure Synapse Analytics
-
Transformez les données avec les pools Spark d'Azure Synapse Analytics DataFrame
-
Intégrer les pools SQL et Spark dans Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de :
-
Décrire l'ingénierie Big Data avec Apache Spark dans Azure Synapse Analytics
-
Ingestion de données avec des blocs-notes Apache Spark dans Azure Synapse Analytics
-
Transformation des données avec des objets DataFrame provenant de pools Apache Spark Azure Synapse Analytics
-
Intégration des pools SQL et d'Apache Spark dans Azure Synapse Analytics
Module 5 : Ingestion et chargement de données dans des entrepôts de données
Ce module enseigne aux étudiants comment ingérer des données dans l'entrepôt de données à l'aide de scripts T-SQL et de pipelines d'intégration Synapse Analytics. Les étudiants apprendront à charger des données dans des pools Synapse SQL dédiés à l'aide de PolyBase et à COPIER à l'aide de T-SQL. Ils apprendront également à utiliser la gestion de la charge de travail avec une activité de copie dans un pipeline Azure Synapse pour l’ingestion de données à l’échelle du pétaoctet.
Cours
Laboratoire : Ingestion et chargement de données dans des entrepôts de données
-
Effectuez des ingestions à l'échelle du pétaoctet avec les pipelines Azure Synapse
-
Importer des données avec PolyBase et COPY en utilisant T-SQL
-
Utilisation des meilleures pratiques pour le chargement de données dans Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de :
Module 6 : Transformer les données avec les pipelines Azure Data Factory ou Azure Synapse
Ce module enseigne aux étudiants comment créer des pipelines d'intégration de données pour ingérer des données à partir de plusieurs sources de données, transformer des données à l'aide de flux de données de mappage et effectuer des mouvements de données dans un ou plusieurs récepteurs de données.
Cours
Laboratoire : Transformer les données avec les pipelines Azure Data Factory ou Azure Synapse
-
Exécutez des transformations sans code à grande échelle avec les pipelines Azure Synapse
-
Créer un pipeline de données pour importer des fichiers CSV mal formatés
-
Créer des flux de données de mappage
Après avoir terminé ce module, les étudiants seront capables de :
Module 7 : Orchestrer les mouvements et les transformations de données dans les pipelines Azure Synapse
Dans ce module, nous apprendrons à créer des services liés et à orchestrer le déplacement et la transformation des données à l’aide de blocs-notes dans les pipelines Azure Synapse.
Cours
Laboratoire : Orchestrer les mouvements et les transformations de données dans les pipelines Azure Synapse
Après avoir terminé ce module, les étudiants seront capables de :
Module 8 : Sécurité de bout en bout avec Azure Synapse Analytics
Dans ce module, les étudiants apprendront à sécuriser un espace de travail Synapse Analytics et son infrastructure de support. Ils discuteront de l’administrateur SQL Active Directory, de la gestion des règles de pare-feu IP, de la gestion des secrets avec Azure Key Vault et de l’accès à ces secrets via un service lié Key Vault et des activités de pipeline. Ils apprendront également à mettre en œuvre la sécurité au niveau des colonnes et des lignes ainsi que le masquage dynamique des données en utilisant des pools SQL dédiés.
Cours
-
Créer un entrepôt de données dans Azure Synapse Analytics
-
Configuration et gestion des secrets dans Azure Key Vault
-
Mise en œuvre de contrôles de conformité pour les données sensibles
Laboratoire : Sécurité de bout en bout avec Azure Synapse Analytics
-
Sécurisation de l'infrastructure derrière Azure Synapse Analytics
-
Sécurisation de l'espace de travail et des services gérés Azure Synapse Analytics
-
Protégez les données dans votre espace de travail Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de :
-
Créer un entrepôt de données dans Azure Synapse Analytics
-
Configuration et gestion des secrets dans Azure Key Vault
-
Mise en œuvre de contrôles de conformité pour les données sensibles
Module 9 : Prise en charge du traitement d'analyse transactionnelle hybride avec Azure Synapse Link
Dans ce module, les étudiants découvriront comment Azure Synapse Link permet une connectivité transparente entre un compte Azure Cosmos DB et un espace de travail Synapse. Les étudiants apprendront à activer et à configurer Synapse Link, puis à interroger le magasin analytique Azure Cosmos DB à l’aide d’Apache Spark et de Serverless SQL.
Cours
-
Concevoir un traitement transactionnel et analytique hybride à l'aide d'Azure Synapse Analytics
-
Configuration d'Azure Synapse Link avec Azure Cosmos DB
-
Requête Azure Cosmos DB avec les pools Apache Spark
-
Requête Azure Cosmos DB avec pools SQL sans serveur
Laboratoire : Prise en charge du traitement analytique transactionnel hybride avec Azure Synapse Link
-
Configuration d'Azure Synapse Link avec Azure Cosmos DB
-
Interroger Azure Cosmos DB avec Apache Spark pour Synapse Analytics
-
Interroger Azure Cosmos DB avec des pools SQL sans serveur pour Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de :
-
Concevoir un traitement transactionnel et analytique hybride à l'aide d'Azure Synapse Analytics
-
Configuration d'Azure Synapse Link avec Azure Cosmos DB
-
Requête Azure Cosmos DB avec Apache Spark pour Azure Synapse Analytics
-
Interroger Azure Cosmos DB avec SQL sans serveur pour Azure Synapse Analytics
Module 10 : Traitement de flux en temps réel avec Stream Analytics
Dans ce module, les étudiants apprendront à traiter des données en streaming avec Azure Stream Analytics. Ils ingéreront les données de télémétrie des véhicules dans Event Hubs, puis les traiteront en temps réel à l’aide de plusieurs fonctions basées sur des fenêtres dans Azure Stream Analytics. Ils enverront les données à Azure Synapse Analytics. Enfin, les étudiants apprendront à faire évoluer leur travail Stream Analytics pour augmenter les performances.
Cours
-
Activation d'une messagerie fiable pour les applications Big Data avec Azure Event Hubs
-
Utilisation des flux de données à l'aide d'Azure Stream Analytics
-
Ingestion de flux de données avec Azure Stream Analytics
Laboratoire : Traitement de flux en temps réel avec Stream Analytics
-
Utilisation de Stream Analytics pour traiter les données en temps réel des Event Hubs
-
Utilisez les fonctions basées sur la fenêtre Stream Analytics pour créer des agrégats et les envoyer à Synapse Analytics
-
Faites évoluer les tâches Azure Stream Analytics pour augmenter les performances grâce au partitionnement
-
Répartitionner les flux d'entrée pour optimiser la parallélisation
Après avoir terminé ce module, les étudiants seront capables de :
-
Activation d'une messagerie fiable pour les applications Big Data avec Azure Event Hubs
-
Utilisation des flux de données à l'aide d'Azure Stream Analytics
-
Ingestion de flux de données avec Azure Stream Analytics
Module 11 : Création d'une solution de traitement de flux avec Event Hubs et Azure Databricks
Dans ce module, les étudiants apprendront à ingérer et à traiter des données de flux à grande échelle à l’aide d’Event Hubs et du streaming structuré Spark sur Azure Databricks. Les étudiants apprendront les utilisations et les fonctionnalités clés du streaming structuré. Ils mettront en œuvre des fenêtres coulissantes pour ajouter des blocs de données et appliquer des filigranes pour supprimer les données obsolètes. Enfin, les étudiants se connecteront à Event Hubs pour lire et écrire des flux.
Cours
Laboratoire : Création d'une solution de traitement de flux avec Event Hubs et Azure Databricks
-
Analyser les principales utilisations et fonctionnalités du streaming structuré.
-
Diffusion de données à partir d'un fichier et écriture sur un système de fichiers distribué
-
Utilisez des fenêtres coulissantes pour ajouter des blocs de données au lieu de toutes les données
-
Appliquer des filigranes pour supprimer les données obsolètes
-
Connectez-vous aux flux de lecture et d'écriture d'Event Hubs
Après avoir terminé ce module, les étudiants seront capables de :
Prérequis
Les étudiants qui réussissent commencent ce cours avec une connaissance du cloud computing et des fondamentaux des données, ainsi qu'une expérience professionnelle des solutions de données.
Concrètement, il s'agit de réaliser :
Langue
Microsoft Certification Associate : Ingénieur de données Azure Associate
Ingénieur de données Azure certifié Microsoft
Démontrer la compréhension des tâches courantes d’ingénierie des données pour déployer et gérer les charges de travail d’ingénierie des données dans Microsoft Azure à l’aide d’une gamme de services Azure.
Niveau : Intermédiaire
Rôle : Ingénieur de données
Produit : Azure
Sujet : Données et IA