Description du cours
Dans ce cours, l'étudiant découvrira l'ingénierie des données en ce qui concerne l'utilisation de solutions d'analyse par lots et en temps réel utilisant les technologies de plateforme de données Azure. Les étudiants commenceront par apprendre les technologies de base de traitement et de stockage utilisées pour créer une solution analytique. Ils apprendront également à explorer de manière interactive les données stockées dans des fichiers dans un lac de données. Ils découvriront les différentes techniques d'ingestion qui peuvent être utilisées pour charger des données à l'aide de la fonctionnalité Apache Spark incluse dans Azure Synapse Analytics ou Azure Databricks, ou comment ingérer à l'aide des pipelines Azure Data Factory ou Azure Synapse. Les étudiants découvriront également les différentes façons dont ils peuvent transformer les données en utilisant les mêmes technologies que celles utilisées pour ingérer les données. Ils comprendront l’importance de mettre en œuvre la sécurité pour garantir que les données (au repos ou en transit) sont protégées. Après cela, on leur expliquera comment créer un système d'analyse en temps réel pour créer des solutions d'analyse en temps réel.
Le cours comprend l'examen de certification pour une opportunité de cadeau ! *Promotion valable jusqu'au 28 février uniquement pour les clients d'Espagne
Profil public
Le public principal de ce cours est constitué de professionnels des données, d'architectes de données et de professionnels de la business intelligence qui souhaitent en savoir plus sur l'ingénierie des données et la création de solutions d'analyse à l'aide des technologies de plate-forme de données trouvées dans Microsoft Azure. Le public secondaire de ce cours est constitué d'analystes de données et de data scientists travaillant avec des solutions d'analyse basées sur Microsoft Azure.
Objets de cette collection
- Introduction à Azure Synapse Analytics (7 unités)
- Explorez Azure Databricks (7 unités)
- Introduction à Azure Data Lake Storage (7 unités)
- Introduction à Azure Stream Analytics (7 unités)
- Utilisation d'un pool SQL sans serveur Azure Synapse pour interroger des fichiers dans un lac de données (7 unités)
- Utilisation des pools SQL sans serveur Azure Synapse pour transformer les données dans un lac de données (7 unités)
- Créer une base de données Lake dans Azure Synapse Analytics (8 unités)
- Protection des données et gestion des utilisateurs dans les pools SQL sans serveur Azure Synapse (6 unités)
- Utilisation d'Apache Spark sur Azure Databricks (9 unités)
- Utilisation de Delta Lake sur Azure Databricks (8 unités)
- Analyse de données avec Apache Spark dans Azure Synapse Analytics (8 unités)
- Intégration des groupes SQL et Apache Spark dans Azure Synapse Analytics (11 unités)
- Utiliser les meilleures pratiques pour charger des données dans Azure Synapse Analytics (11 unités)
- Ingestion à l'échelle du pétaoctet avec Azure Data Factory ou un pipeline Azure Synapse (9 unités)
- Intégrer des données avec Azure Data Factory ou Azure Synapse pipeline (13 unités)
- Effectuez des transformations sans code à grande échelle avec Azure Data Factory ou un pipeline Azure Synapse (10 unités)
- Orchestrer le mouvement et la transformation des données dans les pipelines Azure Data Factory ou Azure Synapse (9 unités)
- Planification du traitement analytique et transactionnel hybride à l'aide d'Azure Synapse Analytics (5 unités)
- Implémentation d'Azure Synapse Link avec Azure Cosmos DB (9 unités)
- Créer un entrepôt de données dans Azure Synapse Analytics (10 unités)
- Configuration et gestion des secrets dans Azure Key Vault (6 unités)
- Mise en œuvre de contrôles de conformité pour les données confidentielles (11 unités)
- Activation d'une messagerie fiable pour les applications Big Data avec Azure Event Hubs (8 unités)
Plan du cours
Module 1 : Exploration des options de calcul et de stockage pour les charges de travail d'ingénierie des données
Ce module fournit une présentation des options technologiques de calcul et de stockage Azure disponibles pour les ingénieurs de données qui créent des charges de travail analytiques. Ce module vous apprend à structurer votre lac de données et à optimiser les fichiers pour les charges de travail d'analyse, de streaming et par lots. L'étudiant apprendra à organiser le lac de données en niveaux de raffinement des données à mesure qu'il transformera les fichiers par traitement par lots et par flux. Ils apprendront ensuite à créer des index sur leurs ensembles de données, tels que des fichiers CSV, JSON et Parquet, et à les utiliser pour une accélération potentielle des requêtes et de la charge de travail.
Leçons
-
Démarrez avec Azure Synapse Analytics
-
Description d'Azure Databricks
-
Démarrez avec Azure Data Lake Storage
-
Description de l'architecture du lac Delta
-
Travailler avec des flux de données à l'aide d'Azure Stream Analytics
Atelier : Explorer les options de calcul et de stockage pour les charges de travail d'ingénierie des données
-
Combinez le traitement par lots et par flux dans un seul pipeline
-
Organisez le lac de données en niveaux de transformation de fichiers
-
Indexez le stockage dans un lac de données pour accélérer les requêtes et les charges de travail
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Décrire Azure Synapse Analytics
-
Description d'Azure Databricks
-
Décrire Azure Data Lake Storage
-
Décrire l'architecture du lac Delta
-
Décrire Azure Stream Analytics
Module 2 : Exécuter des requêtes interactives avec les pools SQL sans serveur Azure Synapse Analytics
Dans ce module, les étudiants apprendront à travailler avec des fichiers stockés dans le lac de données et des sources de fichiers externes à l'aide d'instructions T-SQL exécutées par un pool SQL sans serveur dans Azure Synapse Analytics. Ils interrogeront les fichiers Parquet stockés dans un lac de données, ainsi que les fichiers CSV stockés dans un magasin de données externe. Ensuite, ils créeront des groupes de sécurité Azure Active Directory et imposeront l'accès aux fichiers du lac de données via un contrôle d'accès basé sur les rôles (RBAC) et des listes de contrôle d'accès (ACL).
Leçons
-
Explorer les capacités des pools SQL sans serveur Azure Synapse
-
Interroger des données dans le lac à l'aide des pools SQL sans serveur Azure Synapse
-
Créer des objets de métadonnées dans des pools SQL sans serveur Azure Synapse
-
Protection des données et gestion des utilisateurs dans les pools SQL sans serveur Azure Synapse
Atelier : Exécuter des requêtes interactives avec des pools SQL sans serveur
-
Interroger des données Parquet avec des pools SQL sans serveur
-
Créer des tables externes pour les fichiers Parquet et CSV
-
Créer des vues avec des pools SQL sans serveur
-
Accès sécurisé aux données dans un lac de données lors de l'utilisation de pools SQL sans serveur
-
Configurez la sécurité des lacs de données via le contrôle d'accès basé sur les rôles (RBAC) et les listes de contrôle d'accès (ACL)
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Décrire les fonctionnalités des pools SQL sans serveur Azure Synapse
-
Interroger des données dans le lac à l'aide des pools SQL sans serveur Azure Synapse
-
Créer des objets de métadonnées dans des pools SQL sans serveur Azure Synapse
-
Protection des données et gestion des utilisateurs dans les pools SQL sans serveur Azure Synapse
Module 3 : Explorer et transformer les données dans Azure Databricks
Ce module vous apprend à utiliser diverses méthodes Apache Spark DataFrame pour explorer et transformer des données dans Azure Databricks. Les étudiants apprendront à utiliser les méthodes DataFrame standard pour explorer et transformer les données. Ils apprendront également à effectuer des tâches plus avancées, telles que supprimer les données en double, manipuler les valeurs de date et d'heure, renommer les colonnes et ajouter des données.
Leçons
-
Description d'Azure Databricks
-
Lire et écrire des données sur Azure Databricks
-
Travailler avec des éléments DataFrame dans Azure Databricks
-
Travailler avec les méthodes DataFrame avancées dans Azure Databricks
Atelier : Effectuer des explorations et des transformations de données dans Azure Databricks
-
Utilisez des DataFrames dans Azure Databricks pour explorer et filtrer les données
-
Cachez les DataFrames pour des requêtes plus rapides ultérieurement
-
Déduplication
-
Manipuler les valeurs de date et d'heure
-
Supprimez les colonnes de DataFrame et renommez-les
-
Ajouter des données stockées dans un DataFrame
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Description d'Azure Databricks
-
Lire et écrire des données sur Azure Databricks
-
Travailler avec des éléments DataFrame dans Azure Databricks
-
Travailler avec les méthodes DataFrame avancées dans Azure Databricks
Module 4 : Explorer, transformer et charger des données dans des entrepôts de données avec Apache Spark
Ce module vous apprend à explorer les données stockées dans un lac de données, à transformer les données et à les charger dans un entrepôt de données relationnelles. Les étudiants exploreront les fichiers Parquet et JSON et utiliseront des techniques pour interroger et transformer des fichiers JSON avec des structures hiérarchiques. Ils utiliseront ensuite Apache Spark pour charger les données dans l'entrepôt de données et joindre les données de Parquet dans le lac de données avec les données du pool SQL dédié.
Leçons
-
Définir l'ingénierie Big Data avec Apache Spark dans Azure Synapse Analytics
-
Ingérer des données avec des notebooks Apache Spark dans Azure Synapse Analytics
-
Transformez les données avec les objets DataFrame du pool Apache Spark d'Azure Synapse Analytics
-
Intégrer les pools SQL et Apache Spark dans Azure Synapse Analytics
Atelier : Explorer, transformer et charger des données dans des entrepôts de données avec Apache Spark
-
Effectuer des explorations de données dans Synapse Studio
-
Ingérer des données avec des notebooks Spark dans Azure Synapse Analytics
-
Transformez les données avec Azure Synapse Analytics Spark Pool DataFrame
-
Intégrez les pools SQL et Spark dans Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Décrire l'ingénierie Big Data avec Apache Spark dans Azure Synapse Analytics
-
Ingérer des données avec des notebooks Apache Spark dans Azure Synapse Analytics
-
Transformez les données avec les objets DataFrame du pool Apache Spark d'Azure Synapse Analytics
-
Intégrer les pools SQL et Apache Spark dans Azure Synapse Analytics
Module 5 : Ingestion et chargement de données dans des magasins de données
Ce module enseigne aux étudiants comment ingérer des données dans l'entrepôt de données à l'aide de scripts T-SQL et de pipelines d'intégration Synapse Analytics. Les étudiants apprendront à charger des données dans des pools Synapse SQL dédiés avec PolyBase et COPY à l'aide de T-SQL. Ils apprendront également à utiliser la gestion de la charge de travail ainsi qu’une activité de copie dans un pipeline Azure Synapse pour l’ingestion de données à l’échelle du pétaoctet.
Leçons
Laboratoire : Ingestion et chargement de données dans des entrepôts de données
-
Effectuez des ingestions à l’échelle du pétaoctet avec les pipelines Azure Synapse
-
Importer des données avec PolyBase et COPIER à l'aide de T-SQL
-
Utiliser les meilleures pratiques pour charger des données dans Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
Module 6 : Transformer les données avec les pipelines Azure Data Factory ou Azure Synapse
Ce module enseigne aux étudiants comment créer des pipelines d'intégration de données pour ingérer à partir de plusieurs sources de données, transformer des données à l'aide de flux de données cartographiques et effectuer des déplacements de données vers un ou plusieurs récepteurs de données.
Leçons
Atelier : Transformer les données avec les pipelines Azure Data Factory ou Azure Synapse
-
Exécutez des transformations sans code et à grande échelle avec les pipelines Azure Synapse
-
Créer un pipeline de données pour importer des fichiers CSV mal formatés
-
Créer des flux de données cartographiques
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
Module 7 : Organiser les déplacements et les transformations de données dans les pipelines Azure Synapse
Dans ce module, nous apprendrons comment créer des services liés et organiser le mouvement et la transformation des données à l'aide de notebooks dans les pipelines Azure Synapse.
Leçons
Atelier : Orchestrer les déplacements et les transformations de données dans les pipelines Azure Synapse
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
Module 8 : Sécurité complète avec Azure Synapse Analytics
Dans ce module, les étudiants apprendront comment sécuriser un espace de travail Synapse Analytics et son infrastructure de support. Ils analyseront SQL Active Directory Manager, géreront les règles de pare-feu IP, géreront les secrets avec Azure Key Vault et accéderont à ces secrets via un service lié et des activités de pipeline Key Vault. Ils apprendront également comment implémenter la sécurité au niveau des colonnes et des lignes ainsi que le masquage dynamique des données lors de l'utilisation de pools SQL dédiés.
Leçons
-
Créer un entrepôt de données dans Azure Synapse Analytics
-
Configurer et gérer les secrets dans Azure Key Vault
-
Mise en place de contrôles de conformité pour les données sensibles
Atelier : Sécurité complète avec Azure Synapse Analytics
-
Protégez l’infrastructure derrière Azure Synapse Analytics
-
Sécurisez votre espace de travail et vos services gérés Azure Synapse Analytics
-
Protégez les données de votre espace de travail Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Créer un entrepôt de données dans Azure Synapse Analytics
-
Configurer et gérer les secrets dans Azure Key Vault
-
Mise en place de contrôles de conformité pour les données sensibles
Module 9 : Prise en charge du traitement analytique transactionnel hybride avec Azure Synapse Link
Dans ce module, les étudiants apprendront comment Azure Synapse Link permet une connectivité transparente entre un compte Azure Cosmos DB et un espace de travail Synapse. Les étudiants verront comment activer et configurer Synapse Link, puis comment interroger le magasin analytique Azure Cosmos DB à l'aide d'Apache Spark et de Serverless SQL.
Leçons
-
Concevoir un traitement transactionnel et analytique hybride à l'aide d'Azure Synapse Analytics
-
Configuration d'Azure Synapse Link avec Azure Cosmos DB
-
Requête Azure Cosmos DB avec les clusters Apache Spark
-
Requête Azure Cosmos DB avec pools SQL sans serveur
Atelier : Prise en charge du traitement analytique transactionnel hybride avec Azure Synapse Link
-
Configuration d'Azure Synapse Link avec Azure Cosmos DB
-
Interroger Azure Cosmos DB avec Apache Spark pour Synapse Analytics
-
Interroger Azure Cosmos DB avec des pools SQL sans serveur pour Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Concevoir un traitement transactionnel et analytique hybride à l'aide d'Azure Synapse Analytics
-
Configuration d'Azure Synapse Link avec Azure Cosmos DB
-
Requête Azure Cosmos DB avec Apache Spark pour Azure Synapse Analytics
-
Interroger Azure Cosmos DB avec Serverless SQL pour Azure Synapse Analytics
Module 10 : Traitement des flux en temps réel avec Stream Analytics
Dans ce module, les étudiants apprendront à traiter les données de flux avec Azure Stream Analytics. Ils ingéreront les données de télémétrie des véhicules dans Event Hubs, puis les traiteront en temps réel à l'aide de diverses fonctions basées sur des fenêtres dans Azure Stream Analytics. Ils enverront les données à Azure Synapse Analytics. Enfin, les étudiants apprendront comment faire évoluer le travail de Stream Analytics pour augmenter les performances.
Leçons
-
Activez une messagerie fiable pour les applications Big Data avec Azure Event Hubs
-
Travailler avec des flux de données à l'aide d'Azure Stream Analytics
-
Ingérer des flux de données avec Azure Stream Analytics
Lab : Traitement de flux en temps réel avec Stream Analytics
-
Utilisez Stream Analytics pour traiter les données en temps réel depuis Event Hubs
-
Utilisez les fonctions basées sur les fenêtres Stream Analytics pour créer des agrégats et les envoyer à Synapse Analytics
-
Faites évoluer les tâches Azure Stream Analytics pour augmenter les performances grâce au partitionnement
-
Repartitionner l'entrée du flux pour optimiser la parallélisation
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
-
Activez une messagerie fiable pour les applications Big Data avec Azure Event Hubs
-
Travailler avec des flux de données à l'aide d'Azure Stream Analytics
-
Ingérer des flux de données avec Azure Stream Analytics
Module 11 : Créer une solution de traitement de flux avec Event Hubs et Azure Databricks
Dans ce module, les étudiants apprendront à ingérer et traiter des données de flux à grande échelle avec le streaming structuré Event Hubs et Spark dans Azure Databricks. Les étudiants apprendront les utilisations et les principales fonctionnalités du streaming structuré. Ils mettront en œuvre des fenêtres coulissantes pour ajouter des fragments de données et appliqueront des filigranes pour supprimer les données obsolètes. Enfin, les étudiants se connecteront à Event Hubs pour lire et écrire des séquences.
Leçons
Atelier : Créer une solution de traitement de flux avec Event Hubs et Azure Databricks
-
Analysez les usages et les fonctionnalités clés du streaming structuré.
-
Diffusez les données d'un fichier et écrivez-les dans un système de fichiers distribué
-
Utilisez des fenêtres coulissantes pour ajouter des morceaux de données au lieu de toutes les données
-
Appliquer des filigranes pour supprimer les données obsolètes
-
Connectez-vous aux flux de lecture et d'écriture d'Event Hubs
Après avoir terminé ce module, les étudiants seront capables de réaliser les tâches suivantes :
Conditions préalables
Les étudiants éligibles commencent ce cours avec une connaissance du cloud computing et des principes fondamentaux des données, ainsi qu'une expérience professionnelle avec les solutions de données.
Réaliser notamment :
Langue