________________________________________________________________
¿Quiere realizar este curso en modalidad telepresencial o presencial?
Póngase en contacto con nosotros por correo: info@nanforiberica.com, teléfonos: +34 91 031 66 78 / +34 605 98 51 30, WhatsApp: +34 685 60 05 91, o comunícate con Nuestras Oficinas
________________________________________________________________
Importante: Este curso estará disponible el 18/07/25
Curso DP-3027: Implement a data engineering solution with Azure Databricks
En este curso aprenda a aprovechar el poder de Apache Spark y los potentes clústeres que se ejecutan en la plataforma Azure Databricks para ejecutar grandes cargas de trabajo de ingeniería de datos en la nube.
Nivel: Principiante - Rol: Analista de datos, Ingeniero de datos, Científico de datos - Producto: Azure - Asunto: Ingeniería de datos
Curso dirigido a
Los ingenieros de datos, los científicos de datos y los desarrolladores ELT aprenden cómo aprovechar el poder de Apache Spark y los potentes clústeres que se ejecutan en la plataforma Azure Databricks para ejecutar grandes cargas de trabajo de ingeniería de datos en la nube.
Objetivos del curso oficial DP-3027
-
Comprender la arquitectura de Azure Databricks: Familiarizarse con los componentes clave de la plataforma y cómo se integran con otros servicios de Azure
-
Implementar técnicas de ingestión de datos: Aprender a capturar datos desde múltiples fuentes utilizando herramientas como Structured Streaming y Delta Lake
-
Realizar transformaciones y procesamiento de datos: Utilizar Apache Spark para limpiar, transformar y preparar datos para análisis o almacenamiento.
-
Desarrollar flujos ETL escalables: Construir pipelines de datos eficientes y reutilizables que soporten grandes volúmenes de información.
-
Optimizar el rendimiento de los procesos: Aplicar estrategias de tuning, autoscaling y observabilidad para mejorar la eficiencia de los flujos de trabajo.
-
Implementar arquitecturas de streaming con Delta Live Tables: Diseñar soluciones en tiempo real para el procesamiento continuo de datos.
-
Automatizar tareas con Azure Databricks Jobs: Orquestar y programar flujos de trabajo para reducir la intervención manual y acelerar la entrega de insights.
-
Aplicar CI/CD en entornos de datos: Integrar prácticas de desarrollo continuo para mantener la calidad y estabilidad de las soluciones de datos.
Contenido del curso oficial Azure Databricks DP-3027
Módulo 1 Realizar procesamiento incremental con streaming estructurado de Spark
- Introducción
- Configuración de orígenes de datos en tiempo real para el procesamiento incremental
- Optimizar Delta Lake para el procesamiento incremental en Azure Databricks
- Control de datos atrasados y eventos fuera de orden en el procesamiento incremental
- Estrategias de supervisión y ajuste del rendimiento para el procesamiento incremental en Azure Databricks
- Ejercicio: Ingesta y procesamiento en tiempo real con Delta Live Tables con Azure Databricks
Módulo 2 Implementación de patrones de arquitectura de streaming con Delta Live Tables
- Introducción
- Arquitecturas controladas por eventos con Delta Live Tables
- Ingesta de datos con streaming estructurado
- Mantenimiento de la coherencia y confiabilidad de los datos con streaming estructurado
- Escalado de cargas de trabajo de streaming con Delta Live Tables
- Ejercicio: Canalización de streaming de un extremo a otro con Delta Live Tables
Módulo 3 Optimización del rendimiento con Spark y Delta Live Tables
- Introducción
- Optimización del rendimiento con Spark y Delta Live Tables
- Realización de optimización basada en costos y ajuste de consultas
- Uso de la captura de datos modificados (CDC)
- Use del escalado automático mejorado
- Implemente métricas de observabilidad y calidad de datos
- Ejercicio: Optimización de canalizaciones de datos para mejorar el rendimiento en Azure Databricks
Módulo 4 Implementación de flujos de trabajo de CI/CD en Azure Databricks
- Introducción
- Implementación del control de versiones y la integración de Git
- Realización de pruebas unitarias y pruebas de integración
- Administración y configuración del entorno
- Implementación de estrategias de reversión y puesta al día
- Ejercicio: Implementación de flujos de trabajo de CI/CD
Módulo 5 Automatización de cargas de trabajo con trabajos de Azure Databricks
- Introducción
- Implementación de la programación y automatización de trabajos
- Optimización de flujos de trabajo con parámetros
- Control de la administración de dependencias
- Implementación de mecanismos de control y reintento de errores
- Exploración de procedimientos recomendados e instrucciones
- Ejercicio: Automatización del procesamiento y la ingesta de datos
Módulo 6 Administración de la privacidad y la gobernanza de datos con Azure Databricks
- Introducción
- Implementación de técnicas de cifrado de datos en Azure Databricks
- Administración de controles de acceso en Azure Databricks
- Implementación del enmascaramiento de datos y anonimización en Azure Databricks
- Uso de marcos de cumplimiento y uso compartido seguro de datos en Azure Databricks
- Uso del linaje de datos y la administración de metadatos
- Implementación de la automatización de la gobernanza en Azure Databricks
- Ejercicio: Práctica de la implementación del catálogo de Unity
Módulo 7 Uso de almacenes SQL en Azure Databricks
- Introducción
- Introducción a SQL Warehouses
- Creación de bases de datos y tablas
- Creación de consultas y paneles
- Ejercicio: Uso de un almacén SQL en Azure Databricks
Módulo 8 Ejecución de cuadernos de Azure Databricks con Azure Data Factory
- Introducción
- Descripción de los cuadernos y canalizaciones de Azure Databricks
- Creación de un servicio vinculado para Azure Databricks
- Uso de una actividad de Cuaderno en una canalización
- Uso de parámetros en un cuaderno
- Ejercicio: Ejecución de un cuaderno de Azure Databricks con Azure Data Factory
Requisitos previos
Ninguno
Idioma