Temario del curso

Introducción, Objetivos y Estrategia de Migración

  • Metas del curso, alineación del perfil de los participantes y criterios de éxito
  • Enfoques de migración a alto nivel y consideraciones de riesgo
  • Configuración de espacios de trabajo, repositorios y conjuntos de datos de laboratorio

Día 1 — Fundamentos y Arquitectura de Migración

  • Conceptos Lakehouse, visión general de Delta Lake y arquitectura de Databricks
  • Diferencias entre SMP y MPP y sus implicaciones para la migración
  • Diseño Medallion (Bronce→Plata→Oro) y visión general de Unity Catalog

Laboratorio del Día 1 — Traducción de un Procedimiento Almacenado

  • Migración práctica de un procedimiento almacenado de ejemplo a un cuaderno
  • Mapeo de tablas temporales y cursores a transformaciones DataFrame
  • Validación y comparación con la salida original

Día 2 — Delta Lake Avanzado y Carga Incremental

  • Transacciones ACID, registros de commit, versionamiento y viaje en el tiempo
  • Auto Loader, patrones MERGE INTO, upserts y evolución del esquema
  • OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento

Laboratorio del Día 2 — Ingesta Incremental y Optimización

  • Implementación de ingestión Auto Loader y flujos de trabajo MERGE
  • Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados
  • Medición de mejoras en el rendimiento de lectura/escritura

Día 3 — SQL en Databricks, Rendimiento y Depuración

  • Características analíticas de SQL: funciones de ventana, funciones de orden superior, manejo de JSON/arreglos
  • Lectura de la interfaz de usuario de Spark, DAGs, mezclas, etapas, tareas y diagnóstico de cuellos de botella
  • Patrones de optimización de consultas: uniones de transmisión, sugerencias, caché y reducción de derrame

Laboratorio del Día 3 — Refactorización SQL y Optimización de Rendimiento

  • Refactorizar un proceso SQL pesado a Spark SQL optimizado
  • Usar trazas de la interfaz de usuario de Spark para identificar y solucionar problemas de sesgo y mezcla
  • Benchmarking antes/después y documentación de pasos de optimización

Día 4 — PySpark Táctico: Reemplazo de Lógica Procedural

  • Modelo de ejecución Spark: conductor, ejecutores, evaluación perezosa y estrategias de particionamiento
  • Transformar bucles y cursores en operaciones vectorizadas DataFrame
  • Modularización, UDFs/pandas UDFs, widgets y bibliotecas reutilizables

Laboratorio del Día 4 — Refactorización de Scripts Procedurales

  • Refactorizar un script ETL procedural a cuadernos PySpark modulares
  • Introducir parametrización, pruebas estilo unidad y funciones reutilizables
  • Revisión de código y aplicación de lista de verificación de mejores prácticas

Día 5 — Orquestación, Pipeline de Extremo a Extremo y Mejores Prácticas

  • Databricks Workflows: diseño de trabajos, dependencias de tareas, desencadenadores y manejo de errores
  • Diseño de pipelines Medallion incrementales con reglas de calidad y validación de esquemas
  • Integración con Git (GitHub/Azure DevOps), CI, y estrategias de prueba para lógica PySpark

Laboratorio del Día 5 — Construir un Pipeline Completo de Extremo a Extremo

  • Ensamblar pipeline Bronce→Plata→Oro orquestado con Workflows
  • Implementar registro, auditoría, reintentos y validaciones automatizadas
  • Ejecutar pipeline completo, validar salidas y preparar notas de implementación

Operacionalización, Gobernanza y Preparación para Producción

  • Prácticas recomendadas de gobernanza Unity Catalog, linaje y controles de acceso
  • Costos, dimensionamiento del clúster, escalado automático y patrones de concurrencia de trabajos
  • Listas de verificación de implementación, estrategias de reversión y creación de libros de procedimientos

Revisión Final, Transferencia de Conocimiento y Próximos Pasos

  • Presentaciones de los participantes del trabajo de migración y lecciones aprendidas
  • Análisis de brechas, actividades recomendadas para seguimiento y entrega de materiales de capacitación
  • Referencias, caminos adicionales de aprendizaje y opciones de soporte

Requerimientos

  • Comprensión de conceptos de ingeniería de datos
  • Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server)
  • Familiaridad con conceptos de orquestación ETL (ADF u otros similares)

Audiencia

  • Gerentes tecnológicos con experiencia en ingeniería de datos
  • Ingenieros de datos que transicionan lógica procedural OLAP a patrones Lakehouse
  • Ingenieros de plataforma responsables de la adopción de Databricks
 35 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas