Talend Big Data Integration
Talend Open Studio for Big Data es una herramienta de ETL de código abierto para procesar big data. Incluye un entorno de desarrollo para interactuar con fuentes y destinos de big data, y ejecutar trabajos sin tener que escribir código.
Este curso de formación dirigido por un instructor (en línea o presencial) está destinado a personas técnicas que deseen implementar Talend Open Studio for Big Data para simplificar el proceso de lectura y análisis de big data.
Al final de esta formación, los participantes podrán:
- Instalar y configurar Talend Open Studio for Big Data.
- Conectarse con sistemas de big data como Cloudera, HortonWorks, MapR, Amazon EMR y Apache.
- Comprender y configurar los componentes y conectores de big data de Open Studio.
- Configurar parámetros para generar automáticamente código MapReduce.
- Usar la interfaz arrastrar y soltar de Open Studio para ejecutar trabajos Hadoop.
- Prototipar pipelines de big data.
- Automatizar proyectos de integración de big data.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para hacer los arreglos necesarios.
Temario del curso
Introducción
Resumen de las características y arquitectura de "Open Studio for Big Data"
Configuración de Open Studio for Big Data
Navegando por la interfaz de usuario
Comprendiendo los componentes y conectores de big data
Conectándose a un clúster Hadoop
Lectura y escritura de datos
Procesamiento de datos con Hive y MapReduce
Análisis de los resultados
Mejorando la calidad del big data
Construyendo un pipeline de big data
Administración de usuarios, grupos, roles y proyectos
Implementación de Open Studio en producción
Monitoreo de Open Studio
Solución de problemas
Resumen y conclusión
Requerimientos
- Conocimiento de bases de datos relacionales
- Conocimiento de data warehousing
- Conocimiento de conceptos ETL (Extract, Transform, Load)
Audiencia
- Profesionales de inteligencia de negocio
- Profesionales de bases de datos
- Desarrolladores SQL
- Desarrolladores ETL
- Arquitectos de soluciones
- Arquitectos de datos
- Profesionales de data warehousing
- Administradores y integradores de sistemas
Los cursos públicos requieren más de 5 participantes.
Talend Big Data Integration - Reserva
Talend Big Data Integration - Consulta
Talend Big Data Integration - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Avanzado de Apache Iceberg
21 HorasEste curso de formación dirigido por un instructor en Uruguay (en línea o en las instalaciones del cliente) está destinado a profesionales de datos de nivel avanzado que desean optimizar los flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos y implementar soluciones robustas de data lakehouse que puedan manejar las complejidades de las aplicaciones de big data modernas.
Al final de este curso, los participantes serán capaces de:
- Obtener una comprensión profunda de la arquitectura de Iceberg, incluyendo el manejo de metadatos y la distribución de archivos.
- Configurar Iceberg para un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Gestionar tablas de Iceberg a gran escala, realizar cambios de esquema complejos y manejar la evolución de particiones.
- Dominar técnicas para optimizar el rendimiento de las consultas y la eficiencia del escaneo de datos en grandes conjuntos de datos.
- Implementar mecanismos para garantizar la consistencia de los datos, gestionar garantías transaccionales y manejar fallos en entornos distribuidos.
Fundamentos de Apache Iceberg
14 HorasEste curso dirigido por un instructor y en vivo en Uruguay (en línea o en el sitio) está destinado a profesionales de datos de nivel principiante que deseen adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos de gran escala, garantizando la integridad de los datos y optimizando los flujos de trabajo de procesamiento de datos.
Al final de este curso, los participantes serán capaces de:
- Obtener una comprensión exhaustiva de la arquitectura, características y beneficios de Apache Iceberg.
- Aprender sobre formatos de tabla, particionamiento, evolución del esquema y capacidades de viaje en el tiempo.
- Instalar y configurar Apache Iceberg en diferentes entornos.
- Crear, gestionar y manipular tablas de Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla a Iceberg.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEste entrenamiento en vivo dirigido por un instructor (en línea o presencial) está destinado a científicos de datos y ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Configurar un entorno de gran volumen de datos utilizando Google Colab y Spark.
- Procesar y analizar conjuntos de datos grandes de manera eficiente con Apache Spark.
- Visualizar grandes volúmenes de datos en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Apache NiFi para administradores
21 HorasApache NiFi (Hortonworks DataFlow) es una plataforma de procesamiento de eventos y logística de datos integrada en tiempo real que permite mover, rastrear y automatizar los datos entre los sistemas. Está escrito usando programación basada en flujo y proporciona una interfaz de usuario basada en web para administrar flujos de datos en tiempo real.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta capacitación, los participantes podrán:
- Instalar y configurar Apachi NiFi
- Fuente, transformar y gestionar datos de fuentes de datos dispersas y distribuidas, incluidas bases de datos y lagos de datos grandes.
- Automatice los flujos de datos
- Habilitar análisis de transmisión
- Aplicar varios enfoques para la ingestión de datos
- Transformar Big Data y en conocimientos empresariales
Audiencia
- Administradores del sistema
- Ingenieros de datos
- Desarrolladores
- DevOps
Formato del curso
- Conferencia de parte, discusión en parte, ejercicios y práctica práctica
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la creación de flujos de trabajo escalables de procesamiento de datos y aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo funciona Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Fundamentos de Apache Spark
21 HorasEste curso de formación dirigido por un instructor en Uruguay (en línea o presencial) está destinado a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar cantidades muy grandes de datos.
Al finalizar este curso, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar rápidamente conjuntos de datos muy grandes.
- Comprender la diferencia entre Apache Spark y Hadoop MapReduce y cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en directo dirigida por un instructor en Uruguay (en línea o in situ) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure Apache Spark en varios entornos.
- Administre los recursos del clúster y supervise las aplicaciones de Spark.
- Optimice el rendimiento de los clústeres de Spark.
- Implemente medidas de seguridad y garantice una alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark aumenta lentamente al principio, y requiere mucho esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar la primera parte difícil. Después de completar este curso, los participantes entenderán los conceptos básicos de Apache Spark, diferenciarán claramente RDD de DataFrame, aprenderán las API de Python y Scala, comprenderán los ejecutores y tareas, etc. Además, siguiendo las mejores prácticas, este curso se centra fuertemente en la implementación en la nube, Databricks y AWS. Los estudiantes también entenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios más recientes de Spark de AWS.
AUDIENCIA:
Data Engineer, DevOps, Data Scientist
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Uruguay, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta capacitación en vivo dirigida por un instructor en Uruguay (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.
Talend Administration Center (TAC)
14 HorasEsta formación guiada por un instructor (en línea o presencial) está dirigida a administradores de sistemas, científicos de datos y analistas de negocios que deseen configurar Talend Administration Center para desplegar y gestionar los roles y tareas de la organización.
Al final de esta formación, los participantes podrán:
- Instalar y configurar Talend Administration Center.
- Entender e implementar los fundamentos de la gestión de Talend.
- Construir, desplegar y ejecutar proyectos o tareas empresariales en Talend.
- Monitorear la seguridad de los conjuntos de datos y desarrollar rutinas de negocio basadas en el marco TAC.
- Obtener una comprensión más amplia de las aplicaciones de big data.
Talend Data Stewardship
14 HorasEsta capacitación dirigida por un instructor, en vivo (en línea o presencial) está destinada a analistas de datos principiantes e intermedios que desean profundizar su comprensión y habilidades en la gestión y mejora de la calidad de los datos utilizando Talend Data Stewardship.
Al final de esta capacitación, los participantes podrán:
- Obtener una comprensión completa del papel de la gobernanza de los datos en el mantenimiento de la calidad de los datos.
- Utilizar Talend Data Stewardship para gestionar tareas de calidad de datos.
- Crear, asignar y gestionar tareas dentro de Talend Data Stewardship, incluyendo la personalización de flujos de trabajo.
- Utilizar las capacidades de informes y monitoreo de la herramienta para rastrear la calidad de los datos y los esfuerzos de gobernanza de los datos.
Talend Open Studio para ESB
21 HorasEn este curso dirigido por un instructor y en vivo en Uruguay, los participantes aprenderán cómo usar Talend Open Studio para ESB para crear, conectar, mediar y administrar servicios y sus interacciones.
Al final de este entrenamiento, los participantes podrán
- Integrar, mejorar y entregar tecnologías ESB como paquetes únicos en una variedad de entornos de implementación.
- Entender y utilizar los componentes más utilizados de Talend Open Studio.
- Integrar cualquier aplicación, base de datos, API o servicios web.
- Integrar sistemas y aplicaciones heterogéneos sin problemas.
- Incorporar bibliotecas de código Java existentes para extender los proyectos.
- Aprovechar componentes y código de la comunidad para extender los proyectos.
- Integrar rápidamente sistemas, aplicaciones y fuentes de datos en un entorno de Eclipse arrastrar y soltar.
- Reducir el tiempo de desarrollo y costos de mantenimiento generando código optimizado y reutilizable.