Programación con Big Data en R
Big Data es un término que se refiere a soluciones destinadas para almacenar y procesar grandes conjuntos de datos. Desarrollado inicialmente por Google, estas soluciones de Big Data han evolucionado e inspirado otros proyectos similares, muchos de los cuales están disponibles como código abierto. R es un lenguaje de programación popular en la industria financiera.
Temario del curso
Introducción a Programming Big Data con R (bpdR)
- Configuración del entorno para usar pbdR
- Alcance y herramientas disponibles en pbdR
- Paquetes comúnmente usados con Big Data junto con pbdR
Interfaz de paso de mensajes (MPI)
- Uso de pbdR MPI 5
- Procesamiento paralelo
- Comunicación punto a punto
- Enviar matrices
- Matrices sumadoras
- Comunicación colectiva
- Suma de matrices con Reducir
- Dispersar / Reunir
- Otras comunicaciones de MPI
Matrices distribuidas
- Creación de una matriz diagonal distribuida
- SVD de una matriz distribuida
- Creación de una matriz distribuida en paralelo
Statistics Aplicaciones
- Integración de Monte Carlo
- Lectura de conjuntos de datos
- Lectura de todos los procesos
- Difusión desde un proceso
- Lectura de datos particionados
- Regresión distribuida
- Distribuido Bootstrap
Los cursos públicos requieren más de 5 participantes.
Programación con Big Data en R - Reserva
Programación con Big Data en R - Consulta
Programación con Big Data en R - Solicitud de consultoría
Solicitud de consultoría
Testimonios (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curso - Programming with Big Data in R
Traducción Automática
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curso - Programming with Big Data in R
Traducción Automática
Próximos cursos
Cursos Relacionados
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEste entrenamiento en vivo dirigido por un instructor (en línea o presencial) está destinado a científicos de datos y ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Configurar un entorno de gran volumen de datos utilizando Google Colab y Spark.
- Procesar y analizar conjuntos de datos grandes de manera eficiente con Apache Spark.
- Visualizar grandes volúmenes de datos en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Análisis de Big Data en Salud
21 HorasEl análisis de big data implica el proceso de examinar grandes cantidades de conjuntos de datos variados para descubrir correlaciones, patrones ocultos y otros insights útiles.
La industria de la salud cuenta con enormes cantidades de datos médicos y clínicos complejos e heterogéneos. Aplicar técnicas de análisis de big data a los datos de salud presenta un gran potencial para derivar insights que mejoren la entrega de servicios de atención médica. Sin embargo, la inmensidad de estos conjuntos de datos plantea grandes desafíos en el análisis y las aplicaciones prácticas en un entorno clínico.
En este entrenamiento guiado por un instructor (remoto), los participantes aprenderán cómo realizar el análisis de big data en salud a través de una serie de ejercicios prácticos en vivo.
Al finalizar este entrenamiento, los participantes podrán:
- Instalar y configurar herramientas de análisis de big data como Hadoop MapReduce y Spark
- Comprender las características de los datos médicos
- Aplicar técnicas de big data para manejar datos médicos
- Estudiar sistemas y algoritmos de big data en el contexto de aplicaciones de salud
Audiencia
- Desarrolladores
- Científicos de Datos
Formato del Curso
- Parte exposición, parte discusión, ejercicios y mucha práctica hands-on.
Nota
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para arreglarlo.
Hadoop y Spark para Administradores
35 HorasEsta capacitación en vivo dirigida por un instructor en Uruguay (en línea o presencial) está dirigida a administradores de sistemas que desean aprender a configurar, implementar y administrar Hadoop clústeres dentro de su organización.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Apache Hadoop.
- Comprenda los cuatro componentes principales del ecosistema Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
- Utilice Hadoop Sistema de archivos distribuido (HDFS) para escalar un clúster a cientos o miles de nodos.
- Configure HDFS para que funcione como motor de almacenamiento para implementaciones de Spark locales.
- Configure Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3, y NoSQL sistemas de bases de datos como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Lleve a cabo tareas administrativas como el aprovisionamiento, la gestión, la supervisión y la seguridad de un clúster Apache Hadoop.
Una introducción práctica al procesamiento de flujo
21 HorasEn este entrenamiento dirigido por un instructor en Uruguay (presencial o remoto), los participantes aprenderán cómo configurar e integrar diferentes marcos de Procesamiento de Flujos con sistemas de almacenamiento de datos grandes y aplicaciones y microservicios relacionados existentes.
Al final de este entrenamiento, los participantes serán capaces de:
- Instalar y configurar diferentes marcos de Procesamiento de Flujos, como Spark Streaming y Kafka Streaming.
- Entender y seleccionar el marco más apropiado para el trabajo.
- Procesar datos continuamente, concurrentemente y de forma individual.
- Integrar soluciones de Procesamiento de Flujos con bases de datos existentes, almacenes de datos, lagos de datos, etc.
- Integrar la biblioteca de procesamiento de flujos más apropiada con aplicaciones empresariales y microservicios.
SMACK Stack para Ciencia de Datos
14 HorasEste curso de formación dirigido por un instructor en Uruguay (en línea o presencial) está destinado a científicos de datos que deseen utilizar la pila SMACK para crear plataformas de procesamiento de datos para soluciones de big data.
Al finalizar este curso, los participantes serán capaces de:
- Implementar una arquitectura de pipeline de datos para el procesamiento de big data.
- Desarrollar una infraestructura en clúster con Apache Mesos y Docker.
- Analizar datos con Spark y Scala.
- Administrar datos no estructurados con Apache Cassandra.
Fundamentos de Apache Spark
21 HorasEste curso de formación dirigido por un instructor en Uruguay (en línea o presencial) está destinado a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar cantidades muy grandes de datos.
Al finalizar este curso, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar rápidamente conjuntos de datos muy grandes.
- Comprender la diferencia entre Apache Spark y Hadoop MapReduce y cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en directo dirigida por un instructor en Uruguay (en línea o in situ) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure Apache Spark en varios entornos.
- Administre los recursos del clúster y supervise las aplicaciones de Spark.
- Optimice el rendimiento de los clústeres de Spark.
- Implemente medidas de seguridad y garantice una alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark aumenta lentamente al principio, y requiere mucho esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar la primera parte difícil. Después de completar este curso, los participantes entenderán los conceptos básicos de Apache Spark, diferenciarán claramente RDD de DataFrame, aprenderán las API de Python y Scala, comprenderán los ejecutores y tareas, etc. Además, siguiendo las mejores prácticas, este curso se centra fuertemente en la implementación en la nube, Databricks y AWS. Los estudiantes también entenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios más recientes de Spark de AWS.
AUDIENCIA:
Data Engineer, DevOps, Data Scientist
Spark para Desarrolladores
21 HorasOBJETIVO:
Este curso introducirá Apache Spark. Los estudiantes aprenderán cómo Spark se integra en el ecosistema de Big Data y cómo usar Spark para el análisis de datos. El curso cubre la shell de Spark para el análisis de datos interactivo, las internas de Spark, las APIs de Spark, Spark SQL, Spark Streaming y machine learning y GraphX.
PÚBLICO OBJETIVO:
Desarrolladores / Analistas de Datos
Escalar Pipelines de Datos con Spark NLP
14 HorasEsta capacitación en vivo dirigida por un instructor en Uruguay (en línea o presencial) está dirigida a científicos de datos y desarrolladores que deseen utilizar Spark NLP, construido sobre Apache Spark, para desarrollar, implementar y escalar modelos y tuberías de procesamiento de texto en lenguaje natural.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno de desarrollo necesario para comenzar a crear canalizaciones de NLP con Spark NLP.
- Comprender las características, la arquitectura y los beneficios del uso de Spark NLP.
- Utilice los modelos previamente entrenados disponibles en Spark NLP para implementar el procesamiento de texto.
- Aprenda a crear, entrenar y escalar modelos Spark NLP para proyectos de producción.
- Aplique la clasificación, la inferencia y el análisis de sentimientos en casos de uso del mundo real (datos clínicos, información sobre el comportamiento de los clientes, etcétera).
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Uruguay, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta capacitación en vivo dirigida por un instructor en Uruguay (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Apache Spark SQL
7 HorasSpark SQL es el módulo de Apache Spark para trabajar con datos estructurados y no estructurados. Spark SQL proporciona información sobre la estructura de los datos, así como sobre el cálculo que se está realizando. Esta información puede utilizarse para realizar optimizaciones. Dos usos comunes de Spark SQL son:
- ejecutar consultas SQL.
- leer datos de una instalación existente de Hive.
En este entrenamiento dirigido por un instructor (presencial o remoto), los participantes aprenderán a analizar diversos conjuntos de datos utilizando Spark SQL.
Al final de este curso, los participantes podrán:
- Instalar y configurar Spark SQL.
- Realizar análisis de datos con Spark SQL.
- Consultar conjuntos de datos en diferentes formatos.
- Visualizar datos y resultados de consultas.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar un entrenamiento personalizado para este curso, contáctenos para hacer los arreglos necesarios.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.
Introducción a la visualización de datos con Tidyverse y R
7 HorasPúblico objetivo
Formato del curso
Al final de esta formación, los participantes podrán:
En este entrenamiento interactivo y en vivo, los participantes aprenderán a manipular y visualizar datos utilizando las herramientas incluidas en el Tidyverse.
El Tidyverse es una colección de paquetes versátiles de R para limpiar, procesar, modelar y visualizar datos. Algunos de los paquetes incluidos son: ggplot2, dplyr, tidyr, readr, purrr y tibble.
- Principiantes en el lenguaje R
- Principiantes en el análisis de datos y visualización de datos
- Parte teórica, parte discusión, ejercicios y práctica intensiva
- Realizar análisis de datos y crear visualizaciones atractivas
- Sacar conclusiones útiles de diversos conjuntos de datos de muestra
- Filtrar, ordenar y resumir datos para responder preguntas exploratorias
- Convertir datos procesados en gráficos informativos como líneas, barras, histogramas
- Importar y filtrar datos de diversas fuentes de datos, incluyendo Excel, CSV y archivos SPSS