Programa del Curso
Sección 1: Introducción a Hadoop
- Historia de Hadoop, conceptos
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitos de Hadoop
- Desafíos de Hadoop
- Hardware / Software
- Lab : Primer vistazo a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de racks)
- Daemons : Nodo de nombre, Nodo de nombre secundario,Nodo de datos
- Comunicaciones / Latidos del corazón
- Integridad de los datos
- Ruta de lectura/escritura
- Alta disponibilidad (HA) de nodo de nombre, federación
- labs : Interacción con HDFS
Sección 3 : Reducción de mapas
- Conceptos y arquitectura
- daemons (MRV1) : jobtracker / tasktracker
- Fases : Controlador, Mapeador, Aleatorio/Ordenar, Reductor
- Map Reduce Versión 1 y Versión 2 (YARN)
- Aspectos internos de Map Reduce
- Introducción al programa Java Map Reduce
- labs : Ejecución de un programa MapReduce de ejemplo
Sección 4 : Cerdo
- Pig vs Java Map Reduce
- Flujo de trabajo porcino
- Cerdo Idioma Latino
- ETL con Pig
- Transformaciones y uniones
- Funciones definidas por el usuario (UDF)
- labs : escribir scripts Pig para analizar datos
Sección 5: Hive
- Arquitectura y diseño
- Tipos de datos
- SQL Soporte en Hive
- Creación de tablas de Hive y consultas
- Particiones
- Une
- Procesamiento de textos
- labs : varios laboratorios sobre el procesamiento de datos con Hive
Sección 6: HBase
- Conceptos yarquitectura
- hbase vs RDBMS vs cassandra
- HBase Java API
- Datos de series temporales en HBase
- Diseño de esquemas
- labs : Interacción con HBase mediante shell; programación en la API de HBase Java; Ejercicio de diseño de esquemas
Requerimientos
- cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
- cómodo en el entorno Linux (ser capaz de navegar por la línea de comandos Linux, editar archivos usando vi / nano)
Entorno de laboratorio
Instalación cero: ¡ No es necesario instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará a los estudiantes un clúster de hadoop en funcionamiento.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
- Un explorador para acceder al clúster. Recomendamos el navegador Firefox
Testimonios (4)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Muy poco, se me dificulto mucho y mas por que entre desfasado, no tome los primeras sesiones.