Temario del curso
1. Introducción al Deep Reinforcement Learning
- ¿Qué es el Aprendizaje por Refuerzo?
- Diferencia entre Aprendizaje Supervisado, No Supervisado y por Refuerzo
- Aplicaciones del DRL en 2025 (robótica, atención médica, finanzas, logística)
- Entendimiento del ciclo de interacción agente-entorno
2. Fundamentos del Aprendizaje por Refuerzo
- Procesos de Decisión de Markov (MDP)
- Estado, Acción, Recompensa, Política y Funciones de Valor
- Equilibrio entre Exploración y Explotación
- Métodos Monte Carlo y Aprendizaje Temporal-Diferencia (TD)
3. Implementando Algoritmos Básicos de RL
- Métodos tabulares: Programación Dinámica, Evaluación de Políticas y Iteración
- Q-Learning y SARSA
- Exploración epsilon-greedy y estrategias de decrecimiento
- Implementando entornos de RL con OpenAI Gymnasium
4. Transición al Deep Reinforcement Learning
- Limitaciones de los métodos tabulares
- Uso de redes neuronales para la aproximación funcional
- Arquitectura y flujo de trabajo de Deep Q-Network (DQN)
- Repetición de experiencias y redes objetivo
5. Algoritmos Avanzados de DRL
- Double DQN, Dueling DQN y Repetición Priorizada de Experiencias
- Métodos de Gradientes de Políticas: Algoritmo REINFORCE
- Arquitecturas Actor-Critic (A2C, A3C)
- Optimización de Política Proximal (PPO)
- Soft Actor-Critic (SAC)
6. Trabajando con Espacios de Acciones Continuas
- Desafíos en el control continuo
- Uso de DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Herramientas y Marco Práctico
- Uso de Stable-Baselines3 y Ray RLlib
- Registro y monitoreo con TensorBoard
- Ajuste de hiperparámetros para modelos de DRL
8. Ingeniería de Recompensas y Diseño de Entornos
- Formación de recompensas y equilibrio de penalizaciones
- Conceptos de transferencia de aprendizaje simulación a realidad
- Creación de entornos personalizados en Gymnasium
9. Entornos Parcialmente Observables y Generalización
- Manejo de información estatal incompleta (POMDPs)
- Enfoques basados en memoria usando LSTMs y RNNs
- Mejora de la robustez y generalización del agente
10. Teoría de Juegos y Aprendizaje por Refuerzo Multi-Agente
- Introducción a entornos multi-agente
- Cooperación vs. Competencia
- Aplicaciones en entrenamiento adversarial y optimización de estrategias
11. Estudios de Caso y Aplicaciones del Mundo Real
- Simulaciones de conducción autónoma
- Precio dinámico y estrategias de trading financiero
- Robótica y automatización industrial
12. Solución de Problemas y Optimización
- Diagnóstico del entrenamiento inestable
- Manejo de la escasez de recompensas y el sobreajuste
- Escalado de modelos de DRL en GPUs y sistemas distribuidos
13. Resumen y Pasos Siguientes
- Repaso de la arquitectura de DRL y algoritmos clave
- Tendencias de la industria y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
- Recursos adicionales y materiales de lectura
Requerimientos
- Dominio del lenguaje de programación Python
- Comprensión del Cálculo y el Álgebra Lineal
- Conocimientos básicos de Probabilidad y Estadística
- Experiencia en la construcción de modelos de aprendizaje automático usando Python y NumPy o TensorFlow/PyTorch
Audiencia
- Desarrolladores interesados en IA y sistemas inteligentes
- Científicos de datos que exploran marcos de aprendizaje por refuerzo
- Ingenieros de Aprendizaje Automático que trabajan con sistemas autónomos
Testimonios (3)
Me gustó mucho el final donde tuvimos la oportunidad de experimentar con CHAT GPT. La sala no estaba muy bien preparada para esto; en lugar de una gran mesa, varias mesas pequeñas nos habrían permitido formar grupos pequeños y generar ideas de manera más efectiva.
Nola - Laramie County Community College
Curso - Artificial Intelligence (AI) Overview
Traducción Automática
Trabajando desde principios fundamentales de manera enfocada y pasando a aplicar estudios de caso en el mismo día
Maggie Webb - Department of Jobs, Regions, and Precincts
Curso - Artificial Neural Networks, Machine Learning, Deep Thinking
Traducción Automática
Que se estuviera aplicando datos reales de la empresa. El formador tenía un enfoque muy bueno al hacer que los participantes colaboraran y competieran.
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Curso - Applied AI from Scratch in Python
Traducción Automática