Temario del curso

Introducción a las Operaciones de Kubernetes Impulsadas por IA

  • Por qué la IA es importante para las operaciones modernas de clústeres
  • Limitaciones de la lógica tradicional de escalado y programación
  • Conceptos clave del aprendizaje automático para la gestión de recursos

Fundamentos de la Gestión de Recursos en Kubernetes

  • Fundamentos de asignación de CPU, GPU y memoria
  • Comprender cuotas, límites y solicitudes
  • Identificar cuellos de botella e ineficiencias

Enfoques de Aprendizaje Automático para la Programación

  • Modelos supervisados y no supervisados para el colocamiento de cargas de trabajo
  • Algoritmos predictivos para la demanda de recursos
  • Usar características de ML en programadores personalizados

Aprendizaje por Refuerzo para el Autoscaling Inteligente

  • Cómo los agentes de RL aprenden del comportamiento del clúster
  • Diseñar funciones de recompensa para la eficiencia
  • Construir estrategias de autoscaling impulsadas por RL

Autoscaling Predictivo con Métricas y Telemetría

  • Usar datos de Prometheus para pronóstico
  • Aplicar modelos de series temporales al autoscaling
  • Evaluar la precisión de las predicciones y ajustar los modelos

Implementación de Herramientas de Optimización Impulsadas por IA

  • Integrar marcos de ML con controladores de Kubernetes
  • Desplegar bucles de control inteligentes
  • Extender KEDA para la toma de decisiones asistida por IA

Estrategias de Optimización de Costos y Rendimiento

  • Reducir los costos de cálculo mediante el escalado predictivo
  • Mejorar la utilización de GPU con colocación impulsada por ML
  • Equilibrar latencia, rendimiento y eficiencia

Escenarios Prácticos y Casos de Uso del Mundo Real

  • Autoscaling de aplicaciones de alta carga con IA
  • Optimización de grupos de nodos heterogéneos
  • Aplicar ML a entornos multiinquilino

Resumen y Pasos Siguientes

Requerimientos

  • Conocimiento de los fundamentos de Kubernetes
  • Experiencia con implementaciones de aplicaciones contenerizadas
  • Familiaridad con operaciones y administración de recursos en clústeres

Audiencia

  • Ingenieros de confiabilidad de sitios (SREs) que trabajan con sistemas distribuidos a gran escala
  • Operadores de Kubernetes que gestionan cargas de trabajo de alta demanda
  • Ingenieros de plataforma que optimizan la infraestructura de cálculo
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas