Contacta con nosotros

Temario del curso

Introducción al AIOps predictivo

    \r
  • Visión general del análisis predictivo en operaciones de TI.
  • Fuentes de datos para la predicción (registros, métricas, eventos).
  • Conceptos clave en la previsión de series temporales y patrones de anomalías.

Diseño de modelos de predicción de incidentes

  • Clasificación histórica de incidentes y comportamiento del sistema.
  • Selección y entrenamiento de modelos (por ejemplo, LSTM, Random Forest, AutoML).
  • Evaluación del rendimiento del modelo y manejo de falsos positivos.

Recolección de datos e ingeniería de características

  • Ingesta y alineación de datos de registros y métricas para la entrada del modelo.
  • Extracción de características a partir de datos estructurados y no estructurados.
  • Manejo de ruido y datos faltantes en los flujos operativos.

Automatización del análisis de la causa raíz (RCA)

  • Correlación basada en grafos de servicios e infraestructura.
  • Uso de aprendizaje automático para inferir causas raíz probables a partir de cadenas de eventos.
  • Visualización del RCA mediante paneles conscientes de la topología.

Corrección y automatización de flujos de trabajo

  • Integración con plataformas de automatización (por ejemplo, Ansible, Rundeck).
  • Activación de reversiones, reinicios o redirección del tráfico.
  • Auditoría y documentación de intervenciones automatizadas.

Escalamiento de flujos de trabajo AIOps inteligentes

  • MLOps para observabilidad: reentrenamiento y versión de modelos.
  • Ejecución de predicciones en tiempo real a través de nodos distribuidos.
  • Mejores prácticas para desplegar AIOps en entornos de producción.

Estudios de caso y aplicaciones prácticas

  • Análisis de datos reales de incidentes utilizando modelos AIOps predictivos.
  • Despliegue de flujos de trabajo de RCA con datos sintéticos y de producción.
  • Revisión de casos de uso en la industria: interrupciones en la nube, inestabilidad en microservicios y degradación de la red.

Resumen y próximos pasos

Requerimientos

  • Experiencia con sistemas de monitoreo como Prometheus o ELK.
  • Conocimientos prácticos de Python y fundamentos de aprendizaje automático.
  • Familiaridad con flujos de trabajo de gestión de incidentes.

Público objetivo

  • Ingenieros senior de confiabilidad del sitio (SRE).
  • Arquitectos de automatización de TI.
  • Líderes de plataformas DevOps y observabilidad.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas