Programa del Curso

Introducción a la IA Multimodal y Ollama

  • Visión general del aprendizaje multimodal
  • Desafíos clave en la integración visión-lenguaje
  • Capacidades e infraestructura de Ollama

Configurando el Entorno de Ollama

  • Instalación y configuración de Ollama
  • Trabajando con la implementación local de modelos
  • Integrando Ollama con Python y Jupyter

Trabajar con Entradas Multimodales

  • Integración de texto e imagen
  • Incorporando audio y datos estructurados
  • Diseño de pipelines de preprocesamiento

Aplicaciones de Comprensión Documental

  • Extracción de información estructurada desde PDFs e imágenes
  • Combinando OCR con modelos de lenguaje
  • Cree flujos de trabajo inteligentes de análisis documentales

Pregunta y Respuesta Visual (VQA)

  • Configuración de conjuntos de datos VQA y referencias
  • Entrenamiento y evaluación de modelos multimodales
  • Cree aplicaciones interactivas de VQA

Diseño de Agentes Multimodales

  • Principios del diseño de agentes con razonamiento multimodal
  • Combinando percepción, lenguaje y acción
  • Implementación de agentes para casos de uso real

Integración Avanzada y Optimización

  • Afinamiento de modelos multimodales con Ollama
  • Optimización del rendimiento de inferencia
  • Consideraciones de escalabilidad e implementación

Resumen y Próximos Pasos

Requerimientos

  • Comprensión sólida de los conceptos de aprendizaje automático
  • Experiencia con marcos de aprendizaje profundo como PyTorch o TensorFlow
  • Familiaridad con el procesamiento del lenguaje natural y la visión por computadora

Público objetivo

  • Ingenieros de aprendizaje automático
  • Investigadores de IA
  • Desarrolladores de productos que integran flujos de trabajo de visión y texto
 21 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas