Contacta con nosotros

Temario del curso

Introducción a la síntesis de habla y la clonación de voz

  • Descripción general de la tecnología texto-a-voz (TTS) y la síntesis neuronal de voz.
  • Clonación de voz vs. generación de habla: casos de uso y límites.
  • Modelos clave: Tacotron, WaveNet, FastSpeech y VITS.

Trabajo con plataformas comerciales

  • Uso de ElevenLabs y Resemble AI.
  • Creación, clonación y edición de voces.
  • Acceso a APIs y flujos de trabajo de texto-a-voz.

Desarrollo con herramientas de código abierto

  • Instalación y configuración de Coqui TTS.
  • Entrenamiento de voces personalizadas y gestión de conjuntos de datos.
  • Generación de habla con control fino (tono, velocidad, emoción).

Preparación de datos y gestión de bases de datos de voz

  • Recolección y limpieza de muestras de voz.
  • Segmentación, etiquetado y alineación de transcripciones.
  • Obtención ética de datos y consentimiento para el uso de la voz.

Integración de aplicaciones

  • Incorporación de TTS en sitios web y aplicaciones.
  • Creación de sistemas IVR y bots interactivos.
  • Generación de diálogos sintéticos para videojuegos y producciones audiovisuales.

Evaluación de la calidad y el realismo

  • Puntuación media de opinión (MOS) y pruebas de inteligibilidad.
  • Control de la expresividad y la prosodia.
  • Comparación de la latencia, la fidelidad y el realismo.

Consideraciones éticas, legales y de gobernanza

  • Riesgos relacionados con los deepfakes y uso responsable.
  • Implicaciones en materia de consentimiento, atribución y derechos de autor.
  • Regulaciones aplicables y políticas organizacionales.

Resumen y próximos pasos

Requerimientos

  • Conocimientos fundamentales sobre aprendizaje automático.
  • Familiaridad con formatos de archivos de audio y herramientas de edición.
  • Habilidades básicas de programación en Python.

Público objetivo

  • Desarrolladores e ingenieros de IA interesados en la síntesis de habla.
  • Creadores de contenido y tecnólogos multimedia que exploran la generación de voz.
  • Equipos de I+D que construyen sistemas de audio personalizados o dinámicos.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas