Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a la síntesis de habla y la clonación de voz
- Descripción general de la tecnología texto-a-voz (TTS) y la síntesis neuronal de voz.
- Clonación de voz vs. generación de habla: casos de uso y límites.
- Modelos clave: Tacotron, WaveNet, FastSpeech y VITS.
Trabajo con plataformas comerciales
- Uso de ElevenLabs y Resemble AI.
- Creación, clonación y edición de voces.
- Acceso a APIs y flujos de trabajo de texto-a-voz.
Desarrollo con herramientas de código abierto
- Instalación y configuración de Coqui TTS.
- Entrenamiento de voces personalizadas y gestión de conjuntos de datos.
- Generación de habla con control fino (tono, velocidad, emoción).
Preparación de datos y gestión de bases de datos de voz
- Recolección y limpieza de muestras de voz.
- Segmentación, etiquetado y alineación de transcripciones.
- Obtención ética de datos y consentimiento para el uso de la voz.
Integración de aplicaciones
- Incorporación de TTS en sitios web y aplicaciones.
- Creación de sistemas IVR y bots interactivos.
- Generación de diálogos sintéticos para videojuegos y producciones audiovisuales.
Evaluación de la calidad y el realismo
- Puntuación media de opinión (MOS) y pruebas de inteligibilidad.
- Control de la expresividad y la prosodia.
- Comparación de la latencia, la fidelidad y el realismo.
Consideraciones éticas, legales y de gobernanza
- Riesgos relacionados con los deepfakes y uso responsable.
- Implicaciones en materia de consentimiento, atribución y derechos de autor.
- Regulaciones aplicables y políticas organizacionales.
Resumen y próximos pasos
Requerimientos
- Conocimientos fundamentales sobre aprendizaje automático.
- Familiaridad con formatos de archivos de audio y herramientas de edición.
- Habilidades básicas de programación en Python.
Público objetivo
- Desarrolladores e ingenieros de IA interesados en la síntesis de habla.
- Creadores de contenido y tecnólogos multimedia que exploran la generación de voz.
- Equipos de I+D que construyen sistemas de audio personalizados o dinámicos.
14 Horas