Cómo instalar CoquiTTS en Docker. CoquiTTS: generación de texto a voz. Clona y entrena tu propia IA con tu voz.
Coqui TTS: Síntesis de voz de calidad profesional en Docker
Deep learning toolkit para Text-to-Speech con +1100 idiomas, modelos preentrenados y clonación de voz en tu propio servidor.
¿Qué es Coqui TTS?
Coqui TTS es un toolkit de código abierto para síntesis de voz (Text-to-Speech) basado en deep learning. Es una de las herramientas más potentes y completas para generar voz sintética de alta calidad, probada tanto en investigación como en producción.
Destaca por incluir modelos preentrenados en más de 1100 idiomas, capacidades de clonación de voz, síntesis multiidioma, y herramientas para entrenar tus propios modelos personalizados. Todo ejecutándose en tu propio hardware, sin dependencias de servicios cloud ni límites de uso.
Características principales
Modelos preentrenados
Más de 1100 idiomas disponibles gracias a la integración con Fairseq. Múltiples arquitecturas de modelos TTS.
Clonación de voz
XTTS permite clonar cualquier voz con solo 6 segundos de audio de referencia en 13+ idiomas.
Multi-speaker TTS
Soporte para múltiples voces en un mismo modelo. Cambia entre diferentes hablantes fácilmente.
Entrenamiento personalizado
Entrena tus propios modelos con tus datos. Fine-tuning de modelos existentes para casos específicos.
Modelos estado del arte
Tacotron2, VITS, YourTTS, Tortoise, Bark, FastSpeech2, GlowTTS y más arquitecturas modernas.
Vocoders avanzados
HiFiGAN, MelGAN, WaveRNN, WaveGrad para síntesis de audio de alta calidad.
API Python y CLI
Interfaz Python completa y herramienta de línea de comandos para integración fácil.
Servidor web integrado
Servidor HTTP listo para usar. Llama al modelo TTS via API REST.
Conversión de voz
FreeVC para convertir una voz en otra manteniendo el contenido del habla.
Speaker Encoder
Extrae embeddings de hablantes para aplicaciones de reconocimiento y clonación.
Herramientas de análisis
Utilidades para curar y analizar datasets de Text-to-Speech.
Producción lista
Battle-tested en investigación y producción. Usado por empresas y proyectos reales.
Modelos disponibles
Coqui TTS incluye decenas de modelos preentrenados listos para usar:
Modelos end-to-end destacados
Modelos por idioma
- Inglés: LJSpeech, VCTK, LibriTTS, Jenny
- Español: CSS10 (hombre), MAI (mujer), Tacotron2-DDC
- Alemán: Thorsten (Tacotron2, VITS)
- Francés: MAI, CSS10
- Portugués: VITS, YourTTS
- Turco, Checo, Polaco, Húngaro: CSS10, Common Voice
- +1100 idiomas: Modelos Fairseq MMS
Requisitos del sistema
- Docker instalado en tu servidor
- Al menos 4 GB de RAM (recomendado 8 GB)
- CPU: Funciona en CPU, pero será lento para modelos grandes
- GPU (opcional pero recomendado): NVIDIA con CUDA para inferencia rápida
- Espacio en disco: 2-10 GB dependiendo de los modelos que descargues
Instalación con Docker Compose
Paso 1: Crear el directorio del proyecto
Paso 2: Crear el archivo docker-compose.yml
Crea el archivo docker-compose.yml con el siguiente contenido:
command debe estar descomentada. Elige el modelo que mejor se adapte a tu idioma y caso de uso.
Paso 3: Iniciar el contenedor
Paso 4: Verificar que está corriendo
Paso 5: Acceder al servidor TTS
Abre tu navegador y ve a: http://tu-ip-servidor:5002
Verás una interfaz web donde puedes escribir texto y generar audio.
Modelos de voz en español
Voz masculina en español
Modelo VITS entrenado con el dataset CSS10 en español. Voz masculina natural.
Voz femenina en español
Modelo Tacotron2 con Double Decoder Consistency. Voz femenina clara y natural.
Modelo multiidioma con clonación de voz (XTTS v2)
El modelo más avanzado. Soporta 16 idiomas y permite clonar cualquier voz con solo 6 segundos de audio de referencia.
Idiomas soportados: Inglés, Español, Francés, Alemán, Italiano, Portugués, Polaco, Turco, Ruso, Holandés, Checo, Árabe, Chino, Japonés, Húngaro, Coreano.
Uso desde la línea de comandos
Listar modelos disponibles
Generar audio con modelo específico
Clonación de voz con XTTS
Uso desde Python
Instalación de la biblioteca
Ejemplo básico
Clonación de voz multiidioma
Multi-speaker con selección de voz
Servidor web y API REST
El servidor TTS expone una API REST en el puerto 5002 con dos endpoints principales:
Endpoint: /api/tts (GET)
Genera audio desde texto:
Parámetros opcionales
speaker_id- ID del hablante (para modelos multi-speaker)style_wav- Archivo de referencia para clonaciónlanguage_id- Código de idioma para modelos multiidioma
Interfaz web
Accede a http://localhost:5002 para usar la interfaz gráfica donde puedes:
- Escribir texto y generar audio
- Escuchar el resultado directamente
- Descargar el archivo WAV generado
- Probar diferentes configuraciones
Gestión del contenedor
Ver logs en tiempo real
Reiniciar el servicio
Cambiar de modelo
Edita docker-compose.yml, cambia la línea command y reinicia:
Detener el contenedor
Actualizar la imagen
Uso con GPU NVIDIA (opcional)
Para inferencia mucho más rápida, usa la imagen GPU:
Requisitos: NVIDIA GPU, drivers NVIDIA, y nvidia-container-toolkit instalado.
Casos de uso
- Asistentes de voz: Crear respuestas habladas para chatbots y asistentes virtuales
- Audiolibros: Convertir texto a audio narrado de forma automática
- Accesibilidad: Lectores de pantalla y herramientas para personas con discapacidad visual
- E-learning: Narración automática de contenido educativo
- Videojuegos: Diálogos de personajes generados dinámicamente
- IVR y call centers: Sistemas telefónicos automatizados con voz natural
- Podcasts automatizados: Generación de contenido de audio desde noticias o artículos
- Doblaje multiidioma: Traducir contenido y generar audio en varios idiomas
Comentarios
Publicar un comentario