Cómo instalar Chatterbox TTS en Docker - API de text-to-speech con clonación de voz en Docker
Chatterbox TTS: API de text-to-speech con clonación de voz en Docker
Text-to-speech local compatible con OpenAI. Clona tu voz en 10 segundos. 22 idiomas. FastAPI. GPU (NVIDIA/AMD) y CPU. React frontend. Docker ready. Open source.
¿Qué es Chatterbox TTS?
Chatterbox TTS es una API local de text-to-speech (TTS) completamente compatible con OpenAI que permite clonar tu propia voz para generar speech natural. A diferencia de Google Cloud TTS (caro, en nube), Eleven Labs (suscripción), o Azure TTS (compliance complejo), Chatterbox es gratuito, self-hosted, y permite voz clonada con solo ~10 segundos de muestra de audio.
Características principales: OpenAI-compatible (drop-in replacement para cualquier app que use OpenAI TTS). Clonación de voz zero-shot (~10 segundos needed). 22 idiomas multilingües. FastAPI ultra-rápido. React frontend incluido. GPU support: NVIDIA (CUDA), AMD (ROCm), o CPU. Almacenamiento persistente de voces. Integración con Open WebUI, AnythingLLM, LM Studio. Configuración por environment variables. Docker optimizado.
Características principales
Clonación de voz
Solo ~10 segundos de muestra. Zero-shot. Tu voz clonada.
OpenAI compatible
Drop-in replacement. Same API. Integra en cualquier app.
22 idiomas
Soporte multilingüe. Voice cloning en cualquier idioma.
FastAPI
Async, rápido, documentación automática en /docs.
React frontend
UI lista para usar. Web interface incluida.
GPU & CPU
NVIDIA (CUDA), AMD (ROCm), CPU. Elige tu hardware.
Voice library
Upload, gestiona, usa voces por nombre.
Controles parámetricos
Exageración, CFG weight, seed para control fine-grained.
Smart text processing
Chunking automático para textos largos.
Real-time status
Monitor progress, estadísticas, historial requests.
Docker ready
Full containerization. Persistent storage. Easy deploy.
Open source
MIT licensed. Código abierto. Community-driven.
Requisitos del sistema
- Docker & Docker Compose
- 4-8 GB RAM (depende de modelo y hardware)
- 10+ GB espacio disco (modelos + voces)
- GPU recomendada: NVIDIA (6GB+ VRAM tipo RTX 3060) o AMD ROCm
- CPU posible pero lento: Intel/AMD de múltiples cores para razonable performance
- Puerto 4123 para API
- Archivos de voz en MP3 para clonación (10+ segundos)
Instalación en Docker
Paso 1: Clonar repositorio
Paso 2: Preparar archivo de voz (clonación)
Importante: Para clonar tu voz, necesitas un archivo MP3/WAV de 10-30 segundos de tu voz hablando claramente.
Paso 3: Configurar ambiente Docker
Paso 4: Editar docker-compose.yml
Paso 5: Iniciar con Docker Compose
Acceder a la API
http://localhost:4123 - Frontend React
http://localhost:4123/docs - Documentación interactiva OpenAPI/Swagger
Clonar tu propia voz (paso a paso)
1. Preparar muestra de voz
- Grabar: 10-30 segundos de tu voz hablando claramente
- Calidad: Sin ruido de fondo. Micrófono decente.
- Contenido: Lee un párrafo. Frases naturales. Evita "ummm", risas, toques.
- Formato: MP3, WAV, OGG. Chatterbox soporta varios formatos.
2. Convertir a MP3 si es necesario
3. Coloca el archivo en el directorio
4. Chatterbox automáticamente usa tu voz
La variable VOICE_SAMPLE_PATH en docker-compose.yml apunta a tu archivo. Cuando Chatterbox TTS genera speech sin especificar una voz, usa tu muestra como referencia para clonar la voz.
5. Probar clonación via API
Primeros pasos
1. Verificar que está corriendo
2. Acceder a la UI React
- Abre
http://localhost:4123en navegador - Frontend React aparece
- Escribe texto
- Click "Generate Speech"
- Escucha tu voz clonada
3. Usar API directamente (como OpenAI)
4. Integrar con Open WebUI
- Open WebUI Settings → Admin Settings → Text-to-Speech
- TTS Engine: OpenAI
- API Key: any-key (dummy)
- Base URL:
http://localhost:4123/v1 - Voice: default
- Ahora tu LLM hablará con tu voz clonada
5. Parámetros avanzados
Parámetros:
- exaggeration: 0-1. Control emoción/expresión (0.7 default)
- cfg_weight: 0-1. Control fidelidad a muestra (0.4 default)
- seed: Número fijo = mismo resultado siempre
- speed: Velocidad habla (0.5-2.0)
Casos de uso
- ChatBot con tu voz: Open WebUI + Chatterbox TTS. El LLM habla como TÚ.
- Audiobook generador: Convierte texto a narración con tu voz.
- Asistente de voz: Local voice assistant con tu voz clonada.
- Contenido multilingüe: Tu voz en 22 idiomas.
- Podcast automation: Script → podcast hablado por TI.
- Accesibilidad: Convierte docs a audio con voz familiar.
- Learning tools: Flashcards, tutoriales hablados con tu voz.
Gestión y mantenimiento
Ver logs y estado
Detener/reiniciar
Cambiar voz de clonación
Monitorear memoria/GPU
Actualizar imagen
Backup de voces guardadas
Troubleshooting
CUDA out of memory
Modelo no carga
Voice sample no encontrado
API lenta
- Verifica que GPU está siendo usada:
nvidia-smi - Si CPU-only, es normal (lento)
- Considera GPU más potente para producción
Comparativa con alternativas
vs Eleven Labs
Chatterbox gana: Gratuito, self-hosted, voice cloning local. Eleven Labs gana: Voces naturales pre-entrenadas, mejor calidad.
vs Google Cloud TTS
Chatterbox gana: Voice cloning, gratis, local. Google gana: Voces premium, multinacionales.
vs Azure TTS
Chatterbox gana: Simple, voice cloning. Azure gana: Enterprise, HIPAA, features avanzadas.
vs pyttsx3
Chatterbox gana: Mejor calidad, voice cloning, 22 idiomas. pyttsx3 gana: Ultra-ligero, sin GPU.
Comentarios
Publicar un comentario