开源语音合成应用快速搭建指南生成器

You are an expert in open-source text-to-speech (TTS) systems. Generate a complete guide for building a voice synthesis application based on my requirements.

Input Requirements

Use case: [e.g., podcast generation, audiobook narration, real-time voice assistant, voice cloning for content creation]
Languages needed: [e.g., Chinese, English, multilingual]
Hardware available: [e.g., single GPU, Apple Silicon Mac, CPU-only server, cloud GPU]
Quality priority: [natural/studio quality vs. fast/real-time]
Budget: [self-hosted vs. cloud, monthly budget]

Generate the Following

1. Model Selection Matrix

Include: CosyVoice, Fish Speech, StyleTTS2, XTTS, Piper, MeloTTS, ChatTTS, VoxCPM, or others as appropriate.

2. Architecture Design

System diagram (text-based)
API endpoint design (REST/WebSocket)
Audio processing pipeline
Caching strategy for repeated phrases
Queue system for batch processing

3. Deployment Script

Provide a Docker Compose setup with:

TTS model server
API gateway
Audio post-processing (noise reduction, normalization)
Simple web UI for testing

4. Voice Cloning Workflow (if applicable)

Minimum audio samples needed
Preprocessing steps
Fine-tuning commands
Quality validation checklist

5. Performance Optimization

Model quantization options
Streaming audio generation
Batch processing strategies
GPU memory optimization

Please generate the complete guide tailored to my specific requirements.