说明文档
Fish Speech 是一款由 Fish Audio 团队推出的领先语音生成框架。它不同于传统的 TTS,采用了类似于大语言模型的自回归架构,将语音转化为离散的 Token 进行处理。这使得它在处理复杂的韵律、情感以及细微的呼吸声时,表现出了接近真人的自然度。
核心亮点
- 极致的拟人感(Human-like Prosody):得益于先进的 LLM 架构,生成的语音不再生硬,能够自动补全语境中的停顿、重音和语气词,甚至可以模拟叹气和笑声。
- 超短样本克隆(Zero-shot Cloning):只需提供一段 5-10 秒 的参考音频,模型即可在不进行额外训练的情况下,高度还原目标人物的音色和发声习惯。
- 原生多语种支持:深度优化了中文、英文、日文、韩语等多种语言的合成效果。支持跨语种翻译式合成,即:让一个只会说中文的人开口说出地道的伦敦腔英语。
- 双模态推理(TTS & S2S):
- TTS (Text-to-Speech):文字转语音,适合配音和阅读场景。
- S2S (Speech-to-Speech):语音转语音,支持实时变声,保留原讲述者的情感起伏同时替换音色。
核心功能
- 高效率流式生成:支持流式推理(Streaming),首包响应速度极快,是构建实时 AI 助手或虚拟人交互的理想选择。
- 完善的工具链:内置了一套完整的数据处理脚本,包括自动切分音频、自动打标(ASR)以及数据清洗,极大地降低了用户微调(Fine-tuning)专属模型的门槛。
- API 友好集成:提供标准的 OpenAI 兼容接口,可以轻松集成到各种第三方应用或自动化工作流中。
- 显存优化:针对消费级显卡进行了深度优化,在保证画质(音质)的前提下,大幅降低了推理时的显存占用。
适用群体
- 视频创作者/UP 主:快速生成高质量、具感染力的旁白配音。
- 游戏与互动剧开发者:为角色注入独特声线,实现极具沉浸感的对话体验。
- AI 智能体研发团队:作为底层语音引擎,为 AI Agent 提供快速响应且富有情感的嘴替。
- 播客爱好者:将文字内容一键转化为高质量的有声节目。

