免费在线文字转语音常见问题解答:AI语音合成指南
免费在线文字转语音工具常见问题解答。支持本地浏览器合成和服务端VITS AI模型,解答双模式区别、发音人角色、语种支持、MP3下载、商用授权等常见疑问。
91AI 文字转语音工具提供双模式方案:本地模式调用浏览器内置 Web Speech API 离线合成,支持 30+ 种语音;服务端模式基于 VITS 神经网络模型,24kHz 采样率输出高质量 MP3。本 FAQ 解答使用文字转语音功能时的常见疑问。
什么是文字转语音(TTS)?
文字转语音(Text-to-Speech,简称 TTS)是一种将书面文字自动转换为自然语音的人工智能技术。根据 Grand View Research 报告,全球 TTS 市场规模 2025 年已达 48 亿美元,在内容创作、教育培训、无障碍辅助等领域应用广泛。
91AI 的两种 TTS 技术方案:
- 浏览器 Speech Synthesis API:操作系统内置的标准 TTS 引擎,语种覆盖广,离线可用
- VITS 神经网络模型:基于条件变分自编码器和对抗训练的端到端语音合成模型,在自然度和表现力上显著优于传统参数合成方法
本地模式和服务端模式的核心区别是什么?
| 维度 | 本地模式 | 服务端模式 |
|---|---|---|
| 合成引擎 | 浏览器内置 Web Speech API | VITS 神经网络 AI 模型 |
| 音质表现 | 标准合成音,语种多 | 自然度高,接近真人 |
| 输出格式 | 仅在线播放 | MP3 文件下载 |
| 联网需求 | 离线可用 | 需联网提交 |
| 登录要求 | 无需登录 | 需微信扫码 |
| 使用成本 | 完全免费 | 登录后免费 |
| 发音人数量 | 30+ 种(系统内置) | 5 种(含男女声) |
| 适用场景 | 快速试听、多语种对比 | 正式配音、MP3 输出 |
VITS 模型是什么?音质如何?
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种端到端语音合成架构,结合了变分推断和对抗训练。
91AI 服务端部署的 sherpa-onnx-vits-zh-ll 模型具有以下特点:
- 24kHz 采样率输出,音质清晰饱满
- 5 个预训练发音人角色,含男女声
- 对中文(普通话)深度优化,发音准确率和韵律自然度表现优异
- 模型约 115MB,推理速度快,2000 字文本约 10–20 秒完成合成
- 无需 espeak-ng 等外部依赖
支持哪些发音人角色?
服务端模式提供 5 种发音人:
| 编号 | 音色 | 推荐用途 |
|---|---|---|
| 0 | 默认女声(通用型) | 新闻播报、教程讲解、通知语音 |
| 1 | 男声 | 故事叙述、企业宣传片旁白 |
| 2 | 女声 | 儿童内容、客服应答、生活提示 |
| 3 | 男声 | 纪录片解说、产品发布演示 |
| 4 | 男声 | 广告配音、促销广播 |
根据内容风格选择合适的发音人可获得更好的听觉体验。正式作品建议生成后试听确认。
合成语音支持哪些语言?
服务端 VITS 模型:主要针对中文(普通话)优化,中文合成效果最佳。
本地浏览器模式:支持操作系统内置的 30+ 种语音,包括但不限于:
- 中文(普通话、粤语)
- 英语(美式、英式、澳式)
- 日语
- 韩语
- 法语、德语、西班牙语、意大利语
- 葡萄牙语、俄语、阿拉伯语
本地模式的可用语种取决于操作系统和浏览器,Windows 和 macOS 内置语音库有所不同。
合成的语音可以商用吗?
本地浏览器合成语音调用系统 API,无额外使用限制。
服务端 VITS 模型基于开源框架(sherpa-onnx)部署,由 91AI 提供在线服务。合成的语音文件通常可用于个人创作和商业项目。如需大规模商用,建议确认具体场景是否符合平台服务条款。
单次最多可以合成多少字?
单次最大输入 2000 字,约可合成 5–8 分钟语音。如需更长的内容,建议分段合成后使用音频剪辑工具拼接。
服务端模式处理速度如何?
2000 字文本合成约需 10–20 秒(受服务器负载影响)。合成速度远快于实时播放,无需长时间等待。
本地模式语音下拉为空如何处理?
浏览器首次加载时,Web Speech API 可能尚未完成初始化。尝试以下方法:
- 等待 1–2 秒,语音列表自动出现
- 刷新页面重新加载
- 使用 Chrome 或 Edge 浏览器(对 Web Speech API 兼容性最佳)
- 部分移动端浏览器不支持 TTS 语音枚举,建议在桌面端使用
适合哪些使用场景?
| 场景 | 推荐模式 | 说明 |
|---|---|---|
| 短视频配音 | 服务端模式 | 导出 MP3 直接导入剪辑软件 |
| 有声书制作 | 服务端模式 | 多角色发音人切换 |
| 教学课件配音 | 服务端模式 | 标准 MP3 嵌入 PPT/视频 |
| 外语跟读练习 | 本地模式 | 多语种对比发音 |
| 产品演示旁白 | 服务端模式 | 高品质配音提升专业感 |
| 文本内容预览 | 本地模式 | 快速听取文字是否正确流畅 |
合成的 MP3 音质如何?
服务端模式输出标准 MP3 格式,24kHz 采样率。相比常规 16kHz 电话音质,24kHz 可覆盖大部分语音频段,人声清晰饱满,齿音和气息细节保留完整。适合直接用于短视频、课件、广告等场景。
服务端模式需要网络吗?
需要。文字内容需要上传到服务器进行 AI 模型推理,合成完成后返回 MP3 文件。建议在稳定的 WiFi 或 4G/5G 网络下使用。单次上传的数据量极小(仅文本内容),即使移动网络也可流畅使用。