文字转语音使用指南:AI在线语音合成工具
学习如何使用在线文字转语音工具,支持本地浏览器合成和服务端VITS AI模型两种模式。本地模式免费离线可用,服务端模式音质自然支持多种发音人并导出MP3。
文字转语音的市场与需求
文字转语音(Text-to-Speech,简称 TTS)利用人工智能将书面文字自动转化为自然流畅的语音。根据 Grand View Research 数据,2025 年全球 TTS 市场规模超过 48 亿美元,预计到 2030 年将增长至 102 亿美元,年复合增长率约 16.2%。
AI 配音需求从短视频配音、有声书制作到教学课件配音,覆盖内容创作的各个环节。91AI 文字转语音工具提供本地和服务端双模式方案,满足不同场景需求。
91AI 双模式对比
| 特性 | 本地模式(浏览器合成) | 服务端模式(VITS AI) |
|---|---|---|
| 处理方式 | 浏览器内置引擎离线合成 | 服务器 AI 模型合成 |
| 联网要求 | 完全离线可用 | 需联网上传 |
| 登录要求 | 无需登录 | 需微信扫码登录 |
| 使用费用 | 完全免费 | 免费(登录后使用) |
| 音质评价 | 标准合成音,语种丰富 | 4.5/5 分,接近真人录音 |
| 采样率 | 取决于浏览器 | 24kHz |
| 发音人数量 | 30+ 种(操作系统内置) | 5 种(含男女声) |
| 文件导出 | 不支持导出 | 支持下载 MP3 |
| 语速调节 | 0.5x – 2.0x | 0.5x – 2.0x |
| 音调调节 | 支持 | 不支持 |
选择适合的模式
本地模式适合快速试听、隐私敏感场景或离线使用。调用浏览器内置 Web Speech API,操作系统自带的中文、英文、日语、粤语等 30+ 种语音均可直接选用,即时响应,无任何等待。
服务端模式适合正式发布场景。基于 VITS 神经网络模型(sherpa-onnx-vits-zh-ll),24kHz 采样率输出,音质自然度显著优于浏览器合成。提供 5 种发音人角色,含男女声多种音色,合成后可导出标准 MP3 文件。
使用本地模式
第一步:进入工具
在浏览器中打开 文字转语音工具,确认顶部显示「本地模式」标签。
浏览器兼容性:
- Chrome(推荐,兼容性最佳)
- Edge
- Safari
- Firefox
第二步:输入文字内容
在文本框中输入要合成语音的内容,单次最多支持 2000 字(约可合成 5–8 分钟语音)。
第三步:选择语音和参数
| 参数 | 说明 |
|---|---|
| 语音 | 从下拉列表中选择,中文、英语、日语、粤语等 30+ 种语音 |
| 语速 | 0.5x – 2.0x 连续调节 |
| 音调 | 0.5x – 2.0x 连续调节 |
第四步:播放与控制
点击「朗读文本」按钮即时开始合成并播放。播放中可通过暂停、继续、停止按钮控制。本地模式仅支持在线播放,不可导出音频文件。
使用服务端模式
第一步:切换模式
点击页面顶部的「服务端模式」标签切换。
第二步:登录账号
首次使用需通过微信扫码登录。登录后可正常使用服务端 TTS 功能。
第三步:选择发音人和语速
| 发音人 | 推荐场景 |
|---|---|
| 默认女声 | 通用场景,教育教程、新闻播报 |
| 发音人 1 (男声) | 故事叙述、企业宣传 |
| 发音人 2 (女声) | 儿童故事、客服语音 |
| 发音人 3 (男声) | 旁白解说、产品介绍 |
| 发音人 4 (男声) | 广告配音、纪录片解说 |
语速支持 0.5x – 2.0x 连续调节,可根据内容风格灵活调整。
第四步:生成与下载
点击「生成语音」提交任务,2000 字内容约 10–20 秒完成合成。完成后可在线预览,点击「下载音频」即可保存标准 MP3 文件。
语音合成质量优化建议
文本撰写技巧
- 短句优先:长句拆分为短句,合成效果更自然流畅
- 添加标点:合理使用逗号、句号、问号,控制停顿和语气
- 避免同音歧义:中文多音字较多,建议在关键位置用同义词替换
- 明确数字格式:电话号码、日期等数字建议按习惯格式书写
服务端模式注意事项
- 合成的 MP3 文件为标准格式,可在任何设备上播放
- 单次任务处理时间约 10–20 秒(2000 字以内)
- 语速和发音人可在提交前调整,生成后不支持修改需重新合成
使用场景推荐
| 场景 | 推荐模式 | 原因 |
|---|---|---|
| 短视频配音试听 | 本地模式 | 即时合成,快速验证文案效果 |
| 正式配音输出 | 服务端模式 | 24kHz 高音质 MP3,后期直接使用 |
| 外语学习跟读 | 本地模式 | 支持多语种,无需联网,随时可用 |
| 有声书制作 | 服务端模式 | 多种发音人选择,适合不同角色 |
| 教学课件配音 | 服务端模式 | 输出标准 MP3 嵌入课件 |
隐私与安全
本地模式:所有处理在浏览器本地完成,文字内容不上传服务器,无需联网即可使用。
服务端模式:文字内容上传服务器进行 AI 合成,合成完成后下载 MP3 文件。采用加密传输保障数据安全。
常见问题
本地模式和服务端模式如何选择?
短文本试听或对隐私要求高选本地模式;需要导出 MP3 或追求更高音质选服务端模式。
为什么服务端模式需要登录?
服务端 TTS 使用部署在服务器的 VITS AI 模型进行合成,需要消耗计算资源。登录用于身份识别和资源管理。
本地模式语音列表为空怎么办?
浏览器首次加载时 Web Speech API 可能需要几秒初始化,刷新页面或等待片刻即可正常显示。建议使用 Chrome 或 Edge 浏览器。
相关工具
总结
- 打开文字转语音工具,输入文本内容(上限 2000 字)
- 按需选择本地模式(即时免费)或服务端模式(高品质 MP3)
- 调整语音、语速等参数后生成
- 本地模式在线播放,服务端模式下载 MP3 文件