使用指南

文字转语音使用指南:AI在线语音合成工具

学习如何使用在线文字转语音工具,支持本地浏览器合成和服务端VITS AI模型两种模式。本地模式免费离线可用,服务端模式音质自然支持多种发音人并导出MP3。

media5 分钟阅读更新于 2026/5/18作者:91AI工具团队

文字转语音的市场与需求

文字转语音(Text-to-Speech,简称 TTS)利用人工智能将书面文字自动转化为自然流畅的语音。根据 Grand View Research 数据,2025 年全球 TTS 市场规模超过 48 亿美元,预计到 2030 年将增长至 102 亿美元,年复合增长率约 16.2%。

AI 配音需求从短视频配音、有声书制作到教学课件配音,覆盖内容创作的各个环节。91AI 文字转语音工具提供本地和服务端双模式方案,满足不同场景需求。

91AI 双模式对比

特性本地模式(浏览器合成)服务端模式(VITS AI)
处理方式浏览器内置引擎离线合成服务器 AI 模型合成
联网要求完全离线可用需联网上传
登录要求无需登录需微信扫码登录
使用费用完全免费免费(登录后使用)
音质评价标准合成音,语种丰富4.5/5 分,接近真人录音
采样率取决于浏览器24kHz
发音人数量30+ 种(操作系统内置)5 种(含男女声)
文件导出不支持导出支持下载 MP3
语速调节0.5x – 2.0x0.5x – 2.0x
音调调节支持不支持

选择适合的模式

本地模式适合快速试听、隐私敏感场景或离线使用。调用浏览器内置 Web Speech API,操作系统自带的中文、英文、日语、粤语等 30+ 种语音均可直接选用,即时响应,无任何等待。

服务端模式适合正式发布场景。基于 VITS 神经网络模型(sherpa-onnx-vits-zh-ll),24kHz 采样率输出,音质自然度显著优于浏览器合成。提供 5 种发音人角色,含男女声多种音色,合成后可导出标准 MP3 文件。

使用本地模式

第一步:进入工具

在浏览器中打开 文字转语音工具,确认顶部显示「本地模式」标签。

浏览器兼容性

  • Chrome(推荐,兼容性最佳)
  • Edge
  • Safari
  • Firefox

第二步:输入文字内容

在文本框中输入要合成语音的内容,单次最多支持 2000 字(约可合成 5–8 分钟语音)。

第三步:选择语音和参数

参数说明
语音从下拉列表中选择,中文、英语、日语、粤语等 30+ 种语音
语速0.5x – 2.0x 连续调节
音调0.5x – 2.0x 连续调节

第四步:播放与控制

点击「朗读文本」按钮即时开始合成并播放。播放中可通过暂停、继续、停止按钮控制。本地模式仅支持在线播放,不可导出音频文件。

使用服务端模式

第一步:切换模式

点击页面顶部的「服务端模式」标签切换。

第二步:登录账号

首次使用需通过微信扫码登录。登录后可正常使用服务端 TTS 功能。

第三步:选择发音人和语速

发音人推荐场景
默认女声通用场景,教育教程、新闻播报
发音人 1 (男声)故事叙述、企业宣传
发音人 2 (女声)儿童故事、客服语音
发音人 3 (男声)旁白解说、产品介绍
发音人 4 (男声)广告配音、纪录片解说

语速支持 0.5x – 2.0x 连续调节,可根据内容风格灵活调整。

第四步:生成与下载

点击「生成语音」提交任务,2000 字内容约 10–20 秒完成合成。完成后可在线预览,点击「下载音频」即可保存标准 MP3 文件。

语音合成质量优化建议

文本撰写技巧

  1. 短句优先:长句拆分为短句,合成效果更自然流畅
  2. 添加标点:合理使用逗号、句号、问号,控制停顿和语气
  3. 避免同音歧义:中文多音字较多,建议在关键位置用同义词替换
  4. 明确数字格式:电话号码、日期等数字建议按习惯格式书写

服务端模式注意事项

  • 合成的 MP3 文件为标准格式,可在任何设备上播放
  • 单次任务处理时间约 10–20 秒(2000 字以内)
  • 语速和发音人可在提交前调整,生成后不支持修改需重新合成

使用场景推荐

场景推荐模式原因
短视频配音试听本地模式即时合成,快速验证文案效果
正式配音输出服务端模式24kHz 高音质 MP3,后期直接使用
外语学习跟读本地模式支持多语种,无需联网,随时可用
有声书制作服务端模式多种发音人选择,适合不同角色
教学课件配音服务端模式输出标准 MP3 嵌入课件

隐私与安全

本地模式:所有处理在浏览器本地完成,文字内容不上传服务器,无需联网即可使用。

服务端模式:文字内容上传服务器进行 AI 合成,合成完成后下载 MP3 文件。采用加密传输保障数据安全。

常见问题

本地模式和服务端模式如何选择?

短文本试听或对隐私要求高选本地模式;需要导出 MP3 或追求更高音质选服务端模式。

为什么服务端模式需要登录?

服务端 TTS 使用部署在服务器的 VITS AI 模型进行合成,需要消耗计算资源。登录用于身份识别和资源管理。

本地模式语音列表为空怎么办?

浏览器首次加载时 Web Speech API 可能需要几秒初始化,刷新页面或等待片刻即可正常显示。建议使用 Chrome 或 Edge 浏览器。

相关工具

总结

  1. 打开文字转语音工具,输入文本内容(上限 2000 字)
  2. 按需选择本地模式(即时免费)或服务端模式(高品质 MP3)
  3. 调整语音、语速等参数后生成
  4. 本地模式在线播放,服务端模式下载 MP3 文件