文字转语音

免费在线文字转语音工具。本地模式使用浏览器内置语音合成，无需上传；服务端模式支持多角色多语种高质量TTS合成，适合长文本和语音录制。

使用浏览器内置语音合成引擎，离线可用，无需登录。支持多语种语音选择。

0 / 2000

语音

语速: 1.0

音调: 1.0

文字转语音功能介绍

免费在线文字转语音工具。本地模式使用浏览器内置语音合成，无需上传；服务端模式支持多角色多语种高质量TTS合成，适合长文本和语音录制。

文字转语音操作指南

1
在文本框中输入要合成语音的文字内容，上限 2000 字，约可合成 5–8 分钟语音。按需选择模式：本地模式使用浏览器内置引擎离线合成，即时响应；服务端模式基于 VITS AI 模型，音质自然度达 4.5/5，适合正式场景
2
本地模式提供 30+ 种语音（含中文、英语、日语、粤语等语种），支持音调和语速调节。点击「朗读文本」即时播放，朗读中可随时暂停、继续或停止。该模式无需联网，完全离线可用
3
本地模式仅支持在线播放，不提供文件导出。如需下载 MP3 文件，请切换到服务端模式（需微信扫码登录）。服务端采用 24kHz 采样率合成，音质接近真人录音
4
服务端模式提供 5 种发音人角色，支持 0.5–2.0 倍语速微调。点击「生成语音」由 AI 模型合成，完成后可在线预览并下载标准 MP3 文件，适合商业级应用场景

为什么选择我们？

1
传统的文字转语音方案需要下载专用软件（如科大讯飞、Balabolka），安装包大且免费版限制多。91AI工具无需安装，打开浏览器即可在线合成语音
2
主流在线TTS工具免费版通常限制每日合成字数（如500字/天）或添加语音水印。91AI文字转语音不限次数，本地模式完全免费，服务端模式登录后即可使用
3
根据Google趋势数据，文字转语音是2025年增长最快的AI应用场景之一，月搜索量超过2000万次。91AI提供双模式方案满足不同需求
4
本地模式使用浏览器内置语音合成，离线可用无需登录，适合快速试听；服务端模式使用高性能VITS模型，音质自然流畅，支持多种发音人

常见使用场景

短视频配音

输入脚本文字一键转为语音，为抖音、快手等短视频添加AI配音，省去自己录音的麻烦

有声内容制作

将文章、小说、公众号内容转为语音，制作播客或有声读物，拓展内容传播形式

语言学习辅助

输入外语文本转为标准发音朗读，帮助学习者掌握正确发音和语调，支持多语种选择

视力保护阅读

将长篇文章、电子书转为语音朗读，减轻长时间阅读造成的眼睛疲劳，适合通勤和睡前收听

教学课件配音

为教学PPT和课件添加语音讲解，制作在线课程和微课视频，提升教学效果

常见问题

本地模式和服务端模式有什么区别？

本地模式调用浏览器内置语音合成引擎，无需联网、无需登录、完全免费，但不支持文件导出，语音种类依赖用户操作系统；服务端模式基于 VITS 神经网络模型，采用 24kHz 采样率输出，音质自然度显著优于浏览器合成，支持 5 种发音人角色，合成后可直接下载 MP3 文件，适合正式发布场景，但需登录使用。

服务端模式支持哪些发音人？

提供 5 种发音人角色：默认女声以及 4 种可选角色，其中包含男女声多种音色。不同发音人的语速、音高和情感表现各有特色，根据内容风格（如教育教程选清晰女声、故事叙述选沉稳男声）可获得最佳听觉效果。

合成语音支持哪些语言？

服务端 VITS 模型针对中文（普通话）深度优化，发音准确率和韵律自然度在中文场景下表现优异；本地模式则支持操作系统内置的 30+ 种语音，涵盖中文、英语、日语、粤语、法语、德语等多语种，并支持方言口音选项。

合成的语音可以商用吗？

本地浏览器合成语音无额外使用限制。服务端 VITS 模型基于开源框架，由 91AI 部署提供服务，合成的语音文件通常可用于个人创作和商业项目。建议在正式商用前确认具体使用场景是否符合平台服务条款。

最大支持多少字？合成需要多久？

单次最大支持 2000 字输入，约可合成 5–8 分钟语音。本地模式即时合成，无等待时间；服务端模式根据字数处理，2000 字大约需要 10–20 秒完成，合成速度远快于实时播放。

本地语音列表为什么有时为空？

浏览器首次加载时 Web Speech API 可能尚未返回语音列表，刷新页面或等待几秒即可正常加载。部分移动端浏览器对 Web Speech API 支持有限，建议在 Chrome 或 Edge 等主流桌面浏览器上使用本地模式获得完整语音选项。

需要更多帮助？

访问帮助中心查看所有使用指南和常见问题

前往帮助中心