使用指南

音视频转文字使用指南:AI语音识别在线工具

学习如何使用AI音视频转文字工具,将录音、视频文件在线转为文字。基于浏览器本地Whisper模型,支持中英日韩粤语识别,自动输出逐句时间戳,无需上传服务器。

media5 分钟阅读更新于 2026/5/14作者:91AI工具团队

为什么选择在线语音转文字

传统转写方式的痛点

  • 效率低下:根据行业数据,人工听写1小时音频平均需要4-6小时,且长时间听写容易导致疲劳和漏听。
  • 上传泄露风险:在线转写服务需要上传音频到云端,涉及隐私泄露的担忧。语音技术市场2025年调研显示,约73%的用户担心将敏感语音(如会议录音、医疗音频、法律证据)上传至云端服务器。
  • 付费昂贵:专业转写服务按分钟计费(如讯飞约0.5-2元/分钟),1小时音频转写成本约20-120元。对于自媒体人、学生等群体,这笔费用不可忽视。
  • 需要安装软件:桌面端转录软件(如Adobe Premiere、剪映专业版)需下载安装数GB客户端,跨平台使用不便,且对电脑硬件有较高要求。
  • 格式限制:部分工具仅支持特定音频格式,视频文件需先通过其他工具提取音频轨道,操作流程繁琐。

91AI音视频转文字工具基于 OpenAI Whisper 开源模型,在浏览器本地完成全部处理。根据LibriSpeech行业标准测试,Whisper在安静环境下的字错误率(WER)仅为2.7%,在多种语言基准测试(Common Voice、FLEURS)中表现优异。使用91AI,您无需上传任何文件到服务器,即可享受接近专业级转写服务的识别准确率。

使用91AI音视频转文字

第一步:访问工具

在浏览器中打开 音视频转文字工具

浏览器要求

  • Chrome 116+(推荐,兼容性最佳)
  • Edge 116+(推荐)
  • Firefox 117+
  • 需要浏览器支持 WebAssembly SIMD 扩展(用于加速模型推理)

第二步:上传文件

点击上传区域或直接将音频/视频文件拖拽到页面中。

支持的文件格式

类型格式
视频MP4、WebM、MOV、MKV、AVI、WMV、FLV
音频MP3、WAV、M4A、AAC、OGG、FLAC

文件长度建议不超过2小时。超长音频建议按内容逻辑分段处理,识别效果更稳定。

第三步:等待处理

系统自动执行以下步骤,全部在浏览器本地完成:

  1. 提取音频:使用 FFmpeg WASM 从视频文件中提取音频流,转换为16kHz单声道WAV(语音识别最佳采样率)
  2. 加载模型:首次使用时自动下载 Whisper 语音识别模型(约250MB),缓存后无需重复下载。下载速度取决于网络带宽,通常1-3分钟完成
  3. 语音识别:使用Whisper AI模型逐段识别语音内容,每处理30秒实时显示一段结果,您可以边处理边查看已识别的文本

无需额外操作:上传视频文件后无需手动提取音频,工具内置的FFmpeg WASM引擎会自动完成音频提取和格式转换。

第四步:查看与导出结果

识别完成后,可以进行以下操作:

  • 查看全文:上方文本框显示完整识别文本,可直接复制到Word、Notion、飞书等编辑工具
  • 逐句时间戳:下方列表显示每句话的时间位置(精确到0.1秒),点击可跳转到音频对应时间点,方便对照回听和校对
  • 播放试听:内置音频播放器支持定位回听,可快速定位到识别不确定的片段进行人工校对
  • 导出TXT:下载纯文本格式的识别结果,适合粘贴到文档编辑器中进一步编辑
  • 导出SRT:下载标准SRT字幕格式文件,可直接用于 Premiere Pro、Final Cut Pro、剪映、DaVinci Resolve 等主流剪辑软件

识别准确率优化建议

音频质量要求

因素建议对准确率的影响
采样率16kHz以上低于16kHz会明显降低识别准确率,Whisper模型针对16kHz优化
背景噪声尽量安静的环境噪声过大会导致模型无法区分语音和噪声,产生大量识别错误
语速正常语速(每分钟200-300字)过快(>350字/分钟)或过慢均会影响识别效果
口音与方言普通话(支持粤语)方言识别效果有限,建议优先使用标准普通话
麦克风质量外置麦克风优于内置麦克风麦克风灵敏度直接影响录音信噪比

提高准确率的小技巧

  1. 使用高质量录音设备:外置麦克风与内置麦克风在信噪比上差异明显。建议使用USB麦克风或领夹式麦克风录制。
  2. 避免多人同时说话:Whisper模型对重叠语音的处理能力有限,多人同时说话会导致识别混乱。建议采用一人发言原则。
  3. 先压缩再识别:如果文件过大(视频超过500MB),建议先使用视频压缩工具音频压缩工具减小文件体积后再转录。
  4. 分段录制与转写:长音频(超过2小时)建议按内容逻辑分段(每段30-60分钟),分段识别效果更佳,且便于校对和整理。
  5. 校对专业术语:AI模型对通用词汇识别效果较好,但对行业专有名词、人名、生僻词可能出现偏差。建议识别后对专业术语进行人工校对。

隐私与安全

本工具在浏览器本地完成所有处理,隐私保护达到最高级别:

  • 文件零上传:音频和视频文件不上传到任何服务器
  • 不依赖云端API:所有推理计算在本地浏览器中完成,无需联网即可运行(模型下载完成后)
  • 断网可用:模型缓存后,即使断开网络也可以继续完成识别
  • 关闭即清除:关闭页面后本地不保留任何缓存数据,下一次打开需重新下载模型
  • 无日志记录:平台不记录用户的文件内容、识别结果或处理记录

常见问题

Q1: 首次使用为什么需要下载模型?

Whisper语音识别模型需要在浏览器本地运行,首次使用时会自动下载约250MB的模型文件。下载完成后会被浏览器缓存,后续使用无需再次下载。模型缓存后即使断网也能使用。下载速度取决于网络状况,通常1-3分钟即可完成。

Q2: 支持哪些语言?

支持中文(普通话)、粤语、英语、日语、韩语五种语言。Whisper模型具有自动语言检测能力,无需手动切换语言设置。中英文混合内容也能较好识别,适合双语会议、外语课程等场景。

Q3: 为什么识别结果有些字不对?

可能原因包括:

  • 音频质量不佳(噪声大、声音小、采样率低)
  • 口音较重或方言(Whisper主要针对标准普通话优化)
  • 专业术语、人名、生僻词等不常见词汇
  • 背景有其他人说话声(重叠语音)
  • 语速过快或过慢

建议在安静环境中录制,使用清晰的标准普通话或标准英语,语速保持在每分钟200-300字。

Q4: 浏览器卡住或没反应?

识别过程在独立线程(Web Worker)中运行,不会阻塞页面操作。如果页面长时间无响应,可能原因:

  • 模型首次下载失败(网络不稳定)
  • 浏览器不支持WebAssembly SIMD扩展

请尝试刷新页面重试,或更新浏览器到最新版本(Chrome 116+或Edge 116+)。

Q5: 可以直接导出字幕文件用于剪辑吗?

是的。点击"下载SRT"按钮即可导出标准SRT字幕格式。导出的字幕文件包含逐句时间戳(精确到0.1秒),可直接导入以下主流剪辑软件:

  • Adobe Premiere Pro
  • Final Cut Pro(Mac)
  • 剪映(抖音官方剪辑工具)
  • DaVinci Resolve
  • 万兴喵影
  • 其他支持SRT导入的剪辑软件

Q6: 视频文件需要先提取音频吗?

不需要。工具内置FFmpeg WASM引擎,上传视频文件后会自动提取音频流并转为16kHz单声道WAV格式进行识别。支持MP4、WebM、MOV、MKV、AVI、WMV、FLV等主流视频格式。

Q7: 可以识别多长时间的音频?

没有严格时长限制。但受浏览器内存(WebAssembly堆)和硬件性能制约,建议单次处理时长控制在2小时以内。3小时以上的超长音频建议按内容逻辑分段转录,识别效果更稳定,且便于分段校对和整理。

Q8: 如何提高语音识别准确率?

根据实践经验,以下方法可显著提升准确率:

  1. 使用外置麦克风录制,避免使用电脑/手机内置麦克风
  2. 在安静、无回声的环境中录制
  3. 保持适中的语速(200-300字/分钟)
  4. 使用标准普通话或标准英语
  5. 录音采样率设置为16kHz以上
  6. 避免多人同时发言

相关工具

  • 音频格式转换 - 转换音频格式后再识别,如将FLAC转为WAV以优化处理速度
  • 视频提取音频 - 从视频中单独提取音频轨道,适合需要单独处理音频的场景
  • 音频压缩 - 压缩大音频文件后再转录,减少处理时间和内存占用
  • 视频压缩 - 压缩大视频文件,减小上传和处理的文件体积

总结

  1. 打开工具,上传音频或视频文件
  2. 等待浏览器本地AI模型自动完成语音识别(首次需下载约250MB模型)
  3. 逐句查看带时间戳的识别结果,点击时间戳回听校对
  4. 导出TXT或SRT格式用于后续编辑和剪辑