91AI工具
使用指南

音视频转文字使用指南:AI语音识别在线工具

学习如何使用AI音视频转文字工具,支持本地Whisper和服务端SenseVoice两种处理模式。纯前端处理不上传服务器,适合短音频快速识别;服务端模式速度快精度高,适合长音频大批量转写。

media5 分钟阅读更新于 2026/5/15作者:91AI工具团队

为什么选择在线语音转文字

传统转写方式的痛点

  • 效率低下:根据行业数据,人工听写1小时音频平均需要4-6小时,且长时间听写容易导致疲劳和漏听。
  • 上传泄露风险:部分在线转写服务需要上传音频到云端,涉及隐私泄露的担忧。语音技术市场2025年调研显示,约73%的用户担心将敏感语音(如会议录音、医疗音频、法律证据)上传至云端服务器。
  • 付费昂贵:专业转写服务按分钟计费(如讯飞约0.5-2元/分钟),1小时音频转写成本约20-120元。
  • 需要安装软件:桌面端转录软件需下载安装数GB客户端,跨平台使用不便。
  • 格式限制:部分工具仅支持特定音频格式,视频文件需先提取音频轨道。

91AI音视频转文字提供两种处理模式:

  • 本地模式:基于OpenAI Whisper开源模型,在浏览器本地完成全部处理,文件零上传
  • 服务端模式:基于阿里通义SenseVoice模型,上传服务器高速转写,1小时音频约6分钟完成

选择处理模式

本地模式(Whisper)

适合对隐私要求高、音频时长较短(30分钟以内)的场景。

优点:不上传服务器、隐私安全、不限制时长和次数 缺点:速度较慢(约1:1耗时)、依赖电脑性能、首次需下载模型(约250MB)

服务端模式(SenseVoice)

适合大批量转写、长音频、需要快速出结果的场景。

优点:速度快(1小时音频约6分钟)、精度高、无需下载模型 缺点:需登录账号、音频上传服务器、单文件限时3小时

使用本地模式

第一步:访问工具

在浏览器中打开 音视频转文字工具,确保左上角显示"本地转写"标签。

浏览器要求

  • Chrome 116+(推荐,兼容性最佳)
  • Edge 116+
  • 需要浏览器支持 WebAssembly SIMD 扩展

第二步:上传文件

点击上传区域或直接将音频/视频文件拖拽到页面中。

支持的文件格式

类型格式
视频MP4、WebM、MOV、MKV、AVI、WMV、FLV
音频MP3、WAV、M4A、AAC、OGG、FLAC

第三步:开始转写

点击「开始本地转写」按钮,系统自动执行以下步骤:

  1. 提取音频:使用 FFmpeg WASM 从视频文件中提取音频流
  2. 加载模型:首次使用时自动下载 Whisper 模型(约250MB),缓存后无需重复下载
  3. 语音识别:每30秒实时显示一段识别结果,可边处理边查看

第四步:查看与导出结果

  • 查看全文:上方文本框显示完整识别文本
  • 逐句时间戳:每句话标注时间位置,点击可跳转到音频对应时间点
  • 播放试听:内置音频播放器支持定位回听
  • 多人对话模式:服务端转写支持说话人分离,自动标注发言人(如"张经理:我们先看一下数据"),会议采访场景格外实用
  • 导出TXT:下载纯文本格式
  • 导出SRT:下载标准SRT字幕格式,可直接导入剪辑软件

使用服务端模式

第一步:切换模式

在工具页面顶部点击「服务端转写」标签。

第二步:上传文件

选择音频/视频文件后,点击「开始服务端转写」按钮。

第三步:登录账号

首次使用需通过微信扫码登录。登录后服务端自动处理。

第四步:等待处理完成

  • 文件上传后显示上传进度条
  • 服务端自动进行语音识别(1小时音频约6分钟)
  • 处理完成后点击「下载文件」获取转写文本(.txt格式)

识别准确率优化建议

音频质量要求

因素建议对准确率的影响
采样率16kHz以上低于16kHz会明显降低识别准确率
背景噪声尽量安静的环境噪声过大会导致识别错误
语速正常语速(每分钟200-300字)过快或过慢均会影响识别效果
口音与方言标准普通话效果最佳SenseVoice对粤语支持较好

提高准确率的小技巧

  1. 使用高质量录音设备,外置麦克风优于内置麦克风
  2. 避免多人同时说话
  3. 文件过大时先使用视频压缩工具减小体积
  4. 长音频建议分段处理

隐私与安全

本地模式

  • 文件零上传:所有处理在浏览器本地完成
  • 不依赖云端API
  • 断网可用(模型缓存后)

服务端模式

  • 文件上传至服务器处理,处理完成后可下载结果
  • 需微信登录认证
  • 适合非敏感音频的快速转写

常见问题

Q1: 本地模式和服务端模式有什么区别?

本地模式使用OpenAI Whisper模型在浏览器中处理,不上传任何数据,隐私安全但速度较慢(约1:1耗时),不限制时长。服务端模式使用阿里通义SenseVoice模型,上传数据到服务器处理,速度快(1小时音频约6分钟),需要登录账号,单文件限时3小时。建议短音频使用本地模式,长音频使用服务端模式。

Q2: 首次使用本地模式为什么需要下载模型?

Whisper语音识别模型需要在浏览器本地运行,首次使用时会自动下载约250MB的模型文件。下载完成后会被浏览器缓存,后续使用无需再次下载。

Q3: 支持哪些语言?

本地模式支持中文(普通话)、粤语、英语、日语、韩语。服务端SenseVoice同样支持中英日韩粤语。两种模式均无需手动切换语言。

Q4: 可以直接导出字幕文件用于剪辑吗?

是的。点击"下载SRT"按钮即可导出标准SRT字幕格式,可导入Adobe Premiere Pro、Final Cut Pro、剪映、DaVinci Resolve等主流剪辑软件。

Q5: 服务端模式处理时长有限制吗?

服务端模式统一限制为3小时,VIP和普通用户均为3小时。超过3小时的音频建议分段处理。

Q6: 如何提高语音识别准确率?

  1. 使用外置麦克风录制
  2. 在安静无回声的环境中录制
  3. 保持适中的语速(200-300字/分钟)
  4. 使用标准普通话
  5. 录音采样率设置为16kHz以上

相关工具

总结

  1. 打开音视频转文字工具
  2. 选择本地模式(隐私优先)或服务端模式(速度优先)
  3. 上传文件并开始转写
  4. 导出TXT或SRT格式用于后续编辑