91AI工具

音视频转文字

免费在线录音转文字,也支持视频转文字。采用OpenAI Whisper(本地)和阿里通义SenseVoice(服务端)双引擎,中英日韩粤语识别,1小时音频最快6分钟出稿,逐句时间戳导出。服务端支持多人对话模式,自动区分说话人,会议采访转写更智能。

本地处理:不上传服务器,保护您的隐私,速度更快

纯本地处理,不上传服务器,隐私安全,不限制时长。速度受设备性能影响(约 1:1 耗时)。

拖拽音视频到此处,或点击上传

纯前端处理不上传服务器,隐私安全

音视频转文字 功能介绍

免费在线录音转文字,也支持视频转文字。采用OpenAI Whisper(本地)和阿里通义SenseVoice(服务端)双引擎,中英日韩粤语识别,1小时音频最快6分钟出稿,逐句时间戳导出。服务端支持多人对话模式,自动区分说话人,会议采访转写更智能。

音视频转文字 操作指南

  1. 1

    点击上传区域或拖拽音视频文件到指定区域,支持 MP4/MOV/MP3/WAV/M4A 等格式

  2. 2

    系统自动使用 FFmpeg 提取音频并加载 Whisper AI 语音识别模型(首次需下载约250MB,后续直接使用)

  3. 3

    AI 自动识别音频中的语音内容,实时逐句显示识别结果及时间戳。服务端转写支持对话模式,自动区分不同说话人

  4. 4

    识别完成后可在线回听对照,一键复制全文或下载 TXT/SRT 字幕文件。对话模式下自动标注说话人,会议采访回看一目了然

  5. 本地处理,文件不上传服务器,保护您的隐私安全

为什么选择我们?

  • 1

    免费在线录音转文字工具,支持本地Whisper和服务端SenseVoice双引擎。本地模式利用OpenAI Whisper large-v3模型在浏览器中运行,无需上传,隐私安全。服务端模式基于阿里通义千问团队SenseVoice模型,1小时音频仅需6分钟完成转写,效率是人工听写的40倍

  • 2

    据OpenAI官方评测,Whisper large-v3在LibriSpeech测试集上字错误率(WER)仅为2.7%,接近人类水平。阿里通义SenseVoice在中文普通话识别评测中达到97.3%的字符正确率。91AI录音转文字工具双引擎可选,兼顾隐私与精度

  • 3

    传统人工听写1小时录音需要4-6小时,且成本约200-400元。91AI录音转文字服务端模式自动完成语音转文字,6分钟即可输出完整文稿,成本为零。支持中英日韩粤语五种语言,自动检测无需手动切换

  • 4

    主流商业语音转文字API(如讯飞、腾讯云、阿里云)按分钟计费,价格0.33-2元/分钟,1小时录音成本20-120元。91AI录音转文字完全免费,本地模式不限时长不限次数,服务端模式单文件限时3小时

  • 5

    会议和采访场景最头疼的是多说话人混在一起难以区分。91AI服务端SenseVoice引擎支持说话人分离(Speaker Diarization),对话模式下自动标注不同说话人的发言段落,告别手动分辨"谁说了什么"的困扰

  • 6

    端到端语音识别技术(End-to-End ASR)近年来取得突破性进展。SenseVoice采用非自回归Transformer架构,在解码速度上比传统CTC/Attention混合模型快5-10倍,同时保持高精度。Whisper作为开源于教育领域的大规模弱监督模型,在跨语言泛化能力上表现卓越

常见使用场景

会议录音转文字自动整理

将1-2小时的会议录音通过服务端录音转文字模式快速转写,6分钟即可完成1小时音频的文字化。对话模式自动区分不同发言人,逐句标注说话人姓名,让谁说了什么一目了然

采访与播客录音转写逐字稿

记者、播客创作者上传访谈录音,录音转文字快速生成逐字稿。短采访用本地Whisper模式保护采访对象隐私,长访谈用服务端SenseVoice对话模式自动分离采访者与受访者发言

网课讲座录音转文字笔记

将在线课程、学术讲座的音频转为带时间戳的文字笔记。录音转文字后按知识点定位回放,学习效率提升3-5倍,复习时直接搜索关键词定位

视频语音转文字生成字幕

为短视频、Vlog、教程视频提取语音并导出SRT字幕文件,直接导入Premiere Pro、剪映、Final Cut Pro等剪辑软件。支持录音转文字在线处理

客服电话录音质检分析

将客服通话录音转为文字,便于检索关键词、抽查服务质量、分析客户情绪。服务端录音转文字模式支持大批量处理,1小时仅需6分钟

外语听力素材转文字练习

上传外语听力材料或影视作品对话,录音转文字后对照时间戳和原文精听训练。中英日韩粤语自动识别,帮助突破听力难点

常见问题

录音转文字本地模式和服务端模式有什么区别?

本地模式使用OpenAI Whisper large-v3模型在浏览器中处理,不上传任何数据,隐私安全但速度较慢(约1:1耗时),不限制时长。服务端模式使用阿里通义SenseVoice模型,上传到服务器处理,速度快(1小时录音约6分钟),支持对话模式(说话人分离),需要登录账号,单文件限时3小时。建议短音频使用本地模式,长音频使用服务端模式。

录音转文字的识别准确率有多高?

据官方公开数据:Whisper large-v3在LibriSpeech测试中字错误率(WER)仅2.7%,SenseVoice在中文普通话语音识别评测中字符正确率达97.3%。实际准确率受录音质量、背景噪声、方言口音影响较大。建议安静环境录制,采样率不低于16kHz,语速适中。91AI录音转文字工具是免费且准确率领先的选择。

录音转文字支持哪些语言的识别?

本地Whisper模式支持中文(普通话、粤语)、英语、日语、韩语共五种语言。服务端SenseVoice同样支持中英日韩粤语。两种模式均自动检测语种,无需手动切换。每种语言的识别模型均经过大量语料训练,录音转文字准确率处于行业领先水平。

录音转文字可以识别多长时间的音频?

本地模式不限时长,但受浏览器内存和硬件性能制约,建议单次处理控制在2小时以内。服务端模式统一限制3小时。超过3小时的超长录音建议分段处理,每段不超过3小时。91AI录音转文字工具是目前市面上少数免费支持超长音频转写的在线工具。

录音转文字结果包含时间戳吗?

本地模式支持逐句时间戳输出,每句话标注开始和结束时间,点击可跳转到录音对应位置。服务端模式输出完整文本txt文件。两种模式均支持导出SRT字幕格式,可直接导入视频剪辑软件。录音转文字带时间戳的功能对内容审校和二次编辑极为重要。

录音转文字可以导出哪些格式?支持多人对话模式吗?

本地模式支持TXT(纯文本)和SRT(字幕格式)。服务端模式支持TXT、SRT和对话模式(说话人分离)。对话模式下自动识别不同的说话人并分段标注,输出类似"李明:今天的会议主题是..."的格式,会议和采访场景格外实用。SRT字幕可直接导入Premiere Pro、剪映等剪辑软件。

录音转文字上传文件安全吗?需要登录吗?

服务端模式需要微信扫码登录,录音文件上传至服务器处理后自动删除。本地Whisper模式完全不上传服务器,无需登录,关页面后数据自动清除。涉及隐私的敏感录音建议使用本地模式,从技术层面确保数据安全。

录音转文字支持视频文件直接上传吗?

支持。两种模式均支持直接上传视频文件(MP4、WebM、MOV、MKV、AVI、WMV、FLV等),系统自动提取音频流进行语音转文字,无需手动分离音频后再上传。录音转文字在线处理视频也无需下载额外软件。

服务端录音转文字每次使用都要下载模型吗?

不需要。服务端模式由阿里云服务器处理,用户无需下载任何模型。本地Whisper模式首次使用需下载模型(约250MB,根据浏览器缓存,仅需一次),后续录音转文字无需重复下载。两种方式都只需打开浏览器即可使用。

录音转文字识别错了怎么办?如何提高准确率?

识别错误通常由以下因素导致:音频采样率低于16kHz导致频谱信息丢失、背景噪声过大掩盖语音特征、语速过快或过慢超出模型训练分布、方言或专业术语不在词汇表中。建议在安静环境中录制、使用外置麦克风避免近讲效应、语速保持适中、录音前清理环境噪声。91AI录音转文字工具支持逐句校对,可手动修正识别结果。

使用帮助

详细使用指南

了解如何高效使用本工具,掌握进阶技巧

查看指南

常见问题解答

快速找到您遇到的问题的解决方案

需要更多帮助?

访问帮助中心查看所有使用指南和常见问题

前往帮助中心