上传文件 → 获取带说话人标签的转录 → 导出为TXT、DOCX、SRT、VTT或JSON。
限制与规格
| 最大文件大小 | 5 GB |
| 最长时长 | 每个文件10小时 |
| 处理时间 | 每10分钟音频约1分钟 |
| 说话人识别 | 最多10个不同说话人 |
| 语言 | 99种(自动检测或手动选择) |
| 输入格式 | MP3、WAV、M4A、FLAC、OGG、MP4、MOV、WEBM |
| 导出格式 | TXT、DOCX、SRT、VTT、JSON |
什么是Whisper?
Whisper是OpenAI于2022年发布的开源语音识别模型。它在680,000小时的多语言音频数据上训练,在99种语言中提供出色的准确性。
该模型可供任何人使用,但自己运行它需要技术设置:Python编程、GPU硬件和持续维护。对于大多数用户来说,这构成了显著的使用障碍。
VexaScribe消除了这一障碍。我们在我们的基础设施上运行Whisper,添加说话人识别(Whisper默认不包含),并提供简单的上传和下载界面。
了解更多关于通用 音频转录或探索我们的功能。
Whisper API vs VexaScribe
直接使用Whisper
- ✗需要Python编程知识
- ✗需要设置API密钥和计费
- ✗没有内置说话人识别
- ✗没有用户界面——仅命令行
- ✗必须自己处理文件大小限制
- ✗原始输出需要格式化
使用VexaScribe
- ✓在浏览器中上传文件
- ✓无需API密钥或设置
- ✓包含说话人识别
- ✓内置编辑器和转录查看器
- ✓自动处理大文件
- ✓导出为TXT、DOCX、SRT、VTT、JSON
成本对比:VexaScribe与Whisper API
VexaScribe | Whisper API(自建) | |
|---|---|---|
| 每分钟成本 | ~$0.005 | $0.006 + setup |
| 需要设置 | Not Included | Extra Work |
| 说话人识别 | Included | Not Included |
| 用户界面 | Included | Extra Work |
* VexaScribe成本基于基础版计划($5/1000分钟 = $0.005/分钟)。OpenAI API定价截至2026年1月;不包括开发时间和基础设施成本。 来源
说话人识别的工作原理
VexaScribe在Whisper转录之上添加说话人分离功能,识别并标记不同的声音为说话人1、说话人2等。您可以在导出前在编辑器中重命名说话人。
规格
- •每个文件最多支持10个不同说话人
- •在清晰的轮流发言中效果最佳(交叉对话最少)
- •说话人标签包含在SRT、VTT和JSON导出中
最佳实践
- ✓使用优质麦克风以获得最清晰的效果
- ✓尽量减少背景噪音和重叠说话
- ✓对于采访:领夹式麦克风可产生最佳的说话人分离效果
已知限制
当说话人具有相似的声音特征或存在大量交叉对话时,说话人识别可能会合并声音。您可以在编辑器中手动调整标签。
查看示例转录输出
[00:00:00] 说话人1:欢迎来到播客... [00:00:05] 说话人2:感谢邀请我...
Whisper转录应用
VexaScribe本质上是一个具有用户友好界面的Whisper应用。您可以获得Whisper语音识别的强大功能,而无需技术技能。上传您的音频,获取转录,以您喜欢的格式导出。
Whisper转录工作原理
上传您的音频
拖放任何音频或视频文件。我们自动处理转换和预处理。
Whisper + 说话人识别
您的文件使用Whisper进行转录处理,加上我们的说话人识别层来识别不同的声音。
审核和导出
在我们的内置编辑器中编辑您的转录。导出为纯文本、Word文档或字幕文件。
VexaScribe Whisper功能
Whisper的准确性加上实际使用的附加功能
Whisper级准确性
建立在支持OpenAI转录的相同技术上。在多样化音频源上训练以获得可靠的结果。
无需编码
跳过Python脚本和API文档。只需上传文件并获取转录。
99种语言
Whisper支持99种语言,准确性高。语言自动检测。
添加说话人识别
Whisper本身不识别说话人。VexaScribe添加说话人识别,让您知道谁说了什么。
云处理
无需购买GPU或运行通宵处理任务。我们的服务器处理繁重的工作。
安全处理
您的文件经过加密并安全处理。可随时删除。我们不会使用您的音频进行训练。
Whisper转录常见问题
VexaScribe使用真正的Whisper吗?
VexaScribe使用先进的语音识别技术,提供出色的准确率。我们不断改进模型,提供最佳转录效果。
需要安装什么吗?
不需要。VexaScribe完全基于网络。无需Python安装、命令行、GPU设置。只需在浏览器中上传文件。
与本地Whisper有什么不同?
运行本地Whisper需要技术知识和强大硬件。VexaScribe处理所有复杂性,并添加说话人识别和编辑工具等额外功能。
支持多少种语言?
VexaScribe支持99种语言的转录。系统可以自动检测语言,或您可以在上传前手动选择。
转录有多准确?
清晰音频可达95%以上准确率。准确率取决于音频质量、背景噪音和说话清晰度。您可以随时在内置编辑器中审核和修正。
我的文件是否安全?
是的。文件在传输和存储过程中加密。我们不会将音频用于AI模型训练。您可以随时删除文件。
注意: VexaScribe使用基于Whisper的技术进行转录。结果可能因音频质量和内容类型而异。
VexaScribe使Whisper转录对每个人都可用。探索我们针对特定用例的相关工具。