VexaScribe 기능
AI transcription in 99 languages. Speaker detection, timestamps, AI summaries, and built-in translation (133 languages). Upload files or send a meeting bot to Zoom, Meet, or Teams. From $2/month.
What VexaScribe is, in 80 words
VexaScribe is a web app that turns audio and video into searchable, timestamped, speaker-labeled transcripts using OpenAI Whisper. Drop a file (up to 5 GB) or send a bot to your Zoom, Google Meet, or Teams meeting. Get a transcript in 99 languages in ~5–10 minutes per hour of audio, optional AI summary with action items, and exports to TXT, DOCX, SRT, VTT, or JSON. 30 minutes free, then $2–$20/month. No credit card to start.
What VexaScribe doesn't do
Five things VexaScribe is genuinely not built for, with the tool we'd actually recommend in each case. If your use case is on this list, save yourself the trial signup.
No real-time live captioning
Transcripts are generated after upload, not as you speak. A 1-hour file takes 5–10 minutes to process — fine for meetings you watch back, wrong for live events.
Use instead: Otter Live, Google Meet's built-in captions, or Web Captioner for free browser-based live captions.
No public REST API
VexaScribe is a web app for humans, not a backend service. There's no developer API, no SDK, no webhook for programmatic uploads.
Use instead: OpenAI Whisper API ($0.006/min), Deepgram Nova-3 (~$0.0043/min), or AssemblyAI (~$0.012/min).
No video editing
You can export SRT/VTT subtitles to drop into your editor, but VexaScribe won't cut clips, remove filler words, or burn captions onto video.
Use instead: Descript or Vrew for transcript-based video editing; Premiere/Final Cut/DaVinci for traditional NLE workflows.
No custom vocabulary tuning
You can't upload a dictionary of brand names, drug names, or technical jargon to bias the model toward. Whisper is used as-is, with no per-account fine-tuning.
Use instead: AssemblyAI's “word boost” or Deepgram's “keywords” param for proper-noun-heavy domains.
No on-premise / enterprise self-hosting
Audio is processed in our cloud — there's no air-gapped or HIPAA-BAA-signed deployment available. For attorney-client, clinical therapy, or classified content where a breach creates direct legal liability, no cloud tool (ours included) is the right call.
Use instead: install OpenAI Whisper locally (free, runs on your machine, audio never leaves), or for legal-grade 100% accuracy use human transcription (Rev, GoTranscript) at $1.25–$1.99/min.
Honest accuracy — what the numbers really mean
VexaScribe uses OpenAI Whisper (specifically large-v3 class models). Marketing pages love to say “99% accuracy” — that's not honest. Real-world Whisper accuracy depends heavily on audio quality, accent, and number of speakers. Here's what to expect.
Transcription accuracy (Whisper)
- Clean studio English, single speaker~92–97%
- Accented English (non-native, regional)~85–92%
- Noisy environments (cafes, phone, outdoor)~80–90%
- Clean Spanish, French, German, Italian, Portuguese, Dutch~88–94%
- Korean, Japanese, Indonesian, Turkish, Arabic, Polish~85–92%
Source: Open ASR Leaderboard + Whisper paper benchmarks (LibriSpeech, FLEURS, Common Voice).
Speaker diarization accuracy
- 2 speakers, no overlap95%+
- 3–4 speakers, occasional overlap~88–94%
- 5–6 speakers, meeting dynamics~80–90%
- 7–15 speakers, panel or focus group~70–82%
- Up to 50 speakers (max supported)variable
Best accuracy with 2–6 distinct speakers. You can rename Speaker 1/2/3 in the editor after.
What moves the needle
Three things that matter more than picking the “best” transcription tool:
- A decent mic (USB headset or lapel beats laptop built-in by 5–15 accuracy points).
- One speaker at a time — overlap kills both transcription and diarization.
- Low background noise. Record in a closed room, not next to a fan or HVAC vent.
If you need legal-grade 100% accuracy (court filings, regulated research), use human transcription services like Rev or GoTranscript at $1.25–$1.99/min. AI gets you to ~95% at 1–2% the cost — fine for most use cases, wrong for some.
핵심 기능
99개 언어 지원
자동 언어 감지로 99개 언어의 오디오와 비디오를 전사합니다. 영어, 일본어, 스페인어, 아랍어까지 다양한 언어를 지원합니다.
화자 감지
자동 화자 분리로 서로 다른 목소리를 식별하고 라벨링합니다. 인터뷰, 팟캐스트, 회의에 최적입니다.
타임스탬프
모든 전사본에는 정확한 타임스탬프가 포함됩니다. 타임스탬프를 클릭하면 오디오의 해당 순간으로 이동합니다.
5가지 내보내기 형식
TXT, DOCX, SRT, VTT, JSON으로 내보내세요. 워크플로에 맞는 형식을 선택할 수 있습니다.
빠른 처리
AI 기반 전사는 몇 시간이 아닌 몇 분 안에 완료됩니다. 1시간 분량의 녹음은 일반적으로 5~10분 내에 처리됩니다.
내장 에디터
브라우저에서 직접 전사본을 검토하고 편집하세요. 오류를 수정하고 화자 이름을 변경하여 내보내기 전에 전사본을 완벽하게 다듬을 수 있습니다.
회의 봇
Zoom, Google Meet, Teams 회의에 AI 봇을 보내세요. 녹음하고 전사한 뒤 액션 아이템과 결정 사항이 포함된 구조화된 요약을 생성합니다. 전사 크레딧을 3배 사용합니다.
AI 요약
모든 전사본을 구조화된 핵심 포인트, 액션 아이템, 챕터 마커, 결정 사항으로 변환합니다. 모든 유료 플랜에 포함되어 있습니다.
전사본 번역
Google 번역을 통해 모든 전사본을 133개 언어로 번역하세요 — 추가 비용 없음, 외부 계정 불필요.
Bulk Upload — 50 Files at Once
Upload up to 50 audio or video files in one go. All processed in parallel — not one at a time. Mix formats freely and download everything as a ZIP.
지원 형식
오디오 형식
비디오 형식
내보내기 형식 (5)
일반 텍스트
Word 문서
자막
웹 자막
구조화된 데이터
고급 AI로 구동
VexaScribe는 수백만 시간의 오디오로 학습된 최첨단 음성 인식 모델을 사용합니다.
선명한 오디오에 대한 정확도
지원 언어
시간당 처리 시간
플랜별 기능 제공
모든 플랜에는 무료 체험이 포함됩니다. 시작에 신용카드가 필요하지 않습니다.
| 기능 | 무료 체험 | Starter ($2/월) | Pro ($10/월) |
|---|---|---|---|
| 오디오 및 비디오 전사 | ✓ | ✓ | ✓ |
| 99개 언어 지원 | ✓ | ✓ | ✓ |
| 화자 감지 | ✓ | ✓ | ✓ |
| 타임스탬프 | ✓ | ✓ | ✓ |
| 내보내기: TXT, DOCX, SRT, VTT, JSON | ✓ | ✓ | ✓ |
| 전사본 번역 (133개 언어) | ✓ | ✓ | ✓ |
| 내장 에디터 | ✓ | ✓ | ✓ |
| AI 요약 | — | ✓ | ✓ |
| 회의 봇 (Zoom, Meet, Teams) | — | ✓ | ✓ |
| 대량 전사 | ✓ | ✓ | ✓ |