파일 업로드 → 화자 라벨이 포함된 전사 받기 → TXT, DOCX, SRT, VTT 또는 JSON으로 내보내기.
제한 및 사양
| 최대 파일 크기 | 5 GB |
| 최대 길이 | 파일당 10시간 |
| 처리 시간 | 오디오 10분당 ~1분 |
| 화자 감지 | 최대 10명의 구별 가능한 화자 |
| 언어 | 99개 (자동 감지 또는 수동 선택) |
| 입력 형식 | MP3, WAV, M4A, FLAC, OGG, MP4, MOV, WEBM |
| 내보내기 형식 | TXT, DOCX, SRT, VTT, JSON |
Whisper란?
Whisper는 2022년에 출시된 OpenAI의 오픈소스 음성 인식 모델입니다. 680,000시간의 다국어 오디오 데이터로 학습되어 99개 언어에서 인상적인 정확도를 제공합니다.
이 모델은 누구나 사용할 수 있지만, 직접 실행하려면 기술적 설정이 필요합니다: Python 프로그래밍, GPU 하드웨어, 지속적인 유지보수. 대부분의 사용자에게 이는 상당한 장벽입니다.
VexaScribe는 그 장벽을 제거합니다. 저희 인프라에서 Whisper를 실행하고, (Whisper에 기본으로 포함되지 않은) 화자 감지를 추가하며, 간단한 업로드-다운로드 인터페이스를 제공합니다.
일반 오디오 전사에 대해 더 알아보거나 기능을 살펴보세요.
Whisper API vs VexaScribe
Whisper 직접 사용
- ✗Python 프로그래밍 지식 필요
- ✗API 키 및 결제 설정 필요
- ✗화자 감지 기능 미포함
- ✗사용자 인터페이스 없음—명령줄만
- ✗파일 크기 제한을 직접 처리해야 함
- ✗원시 출력에 서식 필요
VexaScribe 사용
- ✓브라우저에서 파일 업로드
- ✓API 키나 설정 불필요
- ✓화자 감지 포함
- ✓내장 편집기 및 전사 뷰어
- ✓대용량 파일 자동 처리
- ✓TXT, DOCX, SRT, VTT, JSON으로 내보내기
비용 비교: VexaScribe vs Whisper API
VexaScribe | Whisper API (DIY) | |
|---|---|---|
| 분당 비용 | ~$0.005 | $0.006 + setup |
| 설정 필요 | Not Included | Extra Work |
| 화자 감지 | Included | Not Included |
| 사용자 인터페이스 | Included | Extra Work |
* VexaScribe 비용은 Basic 플랜 기준 ($5/1000분 = $0.005/분). 2026년 1월 기준 OpenAI API 가격; 개발 시간 및 인프라 비용 제외. 출처
화자 감지 작동 방식
VexaScribe는 Whisper 전사에 화자 분리를 추가하여 서로 다른 음성을 화자 1, 화자 2 등으로 식별하고 라벨링합니다. 내보내기 전에 편집기에서 화자 이름을 변경할 수 있습니다.
사양
- •파일당 최대 10명의 구별 가능한 화자 지원
- •명확한 발언 교대에서 가장 잘 작동 (최소한의 크로스토크)
- •SRT, VTT 및 JSON 내보내기에 화자 라벨 포함
모범 사례
- ✓가장 선명한 결과를 위해 고품질 마이크 사용
- ✓배경 소음과 겹치는 발화 최소화
- ✓인터뷰의 경우: 핀 마이크가 최상의 화자 분리 제공
알려진 제한 사항
화자의 음성 특성이 유사하거나 크로스토크가 심한 경우 화자 감지가 음성을 병합할 수 있습니다. 편집기에서 수동으로 라벨을 조정할 수 있습니다.
전사 샘플 출력 보기
[00:00:00] 화자 1: 팟캐스트에 오신 것을 환영합니다... [00:00:05] 화자 2: 초대해 주셔서 감사합니다...
Whisper 전사 앱
VexaScribe는 본질적으로 사용자 친화적인 인터페이스를 갖춘 Whisper 앱입니다. 기술적 기술 없이도 Whisper 음성 인식의 힘을 얻을 수 있습니다. 오디오를 업로드하고, 전사를 받고, 원하는 형식으로 내보냅니다.
Whisper 전사 방법
오디오 업로드
오디오 또는 비디오 파일을 드래그 앤 드롭합니다. 변환 및 전처리를 자동으로 처리합니다.
Whisper + 화자 감지
파일이 전사를 위한 Whisper와 다른 음성을 식별하기 위한 화자 감지 레이어를 사용하여 처리됩니다.
검토 및 내보내기
내장 편집기에서 전사를 편집합니다. 일반 텍스트, Word 문서 또는 자막 파일로 내보냅니다.
VexaScribe Whisper 기능
실제 사용을 위한 추가 기능이 포함된 Whisper의 정확도
Whisper 수준 정확도
OpenAI의 전사를 구동하는 동일한 기술로 구축되었습니다. 신뢰할 수 있는 결과를 위해 다양한 오디오 소스로 학습되었습니다.
코딩 불필요
Python 스크립트와 API 문서를 건너뜁니다. 파일을 업로드하고 전사를 받기만 하면 됩니다.
99개 언어
Whisper는 높은 정확도로 99개 언어를 지원합니다. 언어가 자동으로 감지됩니다.
화자 감지 추가
Whisper 단독으로는 화자를 식별하지 않습니다. VexaScribe는 누가 무엇을 말했는지 알 수 있도록 화자 감지를 추가합니다.
클라우드 처리
GPU를 구매하거나 밤새 처리 작업을 실행할 필요가 없습니다. 저희 서버가 무거운 작업을 처리합니다.
안전한 처리
파일이 암호화되어 안전하게 처리됩니다. 언제든지 삭제할 수 있습니다. 오디오로 학습하지 않습니다.
Whisper 전사 FAQ
VexaScribe는 실제 Whisper를 사용하나요?
VexaScribe는 뛰어난 정확도를 제공하는 고급 음성 인식 기술을 사용합니다. 최고의 트랜스크립션을 제공하기 위해 모델을 지속적으로 개선하고 있습니다.
무언가 설치해야 하나요?
아니요. VexaScribe는 완전히 웹 기반입니다. Python 설치, 명령줄, GPU 설정이 필요 없습니다. 브라우저에서 파일을 업로드하기만 하면 됩니다.
로컬 Whisper와 어떻게 다른가요?
로컬에서 Whisper를 실행하려면 기술 지식과 강력한 하드웨어가 필요합니다. VexaScribe는 모든 복잡성을 처리하고 화자 식별, 편집 도구 등 추가 기능을 제공합니다.
몇 개 언어를 지원하나요?
VexaScribe는 99개 언어 트랜스크립션을 지원합니다. 시스템이 자동으로 언어를 감지하거나 업로드 전에 수동으로 선택할 수 있습니다.
트랜스크립션 정확도는?
깨끗한 오디오에서 95% 이상의 정확도를 기대할 수 있습니다. 정확도는 오디오 품질, 배경 소음, 말하는 명확도에 따릅니다. 내장 편집기에서 언제든지 확인하고 수정할 수 있습니다.
파일은 안전한가요?
네. 파일은 전송 및 저장 중에 암호화됩니다. 오디오를 AI 모델 훈련에 사용하지 않습니다. 언제든지 파일을 삭제할 수 있습니다.
참고: VexaScribe는 전사에 Whisper 기반 기술을 사용합니다. 결과는 오디오 품질과 콘텐츠 유형에 따라 다를 수 있습니다.
VexaScribe는 모든 사람이 Whisper 전사에 접근할 수 있게 합니다. 특정 사용 사례를 위한 관련 도구를 살펴보세요.