Whisper Transcription Without the Setup
NovaScribe is a web-based transcription app that uses OpenAI Whisper to convert audio and video to text for podcasters, researchers, journalists, and teams. Plans start at $2/month (200 minutes) with a free 30-minute trial. No coding or API setup required.
Supported formats:
Upload a file → Get transcript with speaker labels → Export as TXT, DOCX, SRT, VTT, or JSON.
Limits & Specifications
| Max file size | 2 GB |
| Max duration | 10 hours per file |
| Turnaround time | ~1 minute per 10 minutes of audio |
| Speaker detection | Up to 10 distinct speakers |
| Languages | 99 (auto-detected or manual selection) |
| Input formats | MP3, WAV, M4A, FLAC, OGG, MP4, MOV, WEBM |
| Export formats | TXT, DOCX, SRT, VTT, JSON |
What is Whisper?
Whisper is OpenAI's open-source speech recognition model, released in 2022. It's trained on 680,000 hours of multilingual audio data and delivers impressive accuracy across 99 languages.
The model is available for anyone to use, but running it yourself requires technical setup: Python programming, GPU hardware, and ongoing maintenance. For most users, this creates a significant barrier to access.
NovaScribe removes that barrier. We run Whisper on our infrastructure, add speaker detection (which Whisper doesn't include by default), and provide a simple upload-and-download interface.
Learn more about general audio transcription or explore our features.
Sources: OpenAI Whisper GitHub · OpenAI Whisper Research
Whisper API vs NovaScribe
Using Whisper Directly
- ✗Requires Python programming knowledge
- ✗Need to set up API keys and billing
- ✗No speaker detection built-in
- ✗No user interface—command line only
- ✗Must handle file size limits yourself
- ✗Raw output needs formatting
Using NovaScribe
- ✓Upload files in your browser
- ✓No API keys or setup needed
- ✓Speaker detection included
- ✓Built-in editor and transcript viewer
- ✓Large files handled automatically
- ✓Export as TXT, DOCX, SRT, VTT, JSON
Cost Comparison: NovaScribe vs Whisper API
NovaScribe | Whisper API (DIY) | |
|---|---|---|
| Per-minute cost | ~$0.005 | $0.006 + setup |
| Setup required | Not Included | Extra Work |
| Speaker detection | Included | Not Included |
| User interface | Included | Extra Work |
* NovaScribe cost based on Basic plan ($5/1000 min = $0.005/min). OpenAI API pricing as of January 2026; excludes development time and infrastructure costs. Source
How Speaker Detection Works
NovaScribe adds speaker diarization on top of Whisper transcription, identifying and labeling different voices as Speaker 1, Speaker 2, etc. You can rename speakers in the editor before exporting.
Specifications
- •Supports up to 10 distinct speakers per file
- •Works best with clear turn-taking (minimal crosstalk)
- •Speaker labels included in SRT, VTT, and JSON exports
Best Practices
- ✓Use quality microphones for clearest results
- ✓Minimize background noise and overlapping speech
- ✓For interviews: lapel mics produce best speaker separation
Known Limitations
Speaker detection may merge voices when speakers have similar vocal characteristics or when there's significant crosstalk. You can manually adjust labels in the editor.
View sample transcript output
[00:00:00] Speaker 1: Welcome to the podcast. Today we're discussing... [00:00:05] Speaker 2: Thanks for having me. I'm excited to share... [00:00:12] Speaker 1: Let's start with the basics. Can you explain... [00:00:18] Speaker 2: Absolutely. The key concept here is...
Privacy & Data Handling
- Encryption: Files encrypted in transit (TLS 1.3) and at rest (AES-256)
- Retention: Files auto-delete after 30 days; manual deletion available anytime
- Training: We do not use your audio to train models
- Processing region: EU (Frankfurt)
See our Privacy Policy and Terms of Service for details.
Whisper Transcription App
NovaScribe is essentially a Whisper app with a user-friendly interface. You get the power of Whisper's speech recognition without needing technical skills. Upload your audio, get your transcript, export in your preferred format.
How Whisper Transcription Works
Upload Your Audio
Drag and drop any audio or video file. We handle the conversion and preprocessing automatically.
Whisper + Speaker Detection
Your file is processed using Whisper for transcription, plus our speaker detection layer to identify different voices.
Review & Export
Edit your transcript in our built-in editor. Export as plain text, Word document, or subtitle files.
NovaScribe Whisper Features
Whisper's accuracy with additional features for real-world use
Whisper-Level Accuracy
Whisper achieves word error rates (WER) of approximately 3-5% on clear English audio, based on OpenAI's published benchmarks.
No Coding Required
Skip the Python scripts and API documentation. Just upload your file and get your transcript.
99 Languages
Whisper supports 99 languages including English, Spanish, German, French, Portuguese, Chinese, Japanese, Korean, Arabic, and Hindi.
Speaker Detection Added
Speaker detection identifies up to 10 distinct speakers and labels them automatically; you can rename speakers before exporting.
Cloud Processing
No need to buy a GPU or run overnight processing jobs. Our servers handle the heavy lifting.
Secure Processing
Files are encrypted in transit and at rest. NovaScribe does not use customer audio to train machine learning models.
Whisper Transcription FAQ
Whisper nedir ve transkripsiyon için nasıl çalışır?
Whisper, OpenAI tarafından geliştirilen otomatik konuşma tanıma (ASR) modelidir. 680.000 saatlik çok dilli ses verisi üzerinde eğitilmiştir, bu da birçok dil ve aksanda yüksek doğruluk sağlar. Whisper, konuşmadaki kalıpları öğrenmiş bir sinir ağı aracılığıyla sesi işleyerek metne dönüştürür. Çeşitli ses kaliteleri, arka plan gürültüsü ve birden fazla konuşmacıyı yönetebilir. NovaScribe, modeli kendiniz kurmadan veya yönetmeden doğru transkripsiyon sağlamak için Whisper tabanlı teknolojiyi kullanır.
Whisper transkripsiyon ne kadar doğru?
Whisper mevcut en doğru konuşmadan metne modellerinden biri olarak kabul edilir. Net İngilizce ses için, profesyonel insan transkripsiyonuyla karşılaştırılabilir çok düşük kelime hata oranları sağlar. Doğruluk dile göre değişir — İngilizce, İspanyolca, Almanca ve diğer bazı diller mükemmel performans gösterirken, daha az yaygın dillerin hata oranları daha yüksek olabilir. Ses kalitesi doğruluğu önemli ölçüde etkiler; minimum arka plan gürültüsüyle temiz kayıtlar en iyi sonuçları verir.
Whisper hangi dilleri destekliyor?
Whisper 99 dilde transkripsiyonu destekler. Türkçe, İngilizce, İspanyolca, İtalyanca, Almanca, Portekizce, Fransızca, Hollandaca, Lehçe ve diğer yaygın konuşulan dillerde en iyi performansı gösterir. Ayrıca Çince, Japonca, Korece, Arapça, Hintçe ve daha birçok dili yazıya çevirebilir. Model konuşulan dili otomatik algılayabilir veya daha iyi doğruluk için manuel olarak belirtebilirsiniz.
Transkripsiyon için Whisper kullanmak için teknik becerilere ihtiyacım var mı?
Whisper'ı doğrudan kullanmak teknik bilgi gerektirir — Python kurmanız, bağımlılıkları ayarlamanız, GPU kaynaklarını yönetmeniz ve ses dosyalarını işlemek için kod yazmanız gerekir. Bu geliştiriciler dışındakiler için zorlayıcı olabilir. NovaScribe bu karmaşıklığı tamamen ortadan kaldırır. Tüm teknik altyapıyı biz yönetiyoruz, siz sadece web arayüzümüz aracılığıyla ses dosyanızı yükleyip transkriptinizi alıyorsunuz. Kodlama yok, kurulum yok, sunucu yönetimi yok.
NovaScribe Whisper'ı doğrudan kullanmaktan nasıl farklı?
Whisper'ı doğrudan kullanmak kendi altyapınızı kurmak anlamına gelir: modeli kurmak (önemli disk alanı ve GPU belleği gerektirir), dosyaları işlemek için kod yazmak, hataları yönetmek ve hesaplama kaynaklarını yönetmek. NovaScribe, Whisper tabanlı teknoloji üzerine kurulmuş eksiksiz bir çözüm sunar: basit yükleme arayüzü, otomatik işleme, düzeltmeler için dahili editör, konuşmacı algılama, birden fazla dışa aktarım formatı ve transkriptleriniz için bulut depolama.
NovaScribe OpenAI ile bağlantılı mı?
Hayır, NovaScribe bağımsız bir şirkettir. OpenAI ile bağlantılı, onaylanmış veya ortaklık içinde değiliz. Transkripsiyon hizmetimizi OpenAI'nin Whisper mimarisine dayanan veya benzer modeller içeren konuşmadan metne teknolojisi kullanarak oluşturuyoruz. Amacımız güçlü transkripsiyon teknolojisini basit, uygun fiyatlı bir web uygulaması aracılığıyla herkese erişilebilir kılmaktır.
Note: NovaScribe is not affiliated with OpenAI. We use Whisper-based technology for transcription. Results may vary based on audio quality and content type.
NovaScribe makes Whisper transcription accessible to everyone. Explore our related tools for specific use cases.