Whisper Transcription Without the Setup

NovaScribe is a web-based transcription app that uses OpenAI Whisper to convert audio and video to text for podcasters, researchers, journalists, and teams. Plans start at $2/month (200 minutes) with a free 30-minute trial. No coding or API setup required.

No credit card requiredNo coding required99 languages supported

Supported formats:

MP3WAVM4AFLACOGGMP4

Upload a file → Get transcript with speaker labels → Export as TXT, DOCX, SRT, VTT, or JSON.

Free: 30 minStarter: $2/mo (200 min)Basic: $5/mo (1000 min)Pro: $10/mo (2500 min)Studio: $20/mo (6000 min)

Limits & Specifications

Max file size2 GB
Max duration10 hours per file
Turnaround time~1 minute per 10 minutes of audio
Speaker detectionUp to 10 distinct speakers
Languages99 (auto-detected or manual selection)
Input formatsMP3, WAV, M4A, FLAC, OGG, MP4, MOV, WEBM
Export formatsTXT, DOCX, SRT, VTT, JSON

What is Whisper?

Whisper is OpenAI's open-source speech recognition model, released in 2022. It's trained on 680,000 hours of multilingual audio data and delivers impressive accuracy across 99 languages.

The model is available for anyone to use, but running it yourself requires technical setup: Python programming, GPU hardware, and ongoing maintenance. For most users, this creates a significant barrier to access.

NovaScribe removes that barrier. We run Whisper on our infrastructure, add speaker detection (which Whisper doesn't include by default), and provide a simple upload-and-download interface.

Learn more about general audio transcription or explore our features.

Sources: OpenAI Whisper GitHub · OpenAI Whisper Research

Whisper API vs NovaScribe

Using Whisper Directly

  • Requires Python programming knowledge
  • Need to set up API keys and billing
  • No speaker detection built-in
  • No user interface—command line only
  • Must handle file size limits yourself
  • Raw output needs formatting

Using NovaScribe

  • Upload files in your browser
  • No API keys or setup needed
  • Speaker detection included
  • Built-in editor and transcript viewer
  • Large files handled automatically
  • Export as TXT, DOCX, SRT, VTT, JSON

Cost Comparison: NovaScribe vs Whisper API

NovaScribe
Whisper API (DIY)
Per-minute cost~$0.005$0.006 + setup
Setup requiredNot IncludedExtra Work
Speaker detectionIncludedNot Included
User interfaceIncludedExtra Work

* NovaScribe cost based on Basic plan ($5/1000 min = $0.005/min). OpenAI API pricing as of January 2026; excludes development time and infrastructure costs. Source

How Speaker Detection Works

NovaScribe adds speaker diarization on top of Whisper transcription, identifying and labeling different voices as Speaker 1, Speaker 2, etc. You can rename speakers in the editor before exporting.

Specifications

  • Supports up to 10 distinct speakers per file
  • Works best with clear turn-taking (minimal crosstalk)
  • Speaker labels included in SRT, VTT, and JSON exports

Best Practices

  • Use quality microphones for clearest results
  • Minimize background noise and overlapping speech
  • For interviews: lapel mics produce best speaker separation

Known Limitations

Speaker detection may merge voices when speakers have similar vocal characteristics or when there's significant crosstalk. You can manually adjust labels in the editor.

View sample transcript output
[00:00:00] Speaker 1: Welcome to the podcast. Today we're discussing...
[00:00:05] Speaker 2: Thanks for having me. I'm excited to share...
[00:00:12] Speaker 1: Let's start with the basics. Can you explain...
[00:00:18] Speaker 2: Absolutely. The key concept here is...

Privacy & Data Handling

  • Encryption: Files encrypted in transit (TLS 1.3) and at rest (AES-256)
  • Retention: Files auto-delete after 30 days; manual deletion available anytime
  • Training: We do not use your audio to train models
  • Processing region: EU (Frankfurt)

See our Privacy Policy and Terms of Service for details.

Whisper Transcription App

NovaScribe is essentially a Whisper app with a user-friendly interface. You get the power of Whisper's speech recognition without needing technical skills. Upload your audio, get your transcript, export in your preferred format.

How Whisper Transcription Works

Upload Your Audio

Drag and drop any audio or video file. We handle the conversion and preprocessing automatically.

Whisper + Speaker Detection

Your file is processed using Whisper for transcription, plus our speaker detection layer to identify different voices.

Review & Export

Edit your transcript in our built-in editor. Export as plain text, Word document, or subtitle files.

NovaScribe Whisper Features

Whisper's accuracy with additional features for real-world use

Whisper-Level Accuracy

Whisper achieves word error rates (WER) of approximately 3-5% on clear English audio, based on OpenAI's published benchmarks.

No Coding Required

Skip the Python scripts and API documentation. Just upload your file and get your transcript.

99 Languages

Whisper supports 99 languages including English, Spanish, German, French, Portuguese, Chinese, Japanese, Korean, Arabic, and Hindi.

Speaker Detection Added

Speaker detection identifies up to 10 distinct speakers and labels them automatically; you can rename speakers before exporting.

Cloud Processing

No need to buy a GPU or run overnight processing jobs. Our servers handle the heavy lifting.

Secure Processing

Files are encrypted in transit and at rest. NovaScribe does not use customer audio to train machine learning models.

Whisper Transcription FAQ

Whisper چیست و چگونه برای رونویسی کار می‌کند؟

Whisper یک مدل تشخیص خودکار گفتار (ASR) است که توسط OpenAI توسعه داده شده. روی ۶۸۰,۰۰۰ ساعت داده صوتی چندزبانه آموزش دیده، که دقت بالا در بسیاری از زبان‌ها و لهجه‌ها را ممکن می‌سازد. Whisper صدا را با پردازش از طریق یک شبکه عصبی که الگوهای گفتار را یاد گرفته به متن تبدیل می‌کند. می‌تواند کیفیت‌های صوتی مختلف، نویز پس‌زمینه و چندین گوینده را مدیریت کند. NovaScribe از فناوری مبتنی بر Whisper استفاده می‌کند تا رونویسی دقیق بدون نیاز به تنظیم یا اجرای مدل ارائه دهد.

رونویسی Whisper چقدر دقیق است؟

Whisper یکی از دقیق‌ترین مدل‌های صدا به متن موجود در نظر گرفته می‌شود. برای صدای واضح انگلیسی، نرخ خطای کلمه بسیار پایینی قابل مقایسه با رونویسی حرفه‌ای انسانی به دست می‌آورد. دقت بر اساس زبان متفاوت است — انگلیسی، اسپانیایی، آلمانی و برخی زبان‌های دیگر عملکرد عالی نشان می‌دهند، در حالی که زبان‌های کمتر رایج ممکن است نرخ خطای بالاتری داشته باشند. کیفیت صدا به طور قابل توجهی بر دقت تأثیر می‌گذارد؛ ضبط‌های واضح با حداقل نویز پس‌زمینه بهترین نتایج را می‌دهند.

Whisper از چه زبان‌هایی پشتیبانی می‌کند؟

Whisper از رونویسی در ۹۹ زبان پشتیبانی می‌کند. بهترین عملکرد را در فارسی، انگلیسی، اسپانیایی، فرانسوی، آلمانی، هلندی، لهستانی و سایر زبان‌های رایج نشان می‌دهد. همچنین می‌تواند چینی، ژاپنی، کره‌ای، عربی، هندی و بسیاری دیگر را رونویسی کند. مدل می‌تواند به طور خودکار زبان صحبت شده را تشخیص دهد، یا می‌توانید آن را برای دقت بالاتر دستی مشخص کنید.

آیا برای استفاده از رونویسی Whisper به مهارت‌های فنی نیاز دارم؟

استفاده مستقیم از Whisper نیاز به دانش فنی دارد — باید Python نصب کنید، وابستگی‌ها را تنظیم کنید، منابع GPU را مدیریت کنید و کد برای پردازش فایل‌های صوتی بنویسید. این برای غیرتوسعه‌دهندگان می‌تواند چالش‌برانگیز باشد. NovaScribe این پیچیدگی را کاملاً حذف می‌کند. ما تمام زیرساخت فنی را مدیریت می‌کنیم، شما فقط فایل صوتی را از طریق رابط وب ما آپلود می‌کنید و رونویسی دریافت می‌کنید. بدون برنامه‌نویسی، بدون تنظیم، بدون مدیریت سرور.

NovaScribe چه تفاوتی با استفاده مستقیم از Whisper دارد؟

استفاده مستقیم از Whisper به معنای تنظیم زیرساخت خودتان است: نصب مدل (نیاز به فضای دیسک قابل توجه و حافظه GPU)، نوشتن کد برای پردازش فایل‌ها، مدیریت خطاها و منابع محاسباتی. NovaScribe یک راه‌حل کامل ارائه می‌دهد که روی فناوری مبتنی بر Whisper ساخته شده: رابط آپلود ساده، پردازش خودکار، ویرایشگر داخلی برای تصحیحات، شناسایی گوینده، فرمت‌های خروجی متعدد و ذخیره‌سازی ابری برای رونویسی‌هایتان. به آن فکر کنید مثل تفاوت بین خرید موتور و خرید ماشین.

آیا NovaScribe وابسته به OpenAI است؟

نه، NovaScribe یک شرکت مستقل است. ما وابسته، تأیید شده یا شریک OpenAI نیستیم. سرویس رونویسی خود را با استفاده از فناوری صدا به متن که مبتنی بر یا مشابه معماری Whisper از OpenAI است ساخته‌ایم. هدف ما این است که فناوری رونویسی قدرتمند را از طریق یک اپلیکیشن وب ساده و مقرون به صرفه در دسترس همه قرار دهیم.

Note: NovaScribe is not affiliated with OpenAI. We use Whisper-based technology for transcription. Results may vary based on audio quality and content type.

NovaScribe makes Whisper transcription accessible to everyone. Explore our related tools for specific use cases.