ファイルをアップロード → 話者ラベル付きのトランスクリプトを取得 → TXT、DOCX、SRT、VTT、またはJSONでエクスポート。
制限と仕様
| 最大ファイルサイズ | 5 GB |
| 最大時間 | 1ファイルあたり10時間 |
| 処理時間 | 音声10分あたり約1分 |
| 話者検出 | 最大10人の話者を識別 |
| 対応言語 | 99言語(自動検出または手動選択) |
| 入力形式 | MP3、WAV、M4A、FLAC、OGG、MP4、MOV、WEBM |
| エクスポート形式 | TXT、DOCX、SRT、VTT、JSON |
Whisperとは?
WhisperはOpenAIが2022年にリリースしたオープンソースの音声認識モデルです。680,000時間の多言語音声データでトレーニングされ、99言語で印象的な精度を提供します。
このモデルは誰でも使用できますが、自分で実行するには技術的なセットアップが必要です:Pythonプログラミング、GPUハードウェア、継続的なメンテナンスが必要です。ほとんどのユーザーにとって、これは大きな障壁となります。
VexaScribeはその障壁を取り除きます。当社のインフラでWhisperを実行し、話者検出(Whisperにはデフォルトで含まれていません)を追加し、シンプルなアップロード&ダウンロードインターフェースを提供します。
一般的な 音声文字起こしについて詳しくはこちら、または機能をご覧ください。
Whisper API vs VexaScribe
Whisperを直接使用
- ✗Pythonプログラミングの知識が必要
- ✗APIキーと請求の設定が必要
- ✗話者検出が組み込まれていない
- ✗ユーザーインターフェースなし—コマンドラインのみ
- ✗ファイルサイズ制限を自分で処理する必要がある
- ✗生の出力にはフォーマットが必要
VexaScribeを使用
- ✓ブラウザでファイルをアップロード
- ✓APIキーやセットアップ不要
- ✓話者検出を搭載
- ✓内蔵エディタと文字起こしビューア
- ✓大きなファイルを自動処理
- ✓TXT、DOCX、SRT、VTT、JSONとしてエクスポート
コスト比較:VexaScribe vs Whisper API
VexaScribe | Whisper API(DIY) | |
|---|---|---|
| 1分あたりのコスト | ~$0.005 | $0.006 + setup |
| セットアップ必要 | Not Included | Extra Work |
| 話者検出 | Included | Not Included |
| ユーザーインターフェース | Included | Extra Work |
* VexaScribeのコストはベーシックプラン($5/1000分 = $0.005/分)に基づきます。OpenAI APIの価格は2026年1月時点のもので、開発時間やインフラコストは含みません。 出典
話者検出の仕組み
VexaScribeはWhisper文字起こしに話者分離を追加し、異なる声を話者1、話者2などとして識別・ラベル付けします。エクスポート前にエディタで話者名を変更できます。
仕様
- •1ファイルあたり最大10人の話者をサポート
- •明確な発話交代で最も効果的(クロストークが少ない場合)
- •話者ラベルはSRT、VTT、JSONエクスポートに含まれます
ベストプラクティス
- ✓最良の結果を得るには高品質マイクを使用
- ✓背景ノイズと発話の重なりを最小限に
- ✓インタビューの場合:ピンマイクが最も良い話者分離を実現
既知の制限事項
話者の声質が似ている場合や大幅なクロストークがある場合、話者検出が声を統合することがあります。エディタでラベルを手動調整できます。
サンプルトランスクリプト出力を見る
[00:00:00] 話者1: ポッドキャストへようこそ。今日は... [00:00:05] 話者2: お招きいただきありがとうございます。お話しできて嬉しいです... [00:00:12] 話者1: まず基本から始めましょう。説明していただけますか... [00:00:18] 話者2: もちろんです。ここでの重要なコンセプトは...
プライバシーとデータ取り扱い
- 暗号化: 転送中(TLS 1.3)および保存中(AES-256)のファイル暗号化
- 保存期間: ファイルは30日後に自動削除。いつでも手動削除可能
- トレーニング: お客様の音声をモデルのトレーニングに使用しません
- 処理リージョン: EU(フランクフルト)
詳しくは プライバシーポリシー と 利用規約 をご覧ください。
Whisper文字起こしアプリ
VexaScribeは本質的に使いやすいインターフェースを持つWhisperアプリです。技術的なスキルを必要とせずにWhisperの音声認識のパワーを得られます。音声をアップロードし、文字起こしを取得し、好みの形式でエクスポートできます。
Whisper文字起こしの仕組み
音声をアップロード
音声または動画ファイルをドラッグ&ドロップしてください。変換と前処理は自動的に行われます。
Whisper + 話者検出
ファイルはWhisperで文字起こしされ、異なる音声を識別する話者検出レイヤーが追加されます。
確認とエクスポート
内蔵エディタで文字起こしを編集できます。プレーンテキスト、Word文書、字幕ファイルとしてエクスポートできます。
VexaScribe Whisper機能
Whisperの精度と実世界での使用のための追加機能
Whisperレベルの精度
OpenAIの文字起こしを支える同じ技術で構築されています。多様な音声ソースでトレーニングされ、信頼性の高い結果を提供します。
コーディング不要
PythonスクリプトやAPIドキュメントをスキップできます。ファイルをアップロードして文字起こしを取得するだけです。
99言語
Whisperは99言語で高い精度をサポートしています。言語は自動的に検出されます。
話者検出を追加
Whisper単体では話者を識別しません。VexaScribeは話者検出を追加するので、誰が何を言ったかがわかります。
クラウド処理
GPUを購入したり、一晩中処理ジョブを実行したりする必要はありません。当社のサーバーが重い処理を行います。
安全な処理
ファイルは暗号化されて安全に処理されます。いつでも削除できます。お客様の音声でトレーニングすることはありません。
Whisper文字起こしに関するよくある質問
VexaScribeは本物のWhisperを使用していますか?
VexaScribeは優れた精度を提供する高度な音声認識技術を使用しています。最高の文字起こしを提供するためにモデルを継続的に改善しています。
何かインストールする必要がありますか?
いいえ。VexaScribeは完全にウェブベースです。Pythonのインストール、コマンドライン、GPUセットアップは不要。ブラウザでファイルをアップロードするだけ。
ローカルWhisperとどう違いますか?
ローカルでWhisperを実行するには技術知識と強力なハードウェアが必要です。VexaScribeはすべての複雑さを処理し、話者識別や編集ツールなどの追加機能を提供。
何言語に対応していますか?
VexaScribeは99言語の文字起こしに対応。システムが自動で言語を検出するか、アップロード前に手動で選択できます。
文字起こしの精度は?
クリアな音声で95%以上の精度が期待できます。精度は音声品質、背景ノイズ、話す明瞭さによります。内蔵エディタでいつでも確認・修正可能。
ファイルは安全ですか?
はい。ファイルは転送と保存中に暗号化。音声をAIモデルのトレーニングに使用しません。いつでもファイルを削除可能。
注意: VexaScribeは文字起こしにWhisperベースの技術を使用しています。結果は音質とコンテンツタイプによって異なる場合があります。
VexaScribeはWhisper文字起こしを誰でもアクセスできるようにします。特定のユースケースについては以下の関連ツールをご覧ください。