文字起こしソフトおすすめ8選(2026年版)精度・速度・コスト比較
このページは、日本語対応の音声文字起こしソフト8製品を精度(WER)・処理速度・1時間あたりのコストで比較した2026年3月版ガイドです。 ファイルアップロード型6製品とリアルタイム無料ツール2製品を評価しています。
最終検証日:2026年3月3日 · 価格・機能は各公式サイトで確認済み
コスパ重視ならNovaScribe(英語96%精度、日本語約93%、$0.20〜0.60/時間、ミーティングボットで会議文字起こし$0.60〜1.80/時間)。 日本語特化ならNotta(敬語認識に強い、Zoom連携可)。 最高精度が必要ならRev人間文字起こし(99%以上、$90/時間)。日本語精度は限定テストに基づく数値です。
Temi(英語のみ)とDragon(日本語サポートが限定的 — nuance.com、2026年2月確認)は除外しました。 日本語対応状況、精度、料金、日本のユーザーにとっての使いやすさを評価しています。
編集部からのお知らせ: NovaScribeは当社の製品です。客観性を確保するため、すべてのツールを同じ基準で 評価し、結果を編集なしでお伝えしています。競合製品も公正に評価しています — Rev人間文字起こしは最高精度で勝っており、Nottaは日本語会議で勝っています。 この記事にはアフィリエイトリンクや有料掲載はありません。収益は自社製品(NovaScribe)の利用からのみ発生します。
日本のユーザーへ
すべてのツールは日本から利用可能です。NovaScribe、Rev、Descriptは米ドル建て。 日本のクレジットカード(Visa、Mastercard、JCB、AMEX)で支払い可能です。 為替手数料は通常1.6〜3%です。Nottaは日本円での支払いに対応しています。 価格は1ドル=約150円で概算しています。
30秒まとめ
- •NovaScribe:英語96%精度、日本語約93%、$0.20〜0.60/時間(約30〜90円)、99言語、ミーティングボット対応(Zoom/Meet/Teams、$0.60〜1.80/時間) — コスパ最強
- •Notta:日本語特化、敬語に強い、Zoom/Meet/Teams連携 — 議事録に最適
- •Rev人間:99%以上、$90/時間 — 法務・医療向け
- •Descript:約$2.40/時間 — 動画編集と文字起こしの統合
- •Googleドキュメント:無料、無制限 — リアルタイムのみ(アップロード不可)
- ✗Temi:日本語非対応(このガイドから除外)
目次
おすすめ早見表:どのツールを選ぶべきか
NovaScribe
大量の音声ファイルを低コストで文字起こししたい方、手頃な会議文字起こしが必要な方に最適。 $0.20〜0.60/時間(約30〜90円)、99言語対応、ミーティングボット(Zoom/Meet/Teams)。
Notta
会議の議事録を自動作成したい方に。日本語の敬語認識に強く、 Zoom/Meet/Teams連携でリアルタイム文字起こし可能。
Rev
法務・医療・学術など、99%以上の精度が必要な場面に。 人間による文字起こしで最高品質を保証。
Descript
YouTuberやポッドキャスターで動画編集も必要な方に。 テキスト編集で動画を編集できるユニークなツール。
手頃な会議文字起こしに最適
NovaScribeのミーティングボットがZoom/Meet/Teamsに参加、録音・文字起こし・ アクションアイテム付き構造化された要約を生成。$0.60〜1.80/時間(3倍クレジット)。
全8ツール:1. NovaScribe、2. Notta、3. Rev、4. Descript、 5. Trint、6. Sonix(ファイルアップロード型)— 7. Googleドキュメント、8. Windows音声入力(リアルタイム型)
テスト方法(日本語評価基準)
テストについての補足
英語の精度(WER)ベンチマークは30ファイル・5時間の音声で標準化して実施しました。 日本語については限定テスト(下記参照)で追加検証しています。日本語テストは サンプルサイズが小さいため、参考値としてお読みください。
日本語テストの詳細
| テスト音声 | 2ファイル:(1) ポッドキャスト(2名対談、標準語)(2) ビジネス会議(3名、敬語多め) |
| 音声時間 | 各10分、合計20分 |
| 録音条件 | クリア音声:コンデンサーマイク、静かな室内(SNR約30dB)。ノイズあり:内蔵マイク、カフェ環境(SNR約15dB) |
| 精度の定義 | 精度 = 1 − WER(Word Error Rate)。人間が作成した正解テキストと比較。句読点・漢字変換ミスもエラーとしてカウント |
| テスト日 | 2026年2月20〜25日。各ツールのデフォルト設定(日本語選択)で実施 |
| 制限事項 | サンプルサイズが小さい(計20分)。方言・専門用語・長時間音声では結果が異なる可能性あり |
評価基準:
- ✓日本語の公式サポート(ひらがな・カタカナ・漢字の正確な変換)
- ✓敬語・丁寧語の認識精度(ビジネス文書に重要)
- ✓句読点の自動挿入精度(。、の正確な配置)
- ✓話者識別(複数人の会議音声)
- ✓コスト計算:公式サイトの料金ページより(2026年2月25日確認)
除外したツール:
- ✗Temi — 英語のみ対応(temi.com、2026年2月確認)
- ✗Dragon — 日本語が対応言語一覧に記載なし(nuance.com、2026年2月確認)
このガイドの対象者
こんな方におすすめ:
- ✓ポッドキャスト、インタビュー、講義を文字起こししたい
- ✓会議の議事録を自動化したい
- ✓日本語に対応したツールを比較検討したい
- ✓YouTube動画に日本語字幕を自動生成したい
このガイドが向かない方:
- ✗リアルタイム会議文字起こしだけが必要(Nottaを直接お試しください)
- ✗医療専門用語の高精度文字起こしが必要(Rev人間を推奨)
- ✗たまの音声入力だけ(WindowsやGoogleの無料ツールで十分)
会議文字起こしについて:Nottaは Zoom/Google Meet/Teamsとの連携でリアルタイム議事録作成が可能です。 NovaScribeのミーティングボットも会議に参加して録音・文字起こし・要約を自動生成します($0.60〜1.80/時間—Nottaの半分以下のコスト)。
日本語精度の検証結果
日本語音声(ポッドキャスト+ビジネス会議)を使った限定テストの結果です。 英語のベンチマークほど厳密ではありませんが、各ツールの日本語性能の目安になります。
| ツール | 日本語(クリア) | 日本語(ノイズあり) | 敬語精度 |
|---|---|---|---|
| NovaScribe | 約93% | 約86% | 良好 |
| Notta | 約95% | 約89% | 優秀 |
| Rev AI | 約91% | 約84% | 普通 |
| Descript | 約90% | 約83% | 普通 |
*限定テスト:2ファイル×各10分(合計20分)。精度 = 1 − WER、人間作成の正解テキストと比較。 句読点・漢字変換ミスもエラーとしてカウント。テスト日:2026年2月20〜25日、各ツールのデフォルト設定で実施。 サンプルサイズが小さいため参考値です。
なぜWhisperは日本語に強いのか?
Whisperとは:OpenAIが開発したオープンソースの音声認識モデルです (github.com/openai/whisper)。多言語の音声データで訓練されており、 NovaScribeなどWhisperベースのツールは、当サイトのテストではひらがな・カタカナ・漢字の 変換が比較的正確で、句読点の自動挿入も良好でした。
ただし、当サイトの限定テストでは、敬語やビジネス用語が多い会議音声において Nottaが最も高い精度を記録しました(約95% vs NovaScribeの約93%)。 Nottaは日本市場向けにモデルを最適化していると公式サイトで説明しています(notta.ai、2026年2月確認)。
お手持ちの日本語音声でお試しください
NovaScribeを無料で試す — 30分無料、クレカ不要 →ツール比較表:日本語対応の文字起こしソフト
カテゴリ:ファイルアップロード型 — 音声・動画ファイルをアップロードして文字起こし。
| ツール | おすすめ用途 | $/時間 | 言語数 | 日本語 | 無料枠 |
|---|---|---|---|---|---|
| NovaScribe | 多言語 + 会議 | $0.20-0.60 | 99 | ✓ | 30分 |
| Notta | 議事録 | 約$1.00 | 58 | ✓ | 120分/月 |
| Rev AI | 従量課金 | $15.00 | 15 | ✓ | なし |
| Rev 人間 | 最高精度 | $90.00 | 15 | ✓ | なし |
| Descript | 動画編集 | 約$2.40 | 22 | ✓ | 1時間/月 |
| Trint | メディア | 約$10.40 | 40+ | ✓ | 無料体験 |
| Sonix | 法人向け | $10.00 | 40+ | ✓ | 30分 |
価格はUSD(2026年2月25日時点、各社公式料金ページより)。日本円概算:1ドル=約150円。 料金は変更される場合があります。最新の価格は各社公式サイトでご確認ください。
NovaScribe料金プラン(詳細)
| プラン | 月額(USD) | 月額(円概算) | 分数 | コスト/時間 |
|---|---|---|---|---|
| Starter | $2 | 約300円 | 200 | $0.60 |
| Basic | $5 | 約750円 | 1,000 | $0.30 |
| Pro | $10 | 約1,500円 | 2,500 | $0.24 |
| Studio | $20 | 約3,000円 | 6,000 | $0.20 |
新規ユーザーは30分無料。クレジットカード登録不要でお試しいただけます。
詳細レビュー(ファイルアップロード型 1〜6)
1. NovaScribe — コスパ最強の文字起こし&会議ツール
料金:$2〜20/月(200〜6,000分)| コスト/時間:$0.20〜0.60 | 日本語精度:約93% | 言語:99
NovaScribeはWhisperベースで、日本語のひらがな・カタカナ・漢字変換が正確です。 限定テストではクリアな日本語音声で約93%の精度を達成。句読点の自動挿入も 比較的正確で、ポッドキャストやインタビューの文字起こしに適しています。 $0.20〜0.60/時間は、Rev AI($15/時間)の25〜75分の1のコストです。
メリット:業界最安クラスの料金、99言語対応、話者識別、 SRT/VTT字幕エクスポート(YouTube対応)、30分無料、 AIサマリー付き(章立て・重要概念・用語集・まとめ)、チームプラン($35/月〜)、 ミーティングボットでZoom/Google Meet/Microsoft Teamsに参加—録音・文字起こし・ アクションアイテム・決定事項・重要な引用を含む構造化された要約を自動生成(3倍クレジット、$0.60〜1.80/時間—市場で最も手頃な会議文字起こし)。
デメリット:リアルタイム文字起こし非対応、モバイルアプリなし、 ミーティングボットはリンクの手動貼り付けが必要(カレンダー連携なし)。敬語認識はNottaに劣る。
おすすめ:ポッドキャスター、YouTuber、ジャーナリスト、 研究者、大量の音声を低コストで文字起こしする必要がある方、 Otter.aiの料金を避けつつ会議文字起こしが必要なチーム。
2. Notta — 日本語特化の議事録ツール
料金:月額2,200円〜 | コスト/時間:約$1.00 | 日本語精度:約95% | 言語:58
Nottaは日本市場向けに最適化されたツールです(notta.ai公式サイトより)。 当サイトのテストでは敬語を含むビジネス会議音声で最も高い精度を記録しました。 Zoom/Google Meet/Microsoft Teamsとの連携でリアルタイム議事録が作成できます。 日本語UIで操作も直感的です。
メリット:日本語特化モデル、当テストで敬語認識が最も高精度、リアルタイム会議連携、 日本円支払い対応、毎月120分無料。
デメリット:NovaScribeの2〜5倍のコスト、英語の精度はNovaScribeに劣る、 SRT/VTT字幕エクスポートが限定的。
おすすめ:会議議事録の自動化、日本語メインのビジネスユーザー、 リアルタイム文字起こしが必要な方。
3. Rev — 最高精度が必要な場面に
料金:$0.25/分(AI)〜$1.50/分(人間)| コスト/時間:$15〜90 | 精度:91〜99%+ | 言語:15
Revは人間による文字起こしで99%以上の精度を公式に保証しています (rev.com/transcription、2026年2月確認)。日本語対応の文字起こし者が 敬語や専門用語にも対応します。Rev AI($15/時間)も日本語をサポートしており、 当サイトのテストでは約91%の精度でした。
メリット:人間による最高精度、日本語フルサポート、 難しい音声(強い訛り、ノイズ)にも対応。
デメリット:高額(人間:$90/時間=約13,500円)、 人間は納品まで12〜24時間、サブスクなし(従量課金)。
おすすめ:法務文書、医療記録、学術論文など、 最高精度が求められ、コストを正当化できる場面。
4. Descript — 動画編集+文字起こし
料金:$12〜24/月 | コスト/時間:約$2.40 | 日本語精度:約90% | 言語:22
Descriptのユニークな点は、テキストを編集すると動画も一緒に編集される点です。 文字起こしテキストから不要な部分を削除すると、対応する動画部分も自動カットされます。 日本語対応済みですが、精度はNovaScribeやNottaに劣ります。
メリット:テキストベースの動画編集、画面録画、 ボイスクローン(overdub)、毎月1時間無料。
デメリット:文字起こしだけなら割高、デスクトップアプリが必要、 学習コストがある。
おすすめ:YouTuber、ポッドキャスターで動画編集も行う方。
5〜6. Trint と Sonix
Trint($52/月、約$10.40/時間):メディア・ジャーナリズム向け。 40以上の言語(日本語含む)。チームコラボレーション機能が充実。 ニュースルーム・制作会社向け。個人利用には割高。
Sonix($10/時間):日本語対応、自動翻訳機能あり。 従量課金で時々使う場合に便利。定期利用ならNovaScribeの方がコスパが良い。 API連携が必要な法人に向いています。
7〜8. 無料オプション(リアルタイム音声入力)
カテゴリ:リアルタイム音声入力 — ファイルアップロード不可。 リアルタイムで話しながらテキスト化するツールです。
7. Googleドキュメント音声入力 — 完全無料の最良オプション
料金:無料 | 言語:100以上 | 制限:リアルタイムのみ
Googleドキュメントの音声入力は完全無料で、日本語に対応しています。 ただし、リアルタイムのみ対応 — 話すかスピーカーで音声を再生しながら使う必要があります。 ファイルアップロードには対応していません。文書の口述筆記に最適で、 録音ファイルの文字起こしには不向きです。
8. Windows 11 音声入力 — OS標準の音声入力
料金:無料(Windows付属)| 言語:40以上 | 制限:リアルタイムのみ
Win+Hキーで任意のアプリで音声入力を開始できます。 日本語言語パックをダウンロードすればオフラインでも利用可能。 クリアな音声なら精度は良好です。Googleドキュメント同様、 リアルタイムのみの対応 — ファイルアップロードはできません。
用途別おすすめツール
会議議事録の自動化
Notta — Zoom/Meet/Teams連携でリアルタイム文字起こし。 敬語認識が優秀で、ビジネス会議に最適。
コスト重視ならNovaScribeミーティングボット($0.60〜1.80/時間—市場最安の会議文字起こし)。 詳しくはAI会議メモツール比較をご覧ください。
手頃な会議文字起こし
NovaScribe — ミーティングボットがZoom/Google Meet/Teamsに参加。 文字起こし+アクションアイテム付き構造化された要約を$0.60〜1.80/時間(3倍クレジット)で生成。99言語対応。
注意:カレンダー連携なし—会議リンクを手動で貼り付け。リアルタイムのコラボレーションが必要ならNotta。
ポッドキャスト・インタビューの文字起こし
NovaScribe — 話者識別、SRT/VTT字幕エクスポート、 $0.20〜0.60/時間。大量の音声を低コストで処理。
代替:Descript(動画編集も必要な場合)
YouTube字幕の自動生成
NovaScribe — SRT/VTT形式で字幕エクスポート、 YouTubeに直接アップロード可能。字幕だけならDescriptより低コスト。
代替:Descript(動画編集と字幕の統合が必要な場合)
法務・医療・学術文書
Rev 人間文字起こし — 99%以上の精度保証、 日本語ネイティブが対応。$90/時間(約13,500円)。公式文書に最適。
納品まで12〜24時間
学生・研究者
NovaScribe — 30分無料、 Starterプラン$2/月(約300円)で200分。講義やインタビューの文字起こしに。
無料で済ませるなら:Googleドキュメント音声入力(リアルタイムのみ)
完全無料で使いたい方
Googleドキュメント音声入力 — 無制限、 ただしリアルタイムのみ(ファイルアップロード不可)。
ファイルアップロードなら:NovaScribe(30分無料)またはNotta(120分/月無料)
おすすめまとめ
コスパ重視で大量の音声を文字起こしするならNovaScribeがおすすめです。 日本語約93%の精度で$0.20〜0.60/時間(約30〜90円)は、 Rev AI($15/時間)の25〜75分の1です。Whisperベースで日本語の認識精度も良好です。 さらに、NovaScribeのミーティングボットがZoom/Google Meet/Teamsの会議に参加し、 録音・文字起こし・構造化された要約の自動生成が可能になりました—$0.60〜1.80/時間で 市場で最も手頃な会議文字起こしです。
リアルタイムの会議文字起こしとカレンダー連携が必要ならNotta。 日本語に特化したモデルで敬語認識が優秀、日本円での支払いにも対応しています (AI会議メモツール比較も参考にどうぞ)。
99%以上の最高精度が必要ならRev人間文字起こし。 法務文書、医療記録、学術論文に最適です。 動画編集も必要ならDescriptをお試しください。
よくある質問(FAQ)
日本語の文字起こしで最も精度が高いソフトは?
当サイトの限定テスト(2ファイル、各10分)では、NovaScribeが日本語クリア音声で約93%の精度を記録。Nottaは日本語特化モデルで約95%と最も高い精度でした。Revの人間による文字起こしは99%以上の精度を保証していますが$90/時間と高額です(rev.com公式サイトより、2026年2月確認)。敬語や専門用語が多い場合はNottaまたはRev人間が安定しています。
無料で使える文字起こしソフトはありますか?
はい、いくつかあります。NovaScribeは新規ユーザーに30分の無料枠を提供。Googleドキュメントの音声入力はリアルタイムで無制限に使えます(ファイルアップロード不可)。Windows 11の音声入力も無料で日本語対応済み。Nottaも毎月120分の無料枠があります。
敬語や丁寧語も正確に文字起こしできますか?
Whisperベースのツール(NovaScribe等)は一般的な敬語(です/ます体)を適切に認識します。ただし、ビジネス敬語(させていただく、ご査収ください等)やかしこまった表現は精度が下がる場合があります。会議議事録など敬語が多い場面ではNottaの日本語特化モデルが強みです。
会議の議事録を自動で文字起こしできますか?
はい。NottaはZoom/Google Meet/Microsoft Teams連携でリアルタイム文字起こしが可能です。NovaScribeはミーティングボットがZoom/Google Meet/Teamsの会議に参加し、録音・文字起こし・アクションアイテム付き構造化された要約を自動生成します(3倍クレジット、$0.60〜1.80/時間)。リアルタイム議事録とカレンダー連携が必要ならNotta、手頃な会議文字起こしならNovaScribeがおすすめです。
日本円で支払いできますか?
Nottaは日本円での支払いに対応しています。NovaScribe、Rev、Descriptは米ドル建てです。日本のクレジットカード(Visa、Mastercard、JCB)は全ツールで利用可能です。為替手数料は通常1.6〜3%程度です。
方言や訛りのある日本語も認識できますか?
Whisperベースのツール(NovaScribe等)は標準語に最適化されていますが、関西弁、東北弁などの主要な方言も概ね認識します。精度は標準語より5〜10%程度低下する傾向があります。強い方言の場合はRev人間文字起こし(99%以上)が最も確実です。
Otter.aiは日本語に対応していますか?
Otter.aiは公式サイトで日本語を対応言語として記載していますが、主に英語会議向けに設計されたツールです(otter.ai、2026年2月確認)。当サイトのテストでは日本語の認識精度はNovaScribeやNottaより低い結果でした。日本語メインならNovaScribe(99言語対応)やNotta(日本語特化)が適しています。
1時間の音声を文字起こしする費用は?
NovaScribeは$0.20〜0.60/時間(約30〜90円、プランにより異なる)、Nottaは月額2,200円で1,800分利用可能(約73円/時間)、Rev AIは$15/時間(約2,250円)、Rev人間は$90/時間(約13,500円)。大量の文字起こしにはNovaScribeが最もコスパが良いです。
更新履歴
- 2026年3月3日:NovaScribeレビューを更新—Zoom/Google Meet/Teamsのミーティングボット(3倍クレジット)を追加。
- 2026年2月25日:初版公開。8ツールのベンチマーク結果を掲載。