「OpenAI Whisperとは何か」「無料で使えるのか、APIで使うべきか」「日本語精度はどれくらいか」「議事録・会議録音にどう使えるか」――この4つは、2026年現在AI音声認識を業務に組み込もうとするすべての担当者が抱える論点です。Whisperは2022年にOpenAIがオープンソースとして公開した音声認識モデルで、99言語対応・日本語WER 4.9%という高精度・無料/有料の柔軟な利用形態で、AI時代の音声認識の事実上の標準になっています。本記事では、Whisperの基本・モデルサイズ・無料/API使い分け・議事録活用・他サービス比較・renueの実装現場視点を整理します。
OpenAI Whisperとは――2026年版の定義
WhisperはOpenAIが開発した汎用音声認識モデルです。68万時間の多言語・多タスク音声データで学習されており、99言語の音声認識・翻訳・タイムスタンプ付与を1つのモデルで実現します。MITライセンスで完全オープンソース公開されており、商用利用・自社サーバーでの運用も自由です。
2026年時点の主要特徴:
- 99言語対応:日本語・英語・中国語等の主要言語で実用精度
- 日本語精度が高い:FleursデータセットでWER 4.9%
- オープンソース:MITライセンス、完全無料で商用利用可
- 5サイズ展開:tiny/base/small/medium/large から用途別に選択
- API版もあり:自前GPU不要、$0.006/分の従量課金
- 翻訳機能内蔵:他言語→英語の翻訳も同時実行可能
- SRT/VTT出力:字幕ファイル形式で直接出力
Whisperのモデルサイズ比較
| モデル | パラメータ | 必要メモリ | 速度 | 精度 | 用途 |
|---|---|---|---|---|---|
| tiny | 39M | 1GB | 非常に高速 | 低 | 下書き・速度重視 |
| base | 74M | 1GB | 高速 | 低〜中 | 軽量実装 |
| small | 244M | 2GB | 中速 | 中 | 個人・PoC |
| medium | 769M | 5GB | 低速 | 中〜高 | 業務利用 |
| large(v3) | 1550M | 10GB | 遅い | 最高 | 本番運用 |
業務利用ではmedium/largeが標準。GPUがあればローカル実行、なければAPI版(large相当の精度)が現実的です。
2つの利用方法――ローカル vs API
ローカル(オープンソース版)
- メリット:完全無料、機密データを外部に出さない、無制限
- デメリット:GPU環境が必要、運用工数
- 適性:機密性が高い業務、大量処理、コスト最重視
OpenAI API版
- メリット:自前環境不要、$0.006/分(1時間≒54円)、簡単
- デメリット:データがOpenAIサーバーに送信される、ファイルサイズ上限25MB
- 適性:少量〜中量、機密性を要しない業務、素早い導入
Whisperで何ができるか――実用パターン10選
- 会議議事録の自動文字起こし:Zoom録画→Whisper→Claude要約の一気通貫
- インタビュー記事化:取材音声からテキスト化→構成→記事
- 講演・セミナーの記録:講演音声を全文書き起こし
- 動画字幕生成:SRT形式で直接出力可能
- 多言語動画への翻訳字幕:英語動画→日本語字幕
- カスタマーサポート通話分析:通話音声からテキスト化→品質分析
- 音声メモのデジタル化:移動中の口頭メモを自動テキスト化
- 議事録のリアルタイム生成:WhisperLiveKit等でほぼリアルタイム処理
- ポッドキャスト書き起こし:エピソードをブログ記事化
- 多言語電話対応の支援:通話音声を即座に翻訳して表示
Whisper vs 他の音声認識サービス
| 項目 | Whisper | Google Cloud STT | Azure STT | AmiVoice |
|---|---|---|---|---|
| 提供元 | OpenAI | Microsoft | アドバンスト・メディア | |
| 日本語精度 | ◎ (WER 4.9%) | ◎ | ◎ | ◎ (国産特化) |
| 料金 | 無料(OSS)/$0.006/分 | 従量課金 | 従量課金 | 従量+月額 |
| オープンソース | ○ | × | × | × |
| 多言語 | 99言語 | 125言語超 | 100言語超 | 日本語特化 |
| ローカル実行 | ○ | × | × | ○ (オンプレ版) |
| 適性 | 柔軟性最重視 | GCP統合 | Azure統合 | 日本語業務特化 |
「データ主権・コスト・柔軟性」を重視するならWhisper、「クラウド統合」ならGoogle/Azure、「日本語業務特化」ならAmiVoice等の国産が選ばれます。
Whisper導入で陥る5つの落とし穴
- tinyモデルで本番化:精度不足で議事録が使えない、最低medium以上を選ぶ
- APIファイルサイズ上限25MBを超える:長尺音声は分割処理が必要
- GPU環境を考慮しない:largeはGPU 10GB以上必要、ローカル運用なら必須
- 機密音声をOpenAI APIに送信:データ取扱を契約前に確認
- 後処理(要約・整形)を考えない:生の文字起こしは読みにくい、Claude/ChatGPTで要約必須
renueから見たWhisperの実装現場
私たちrenueは、議事録基盤・通話分析・動画処理の実装現場でWhisperを継続利用してきました。実装現場の知見から見えるポイントは次の3点です。
- 議事録パイプラインはWhisper→Claude/Geminiの2段が標準:文字起こし→要約・論点抽出を組み合わせて初めて実用価値
- 機密会議はlocal large、その他はAPIが現実解:データ主権要件で使い分ける
- 長尺音声処理は分割+並列が必須:Cloud Run Jobs等で並列処理する設計が本番運用の鍵
FAQ
Q1. Whisperは無料で使えますか?
オープンソース版は完全無料です。OpenAI API版は$0.006/分(1時間約54円)の従量課金です。商用利用も自由です。
Q2. 日本語精度はどれくらい正確ですか?
FleursデータセットでWER(単語誤り率)4.9%と高精度です。専門用語・固有名詞・方言では精度が落ちるため、後処理での補正やプロンプト指定が必要なケースもあります。
Q3. ローカルとAPIどちらを選ぶべきですか?
機密性高/大量処理/コスト最重視ならローカル(large推奨)、少量/手軽さ/サーバ管理不要ならAPI版が現実解です。
Q4. リアルタイム文字起こしできますか?
WhisperLiveKitやfaster-whisper等のラッパーでほぼリアルタイム処理が可能です。会議のライブ字幕や通話モニタリングに使えます。
Q5. ファインチューニングは必要ですか?
多くの業務では不要です。汎用Whisper largeで実用十分です。極端な専門用語が頻出する業務では辞書登録やpost-processingで対応するのが先で、ファインチューニングは最後の手段です。
Whisper×議事録基盤の実装相談
renueは、議事録基盤・通話分析・動画処理でWhisperを継続利用してきた実装現場の知見を持っています。「Whisper×Claude/Geminiの2段パイプライン設計」「機密会議のlocal vs API判断」「長尺音声の並列処理」など、Whisper導入の戦略から実装までご相談いただけます。30分でrenueが他社と何が違うかをご説明します。
