OpenAI Whisper完全ガイド2026｜99言語音声認識・議事録活用・ローカル/API使い分け

「OpenAI Whisperとは何か」「無料で使えるのか、APIで使うべきか」「日本語精度はどれくらいか」「議事録・会議録音にどう使えるか」――この4つは、2026年現在AI音声認識を業務に組み込もうとするすべての担当者が抱える論点です。Whisperは2022年にOpenAIがオープンソースとして公開した音声認識モデルで、99言語対応・日本語WER 4.9%という高精度・無料/有料の柔軟な利用形態で、AI時代の音声認識の事実上の標準になっています。本記事では、Whisperの基本・モデルサイズ・無料/API使い分け・議事録活用・他サービス比較・renueの実装現場視点を整理します。

OpenAI Whisperとは――2026年版の定義

WhisperはOpenAIが開発した汎用音声認識モデルです。68万時間の多言語・多タスク音声データで学習されており、99言語の音声認識・翻訳・タイムスタンプ付与を1つのモデルで実現します。MITライセンスで完全オープンソース公開されており、商用利用・自社サーバーでの運用も自由です。

2026年時点の主要特徴：

99言語対応：日本語・英語・中国語等の主要言語で実用精度
日本語精度が高い：FleursデータセットでWER 4.9%
オープンソース：MITライセンス、完全無料で商用利用可
5サイズ展開：tiny/base/small/medium/large から用途別に選択
API版もあり：自前GPU不要、$0.006/分の従量課金
翻訳機能内蔵：他言語→英語の翻訳も同時実行可能
SRT/VTT出力：字幕ファイル形式で直接出力

Whisperのモデルサイズ比較

モデル	パラメータ	必要メモリ	速度	精度	用途
tiny	39M	1GB	非常に高速	低	下書き・速度重視
base	74M	1GB	高速	低〜中	軽量実装
small	244M	2GB	中速	中	個人・PoC
medium	769M	5GB	低速	中〜高	業務利用
large（v3）	1550M	10GB	遅い	最高	本番運用

業務利用ではmedium/largeが標準。GPUがあればローカル実行、なければAPI版（large相当の精度）が現実的です。

2つの利用方法――ローカル vs API

ローカル（オープンソース版）

メリット：完全無料、機密データを外部に出さない、無制限
デメリット：GPU環境が必要、運用工数
適性：機密性が高い業務、大量処理、コスト最重視

OpenAI API版

メリット：自前環境不要、$0.006/分（1時間≒54円）、簡単
デメリット：データがOpenAIサーバーに送信される、ファイルサイズ上限25MB
適性：少量〜中量、機密性を要しない業務、素早い導入

Whisperで何ができるか――実用パターン10選

会議議事録の自動文字起こし：Zoom録画→Whisper→Claude要約の一気通貫
インタビュー記事化：取材音声からテキスト化→構成→記事
講演・セミナーの記録：講演音声を全文書き起こし
動画字幕生成：SRT形式で直接出力可能
多言語動画への翻訳字幕：英語動画→日本語字幕
カスタマーサポート通話分析：通話音声からテキスト化→品質分析
音声メモのデジタル化：移動中の口頭メモを自動テキスト化
議事録のリアルタイム生成：WhisperLiveKit等でほぼリアルタイム処理
ポッドキャスト書き起こし：エピソードをブログ記事化
多言語電話対応の支援：通話音声を即座に翻訳して表示

Whisper vs 他の音声認識サービス

項目	Whisper	Google Cloud STT	Azure STT	AmiVoice
提供元	OpenAI	Google	Microsoft	アドバンスト・メディア
日本語精度	◎ (WER 4.9%)	◎	◎	◎ (国産特化)
料金	無料(OSS)/$0.006/分	従量課金	従量課金	従量+月額
オープンソース	○	×	×	×
多言語	99言語	125言語超	100言語超	日本語特化
ローカル実行	○	×	×	○ (オンプレ版)
適性	柔軟性最重視	GCP統合	Azure統合	日本語業務特化

「データ主権・コスト・柔軟性」を重視するならWhisper、「クラウド統合」ならGoogle/Azure、「日本語業務特化」ならAmiVoice等の国産が選ばれます。

Whisper導入で陥る5つの落とし穴

tinyモデルで本番化：精度不足で議事録が使えない、最低medium以上を選ぶ
APIファイルサイズ上限25MBを超える：長尺音声は分割処理が必要
GPU環境を考慮しない：largeはGPU 10GB以上必要、ローカル運用なら必須
機密音声をOpenAI APIに送信：データ取扱を契約前に確認
後処理（要約・整形）を考えない：生の文字起こしは読みにくい、Claude/ChatGPTで要約必須

renueから見たWhisperの実装現場

私たちrenueは、議事録基盤・通話分析・動画処理の実装現場でWhisperを継続利用してきました。実装現場の知見から見えるポイントは次の3点です。

議事録パイプラインはWhisper→Claude/Geminiの2段が標準：文字起こし→要約・論点抽出を組み合わせて初めて実用価値
機密会議はlocal large、その他はAPIが現実解：データ主権要件で使い分ける
長尺音声処理は分割+並列が必須：Cloud Run Jobs等で並列処理する設計が本番運用の鍵

FAQ

Q1. Whisperは無料で使えますか？

オープンソース版は完全無料です。OpenAI API版は$0.006/分（1時間約54円）の従量課金です。商用利用も自由です。

Q2. 日本語精度はどれくらい正確ですか？

FleursデータセットでWER（単語誤り率）4.9%と高精度です。専門用語・固有名詞・方言では精度が落ちるため、後処理での補正やプロンプト指定が必要なケースもあります。

Q3. ローカルとAPIどちらを選ぶべきですか？

機密性高/大量処理/コスト最重視ならローカル（large推奨）、少量/手軽さ/サーバ管理不要ならAPI版が現実解です。

Q4. リアルタイム文字起こしできますか？

WhisperLiveKitやfaster-whisper等のラッパーでほぼリアルタイム処理が可能です。会議のライブ字幕や通話モニタリングに使えます。

Q5. ファインチューニングは必要ですか？

多くの業務では不要です。汎用Whisper largeで実用十分です。極端な専門用語が頻出する業務では辞書登録やpost-processingで対応するのが先で、ファインチューニングは最後の手段です。

Whisper×議事録基盤の実装相談

renueは、議事録基盤・通話分析・動画処理でWhisperを継続利用してきた実装現場の知見を持っています。「Whisper×Claude/Geminiの2段パイプライン設計」「機密会議のlocal vs API判断」「長尺音声の並列処理」など、Whisper導入の戦略から実装までご相談いただけます。30分でrenueが他社と何が違うかをご説明します。

Whisper×議事録基盤の相談