Whisperは、OpenAIが公開している文字起こしAIです。オープンソースとして公開されているため、無料で利用することができます。
一方、実際に活用するにはやや手間のかかる設定が必要なため、「Whisperで文字起こしをするメリットを知りたい」「Whisperを使って無料で文字起こしをする方法がわからない」といった方も多いのではないでしょうか。
そこで本記事では、Whisperの特徴やメリット、注意点などを解説します。Whisperを使って無料で文字起こしをする方法も紹介するので、ぜひ参考にしてみてください。
文字起こしAI「Whisper」とは?
Whisper(ウィスパー)は、OpenAIが公開した自動音声認識(ASR)モデルです。68万時間規模の多言語・マルチタスク音声データで学習され、雑音や訛り、専門用語に比較的強いロバスト性を備えています。ここでは、Whisperの仕組みやメリット、注意点などについてチェックしておきましょう。
Whisperの仕組み

Whisperはエンコーダー・デコーダー構成のTransformerを採用したエンドツーエンドASRです。音声を30秒チャンクに分けてログ・メルスペクトログラムへ変換し、エンコーダーに入力します。デコーダーは特殊トークンを使い、言語識別・タイムスタンプ付与・多言語文字起こし・英語翻訳などを単一モデルで指示可能です。
わかりやすく説明すると、エンコーダーは「耳」の役割を持ち、音声を聞き取ることで、音の高さや強さ、リズムなどを数値化して理解します。続いて、「口」の役割を持つデコーダーが、その音の流れから言葉を再構成し、テキストとして書き起こすという仕組みです。
これらの処理はすべて自動で行われ、さらにAIが「どの言語か」や「話している人がいつ発言したか」まで判断できるため、人が手作業で修正する手間を大幅に減らすことができます。
Whisperの5つのモデル

Whisperには軽量から高精度まで段階的なモデルがあり、用途・マシン性能に応じて選べます。代表的な5種類は以下のとおりです。
-
tiny:最小・最速クラス。低資源環境や簡易タスク向け
-
base:軽量と精度のバランス
-
small:中規模で実運用しやすい
-
medium:高精度を狙う際の選択肢
-
large:最も高精度(計算資源は多めに必要)
公式実装では各モデルにマルチリンガル版と英語特化版があります。さらに、近年はこれにAPI専用で高速処理に特化した「turbo」というモデルも追加されました。
Whisperのメリット
Whisperを利用する主なメリットを紹介します。
幅広いファイル形式に対応している

Whisperは、オープンソースのマルチメディアフレームワーク「FFmpeg」を前提としており、mp3・wav・m4a・flac・mp4 など多くの音声・動画形式から文字起こしできます。音声のみ対応の文字起こしツールもあるなか、対応ファイルが多いのはメリットのひとつです。
日本語を含む99言語に対応している

Whisperの学習は多言語で行われており、日本語を含む多数言語の文字起こしや、一部の翻訳をサポートします。多言語大規模学習により、アクセントや雑音へ強いのが特徴です。
文字起こし精度が高い
Whisperは、世界中の多様な音声データをもとに学習しており、雑音がある環境や少し訛りのある話し方でも比較的正確に認識できます。とくに日本語の精度が高く、会議やインタビュー、動画の字幕作成など幅広い用途で利用可能です。
無料で利用できる
Whisperはオープンソースとして公開されているため、誰でも無料で使うことができます。ダウンロードして自分のパソコンで動かす分には費用がかかりません。クラウド経由で利用する場合は別途API利用料がかかることもありますが、基本的な文字起こし機能だけなら無料で試すことができます。
ローカル環境でも文字起こしができる

Whisperは、インターネットに接続しなくても自分のパソコン上で動作します。社内会議やインタビューなど、機密性の高い音声データも外部に送らずに処理できるため、セキュリティ面でも安心して利用しやすいでしょう。
API連携も可能

Whisperは、ほかのシステムやアプリと連携して使うこともできます。たとえば、録音アプリと自動で連携して会議の文字起こしをしたり、議事録作成システムに文字起こし結果を自動転送したりといった活用が可能です。
Whisperを使う際の注意点
Whisperを使う際の主な注意点を2つ紹介します。
利用するには環境構築が必要

Whisperを使うには、まずパソコンにPythonやFFmpegなどのソフトをインストールする必要があります。少し専門的な設定が必要なため、パソコン操作に慣れていない人にはやや難しく感じるかもしれません。ただし、最近ではインストール済みのアプリやWebツールとして提供されているものもあり、そうしたサービスを使えば手軽に試せます。
情報漏えいのリスク対策が必要

Whisper自体は比較的安全なモデルですが、音声データをクラウドや外部サーバーにアップロードして使う場合は注意が必要です。会議やインタビューの内容に機密情報が含まれている場合、外部サービスではなく自分のパソコン内(ローカル環境)で処理する方がよいでしょう。とくに企業で利用する際は、社内のセキュリティポリシーやプライバシー規約を確認しておく必要があります。
Whisperの使い方
Whisperの使い方の解説します。
Hugging Faceを活用してWhisperを使う方法
Hugging Faceを活用してWhisperを使う方法を解説します。まずは、Hugging Faceにアクセスしましょう。
右上の「Sign Up」から無料アカウント登録を行います。
メールアドレスやパスワード、ユーザーネームなどを設定して、アカウントを登録してください。

上記の画面が表示されたら、上の「Spaces」をクリックし、検索バーに「Whisper」と入力しましょう。
検索結果が表示されたら、利用するWhisperをクリックします。

上記の画面が表示されるので、文字起こしをしたい音声ファイルをアップロードしましょう。
アップロード完了後、「Submit」をクリックすると、文字起こしが始まります。結果は画面右側で確認可能です。
今回は以下のような音声のファイルをアップロードしました。
”それでは、当社の概要と業務についてご紹介いたします。今、世界的規模で地球環境の保護、CO2削減などが叫ばれていますが、いずれもまだまだ進んでいないのが現状です。当社では、FA機器の開発、製造を自社独自の合理化技術により省力化、見える化するファインプログラムシステムを開発。見える化することにより材料の無駄をなくし、環境保全に優れた効果を発揮します。”
対してWhisperによる文字起こし結果は以下のとおりです。
”それでは当社の概要と業務についてご紹介いたします今世界的規模で地球環境の保護、CO2削減などが叫ばれていますがいずれもまだまだ進んでいないのが現状です当社ではFA機器の開発、製造を自社独自の合理化技術により省力化・見える化するファインプログラムシステムを開発見える化することにより材料の無駄をなくし環境保全に優れた効果を発揮します”
正確に文字起こしができているものの、句読点がなく、議事録やレポートにするにはやや手直しが必要な状態だといえます。
Google Colaboratoryを活用してWhisperを使う方法
Google Colaboratoryを活用してWhisperを使う方法を紹介します。まずは、Google Colaboratoryにアクセスしましょう。Googleアカウントがあれば、とくに追加の登録なしで利用できます。
上記の画面が開いたら、「+ノートブックを新規作成」をクリックします。
続いて、右上の「接続」から「ランタイムのタイプを変更」の順にクリックしましょう。
「ハードウェア アクセラレータ」を「GPU」に変更し、右下の「保存」をクリックしてください。
次に、Whisperをインストールするために、「!pip install git+https://github.com/openai/whisper.git」のコードを入力・実行します。
続けてコードを追加し、「import whisper」と入力して実行しましょう。

左側のファイルの「content」のなかに「sample_data」というファイルが生成されます。ここに文字起こしをしたいファイルをアップロードしましょう。
さらにコードを追加し、以下のように入力して実行しましょう。
model = whisper.load_model(“base”)
result = model.transcribe(“ファイル名”)
print(result[“text”])
これで、アップロードした音声ファイルのテキスト化は完了です。今回は以下のような音声のファイルをアップロードしました。
”それでは、当社の概要と業務についてご紹介いたします。今、世界的規模で地球環境の保護、CO2削減などが叫ばれていますが、いずれもまだまだ進んでいないのが現状です。当社では、FA機器の開発、製造を自社独自の合理化技術により省力化、見える化するファインプログラムシステムを開発。見える化することにより材料の無駄をなくし、環境保全に優れた効果を発揮します。”
これに対してWhisperの文字起こし結果は以下のとおりです。
”それでは、当社の概要と業務についてご紹介いたします。今、世界的希望で地球環境の保護、Cを通う作言などが避けばれていますが、いずれもまだまだ進んでいないのが現状です。当社では、FA危機の開発、製造を、地社独自の合理化技術により、省力化、見える化するファインプログラムシステムを開発。見える化することにより、材料の無駄を無くし、環境保全に優れた効果を発揮します。”
所々に誤変換や認識誤りが見られ、手直しが必要な状態でした。
Whisper以外におすすめの文字起こしツール
Whisper以外におすすめの文字起こしツールを5つ紹介します。
| サービス名 | Plaud | 文字起こしさん | LINE WORKS AiNote | Googleドキュメント | Notta |
|---|---|---|---|---|---|
| リアルタイム文字起こし | × | × | ◯ | ◯ | ◯ |
| 音声ファイルの文字起こし | ◯ | ◯ | ◯ | × | ◯ |
| 動画ファイルの文字起こし | ◯(音声データに変換後) | ◯ | × | × | ◯ |
| 対応言語 | 112言語 | 約100言語に対応 | 主要言語に対応 | 100言語以上 | 58言語 |
| 専用端末料金 | 27,500円〜 | ー | ー | ー | 23,500円 |
| 専用端末要否 | 必要 | ー | ー | ー | なくても利用可能 |
| AI要約 | ◯ | ◯ | ◯ | × | ◯ |
| タスク抽出 | ◯ | × | × | × | ◯ |
| 話者分離 | ◯ | ◯ | ◯ | × | ◯ |
| エクスポート形式 | 豊富 | テキストファイル形式や動画字幕形式 | 音声ファイル・テキストファイル | Google Docsのみ | 豊富 |
| 無料プラン | ◯ | ◯ | ◯ | ◯ | ◯ |
| 無料プランでの文字起こし時間(月間) | 300分/月 | 10分/日 | 300分/月 | 無制限 | 120分/月 |
| 有料プラン料金 | 16,800円/年 (月あたり1,400円) |
1,100円/月〜 | 17,280円〜 (月あたり1,440円〜) |
ー | 14,220円/年〜 (月あたり1,185円〜) |
Plaud
| プラン | 無料 | Pro | Unlimited |
|---|---|---|---|
| 料金 | 0円 | 16,800円/年 (月あたり1,400円) |
40,000円 (月あたり約3,333円) |
| 文字起こし時間 | 300分/月 | 1,200分/月 | 無制限(100時間/日) |
| カスタム要約テンプレート | ◯ | ◯ | ◯ |
| Ask Plaud | ◯ | ◯ | ◯ |
| マインドマップ | ◯ | ◯ | ◯ |
| 話者識別 | ◯ | ◯ | ◯ |
| Plaud Desktop(オンラインミーティング録音可能) | ◯ | ◯ | ◯ |
| Plaud Web(複数端末同期可能) | ◯ | ◯ | ◯ |
Whisperとは異なり、単なる文字起こしだけでなくAIによる要約機能も活用できます。また、話者識別など議事録作成に欠かせない機能はもちろん、一般的な文字起こしアプリにはない議事録・講義・コンサルティングなど10,000種類以上の要約テンプレートを備えているため、目的に応じた文字起こしを大幅に効率化することが可能です。
Plaud Desktopを使えば、Web会議ツールと連携して会議の音声を録音し、文字起こしや要約などの解析が行えます。Web会議ツールにボットを参加させる手間も発生せず、設定によってはWeb会議の開始と同時に録音を開始することも可能です。Plaudの各AIボイスレコーダーを購入すれば、追加費用なしで利用できます。
さらに、独自のAIアシスタント「Ask Plaud」機能では、簡単な質問を投げかけるだけで、Plaudが持つ膨大な記録のなかから必要な情報を抽出します。議事録を効率的に作成するだけでなく、情報を効果的に活用したいというユーザーに最適なサービスです。
Plaudの料金プランには無料で使えるスタータープランもあり、有料プランと比べると文字起こし時間はやや制限されるものの、便利なAI機能などは利用可能です。Whisper同様に無料で使えるプランでも、AI文字起こしなどが利用できるのは利点のひとつだといえるでしょう。
| 機能 | 特徴 |
|---|---|
| 録音機能 | AI指向性音声収音技術を搭載し、雑音の多い環境でもクリアな音声を収録可能 |
| 文字起こし機能 | 112言語に対応し、録音データを自動でテキスト化して編集可能な文書を生成 |
| オンラインミーティング録音 | Plaud Desktopを利用することで、あらゆるオンライン会議を会議ボットなしで記録 |
| 多次元要約 | 複数の要約テンプレートに対応し、議事録や要点整理を自動作成 |
| タイムライン機能 | 録音内容に自動でタイムスタンプを付与し、簡単に振り返り可能 |
| ファイル共有 | 文字起こし文書や録音データを豊富なファイル形式ですぐに共有可能 |
| Ask Plaud機能 | 会話内容から次のアクションやToDoを自動抽出し、戦略的な意思決定をサポート |
| テンプレートスナップ | 手書きメモや印刷物を撮影するだけで編集可能なテンプレートに変換 |
| AutoFlow | 録音から文字起こし・要約・メール送信までを自動で実行 |
| テンプレート数 10,000以上 | 公式とコミュニティを含め、多彩なフォーマットを提供 |
| セキュリティ | GDPR、EN 18031、SOC 2 Type II、HIPAA、ISO/IEC 27001:2022、ISO/IEC 27701:2019に準拠し、国際水準のデータ保護を実現 |
| クラウド連携 | 録音・文字起こし・要約をクラウドに保存し、デバイス間で共有可能 |
Plaudに関する詳しい情報、お申込みはこちら
製品一覧
文字起こしさん

|
サービス名 |
|
|
リアルタイム文字起こし |
× |
|
音声ファイルの文字起こし |
◯ |
|
動画ファイルの文字起こし |
◯ |
|
対応言語 |
約100言語に対応 |
|
専用端末料金 |
ー |
|
専用端末要否 |
ー |
|
AI要約 |
◯ |
|
タスク抽出 |
× |
|
話者分離 |
◯ |
|
エクスポート形式 |
テキストファイル形式や動画字幕形式 |
|
無料プラン |
◯ |
|
無料プランでの文字起こし時間(月間) |
10分/日 |
|
有料プラン料金 |
1,100円/月〜 |
文字起こしさんは、日本発のブラウザ型AI文字起こしサービスです。Whisperのようなコード入力といった操作は不要で、ログインや登録なしでも無料で文字起こし機能を利用できます。音声・動画・画像・PDFなど幅広い形式のファイルに含まれる情報をテキスト化可能です。
ただし、無料で使う場合は1日3分(登録で1日10分)の音声しか文字起こしできないため、本格的に使う場合は有料プランへの加入が必要です。また、リアルタイム文字起こしはできず、タスク抽出やスケジュール機能がない点にも注意しましょう。
LINE WORKS AiNote

|
サービス名 |
|
|
リアルタイム文字起こし |
◯ |
|
音声ファイルの文字起こし |
◯ |
|
動画ファイルの文字起こし |
× |
|
対応言語 |
主要言語に対応 |
|
専用端末料金 |
ー |
|
専用端末要否 |
ー |
|
AI要約 |
◯ |
|
タスク抽出 |
× |
|
話者分離 |
◯ |
|
エクスポート形式 |
音声ファイル・テキストファイル |
|
無料プラン |
◯ |
|
無料プランでの文字起こし時間(月間) |
300分/月 |
|
有料プラン料金 |
17,280円〜 (月あたり1,440円〜) |
LINE WORKS AiNote(旧CLOVA note)は、議事録作成に特化した文字起こしアプリ・ツールです。Whisperとは異なり、話者分離や単語登録、AI要約などのさまざまな機能を備えています。サポート窓口も用意されているため、ビジネスシーンでも利用しやすいでしょう。
個人向け・法人向けそれぞれにプランが用意されており、個人はフリープラン、法人は有料プランの無料トライアルを選べばコストをかけずに利用できます。ただし、個人のフリープランは文字起こし時間・機能に制限がある点には注意してください。
LINE WORKS AiNoteについては以下の記事でも解説しています。気になる場合は、あわせてチェックしてみてください。
▶︎LINE WORKS AiNote(旧CLOVA note)とは?実際の精度や料金などを解説
Googleドキュメント

|
サービス名 |
|
|
リアルタイム文字起こし |
◯ |
|
音声ファイルの文字起こし |
× |
|
動画ファイルの文字起こし |
× |
|
対応言語 |
100言語以上 |
|
専用端末料金 |
ー |
|
専用端末要否 |
ー |
|
AI要約 |
× |
|
タスク抽出 |
× |
|
話者分離 |
× |
|
エクスポート形式 |
Google Docsのみ |
|
無料プラン |
◯ |
|
無料プランでの文字起こし時間(月間) |
無制限 |
|
有料プラン料金 |
ー |
Googleドキュメントは文字起こしアプリではないものの、音声入力機能を使えば議事録作成に活用できます。マイク経由で入力される音声をリアルタイムに文字起こし可能です。完全無料で利用でき、100言語以上の多言語に対応している点もメリットだといえます。
一方、Whisperのように、音声ファイルや動画ファイルをアップロードしての文字起こしは基本できません。また、高機能な議事録作成アプリとは異なり、AI要約・タスク抽出・話者分離などの機能もなく、効率的な議事録作成を求めるシーンにはやや物足りなく感じるでしょう。
Googleドキュメントを用いた文字起こしについては、以下の記事でも解説しています。できることやできないこと、文字起こしの手順について知りたい場合は、あわせて参考にしてみてください。
▶︎Googleドキュメントで文字起こしする方法とは?実際に精度や使い方を解説
Notta

|
サービス名 |
|
|
リアルタイム文字起こし |
◯ |
|
音声ファイルの文字起こし |
◯ |
|
動画ファイルの文字起こし |
◯ |
|
対応言語 |
58言語 |
|
専用端末料金 |
23,500円 |
|
専用端末要否 |
なくても利用可能 |
|
AI要約 |
◯ |
|
タスク抽出 |
◯ |
|
話者分離 |
◯ |
|
エクスポート形式 |
豊富 |
|
無料プラン |
◯ |
|
無料プランでの文字起こし時間(月間) |
120分/月 |
|
有料プラン料金 |
14,220円/年〜 (月あたり1,185円〜) |
Nottaとは、日本のNotta株式会社が提供するAI議事録作成アプリです。音声を自動で文字化するだけでなく、要約や翻訳など幅広い機能を備えており、議事録作成の効率化が期待できます。Whisperとは異なり、タスク抽出など、高度な機能が利用できるのもポイントです。
有料プランのほかフリープランがあり、無料で一部の機能を利用できます。ただし、ビジネスシーンなどで本格的に使うのであれば、有料プランへの加入が必要です。また、最上位プラン以外はアップロードしたデータがAI学習に利用される可能性がある点には注意しましょう。
Nottaについては以下の記事でも詳しく紹介しています。メリットや注意点、使い方などについて確認したい場合は、ぜひ参考にしてみてください。
▶︎文字起こしツールNottaとは?実際に使ってみて精度や使い方、料金などを解説
Whisperに関するよくある質問
Whisperに関するよくある質問とその回答を紹介します。
Whisperでの文字起こしは有料?無料で使える?

Whisperは、基本的に無料で使えるオープンソースの音声認識モデルです。GitHubで公開されており、自分のPCやGoogle Colaboratoryなどの環境にインストールして使う場合は、費用は一切かかりません。ただし、長時間の音声を処理する場合やGPUを使う場合は、パソコンの性能やクラウド環境のリソースに依存するため、無料範囲を超えると有料になるケースもあります。
一方、Hugging Face SpacesやOpenAIのAPI(Whisper API)を使う場合は、クラウド上でモデルを実行するため、一部は有料になります。特にAPI利用時は、音声データ1分あたりの課金制が採用されています。
なお、無料で使える文字起こしツールについては、以下の記事でも詳しく解説しています。Whisper以外の方法も検討したい場合は、ぜひ参考にしてみてください。
Whisperによる文字起こしの精度は?

Whisperによる文字起こしは高い精度が期待できるといわれていますが、入力する音源の音質などに大きく左右されます。より高精度な文字起こしを行いたい場合は、専用ボイスレコーダーや固有名詞を登録できる機能などを備えたツールを利用したほうがよいでしょう。
同じOpen AIのChatGPTでも文字起こしはできる?

ChatGPTでも音声ファイルをアップロードすればWhisperベースの文字起こしが可能です。Whisperと比べると手軽に利用できるため、メモ用途などであればChatGPTを使うのもよいでしょう。
高精度で手軽に使える文字起こしツールならPlaudがおすすめ

高精度で手軽に使える文字起こしツールを使いたい場合は、PlaudのAIボイスレコーダーがおすすめです。
| 機能 | 特徴 |
|---|---|
| 録音機能 | AI指向性音声収音技術を搭載し、雑音の多い環境でもクリアな音声を収録可能 |
| 文字起こし機能 | 112言語に対応し、録音データを自動でテキスト化して編集可能な文書を生成 |
| オンラインミーティング録音 | Plaud Desktopを利用することで、あらゆるオンライン会議を会議ボットなしで記録 |
| 多次元要約 | 複数の要約テンプレートに対応し、議事録や要点整理を自動作成 |
| タイムライン機能 | 録音内容に自動でタイムスタンプを付与し、簡単に振り返り可能 |
| ファイル共有 | 文字起こし文書や録音データを豊富なファイル形式ですぐに共有可能 |
| Ask Plaud機能 | 会話内容から次のアクションやToDoを自動抽出し、戦略的な意思決定をサポート |
| テンプレートスナップ | 手書きメモや印刷物を撮影するだけで編集可能なテンプレートに変換 |
| AutoFlow | 録音から文字起こし・要約・メール送信までを自動で実行 |
| テンプレート数 10,000以上 | 公式とコミュニティを含め、多彩なフォーマットを提供 |
| セキュリティ | GDPR、EN 18031、SOC 2 Type II、HIPAA、ISO/IEC 27001:2022、ISO/IEC 27701:2019に準拠し、国際水準のデータ保護を実現 |
| クラウド連携 | 録音・文字起こし・要約をクラウドに保存し、デバイス間で共有可能 |
Plaudに関する詳しい情報、お申込みはこちら
