image_bg
最高の成果を、アシスト| Plaud × 長友佑都
image_bg
FC東京チケットが当たる、キャンペーン実施中
image_bg
Plaudシリーズ累計150万台出荷達成!
「Whisper」とは?実際の文字起こし性能や使い方、他サービスとの比較などを紹介

「Whisper」とは?実際の文字起こし性能や使い方、他サービスとの比較などを紹介

Whisperは、OpenAIが提供しているオープンソースの文字起こしAIです。この記事では、Whisperの仕組みやメリット、注意点などを解説。Whisperを使って無料で文字起こしをする方法や、ほかにおすすめのアプリ・ツールも紹介します。

Whisperは、OpenAIが公開している文字起こしAIです。オープンソースとして公開されているため、無料で利用することができます。

一方、実際に活用するにはやや手間のかかる設定が必要なため、「Whisperで文字起こしをするメリットを知りたい」「Whisperを使って無料で文字起こしをする方法がわからない」といった方も多いのではないでしょうか。

そこで本記事では、Whisperの特徴やメリット、注意点などを解説します。Whisperを使って無料で文字起こしをする方法も紹介するので、ぜひ参考にしてみてください。

文字起こしAI「Whisper」とは?

Whisper(ウィスパー)は、OpenAIが公開した自動音声認識(ASR)モデルです。68万時間規模の多言語・マルチタスク音声データで学習され、雑音や訛り、専門用語に比較的強いロバスト性を備えています。ここでは、Whisperの仕組みやメリット、注意点などについてチェックしておきましょう。

Whisperの仕組み

Whisperはエンコーダー・デコーダー構成のTransformerを採用したエンドツーエンドASRです。音声を30秒チャンクに分けてログ・メルスペクトログラムへ変換し、エンコーダーに入力します。デコーダーは特殊トークンを使い、言語識別・タイムスタンプ付与・多言語文字起こし・英語翻訳などを単一モデルで指示可能です。

わかりやすく説明すると、エンコーダーは「耳」の役割を持ち、音声を聞き取ることで、音の高さや強さ、リズムなどを数値化して理解します。続いて、「口」の役割を持つデコーダーが、その音の流れから言葉を再構成し、テキストとして書き起こすという仕組みです。

これらの処理はすべて自動で行われ、さらにAIが「どの言語か」や「話している人がいつ発言したか」まで判断できるため、人が手作業で修正する手間を大幅に減らすことができます

Whisperの5つのモデル

Whisperには軽量から高精度まで段階的なモデルがあり、用途・マシン性能に応じて選べます。代表的な5種類は以下のとおりです。

  • tiny:最小・最速クラス。低資源環境や簡易タスク向け

  • base:軽量と精度のバランス

  • small:中規模で実運用しやすい

  • medium:高精度を狙う際の選択肢

  • large:最も高精度(計算資源は多めに必要)

公式実装では各モデルにマルチリンガル版と英語特化版があります。さらに、近年はこれにAPI専用で高速処理に特化した「turbo」というモデルも追加されました。

Whisperのメリット

Whisperを利用する主なメリットを紹介します。

幅広いファイル形式に対応している

Whisperは、ープンソースのマルチメディアフレームワーク「FFmpeg」を前提としており、mp3・wav・m4a・flac・mp4 など多くの音声・動画形式から文字起こしできます。音声のみ対応の文字起こしツールもあるなか、対応ファイルが多いのはメリットのひとつです。

日本語を含む99言語に対応している

Whisperの学習は多言語で行われており、日本語を含む多数言語の文字起こしや、一部の翻訳をサポートします。多言語大規模学習により、アクセントや雑音へ強いのが特徴です。

文字起こし精度が高い

Whisperは、世界中の多様な音声データをもとに学習しており、雑音がある環境や少し訛りのある話し方でも比較的正確に認識できます。とくに日本語の精度が高く、会議やインタビュー、動画の字幕作成など幅広い用途で利用可能です。

無料で利用できる

Whisperはオープンソースとして公開されているため、誰でも無料で使うことができます。ダウンロードして自分のパソコンで動かす分には費用がかかりません。クラウド経由で利用する場合は別途API利用料がかかることもありますが、基本的な文字起こし機能だけなら無料で試すことができます。

ローカル環境でも文字起こしができる

Whisperは、インターネットに接続しなくても自分のパソコン上で動作します。社内会議やインタビューなど、機密性の高い音声データも外部に送らずに処理できるため、セキュリティ面でも安心して利用しやすいでしょう。

API連携も可能

Whisperは、ほかのシステムやアプリと連携して使うこともできます。たとえば、録音アプリと自動で連携して会議の文字起こしをしたり、議事録作成システムに文字起こし結果を自動転送したりといった活用が可能です。

Whisperを使う際の注意点

Whisperを使う際の主な注意点を2つ紹介します。

利用するには環境構築が必要

Whisperを使うには、まずパソコンにPythonやFFmpegなどのソフトをインストールする必要があります。少し専門的な設定が必要なため、パソコン操作に慣れていない人にはやや難しく感じるかもしれません。ただし、最近ではインストール済みのアプリやWebツールとして提供されているものもあり、そうしたサービスを使えば手軽に試せます。

情報漏えいのリスク対策が必要

Whisper自体は比較的安全なモデルですが、音声データをクラウドや外部サーバーにアップロードして使う場合は注意が必要です。会議やインタビューの内容に機密情報が含まれている場合、外部サービスではなく自分のパソコン内(ローカル環境)で処理する方がよいでしょう。とくに企業で利用する際は、社内のセキュリティポリシーやプライバシー規約を確認しておく必要があります。

Whisperの使い方

Whisperの使い方の解説します。

Hugging Faceを活用してWhisperを使う方法

Hugging Faceを活用してWhisperを使う方法を解説します。まずは、Hugging Faceにアクセスしましょう。

右上の「Sign Up」から無料アカウント登録を行います。

メールアドレスやパスワード、ユーザーネームなどを設定して、アカウントを登録してください。

上記の画面が表示されたら、上の「Spaces」をクリックし、検索バーに「Whisper」と入力しましょう。

検索結果が表示されたら、利用するWhisperをクリックします。

上記の画面が表示されるので、文字起こしをしたい音声ファイルをアップロードしましょう。

アップロード完了後、「Submit」をクリックすると、文字起こしが始まります。結果は画面右側で確認可能です。

今回は以下のような音声のファイルをアップロードしました。

”それでは、当社の概要と業務についてご紹介いたします。今、世界的規模で地球環境の保護、CO2削減などが叫ばれていますが、いずれもまだまだ進んでいないのが現状です。当社では、FA機器の開発、製造を自社独自の合理化技術により省力化、見える化するファインプログラムシステムを開発。見える化することにより材料の無駄をなくし、環境保全に優れた効果を発揮します。”

対してWhisperによる文字起こし結果は以下のとおりです。

”それでは当社の概要と業務についてご紹介いたします今世界的規模で地球環境の保護、CO2削減などが叫ばれていますがいずれもまだまだ進んでいないのが現状です当社ではFA機器の開発、製造を自社独自の合理化技術により省力化・見える化するファインプログラムシステムを開発見える化することにより材料の無駄をなくし環境保全に優れた効果を発揮します”

正確に文字起こしができているものの、句読点がなく、議事録やレポートにするにはやや手直しが必要な状態だといえます。

Google Colaboratoryを活用してWhisperを使う方法

Google Colaboratoryを活用してWhisperを使う方法を紹介します。まずは、Google Colaboratoryにアクセスしましょう。Googleアカウントがあれば、とくに追加の登録なしで利用できます。

上記の画面が開いたら、「+ノートブックを新規作成」をクリックします。

続いて、右上の「接続」から「ランタイムのタイプを変更」の順にクリックしましょう。

「ハードウェア アクセラレータ」を「GPU」に変更し、右下の「保存」をクリックしてください。

次に、Whisperをインストールするために、「!pip install git+https://github.com/openai/whisper.git」のコードを入力・実行します。

続けてコードを追加し、「import whisper」と入力して実行しましょう。

左側のファイルの「content」のなかに「sample_data」というファイルが生成されます。ここに文字起こしをしたいファイルをアップロードしましょう。

さらにコードを追加し、以下のように入力して実行しましょう。

model = whisper.load_model(“base”)

result = model.transcribe(“ファイル名”)

print(result[“text”])

これで、アップロードした音声ファイルのテキスト化は完了です。今回は以下のような音声のファイルをアップロードしました。

”それでは、当社の概要と業務についてご紹介いたします。今、世界的規模で地球環境の保護、CO2削減などが叫ばれていますが、いずれもまだまだ進んでいないのが現状です。当社では、FA機器の開発、製造を自社独自の合理化技術により省力化、見える化するファインプログラムシステムを開発。見える化することにより材料の無駄をなくし、環境保全に優れた効果を発揮します。”

これに対してWhisperの文字起こし結果は以下のとおりです。

”それでは、当社の概要と業務についてご紹介いたします。今、世界的希望で地球環境の保護、Cを通う作言などが避けばれていますが、いずれもまだまだ進んでいないのが現状です。当社では、FA危機の開発、製造を、地社独自の合理化技術により、省力化、見える化するファインプログラムシステムを開発。見える化することにより、材料の無駄を無くし、環境保全に優れた効果を発揮します。”

所々に誤変換や認識誤りが見られ、手直しが必要な状態でした。

Whisper以外におすすめの文字起こしツール

Whisper以外におすすめの文字起こしツールを5つ紹介します。

サービス名 Plaud 文字起こしさん LINE WORKS AiNote Googleドキュメント Notta
リアルタイム文字起こし × ×
音声ファイルの文字起こし ×
動画ファイルの文字起こし ◯(音声データに変換後) × ×
対応言語 112言語 約100言語に対応 主要言語に対応 100言語以上 58言語
専用端末料金 27,500円〜 23,500円
専用端末要否 必要 なくても利用可能
AI要約 ×
タスク抽出 × × ×
話者分離 ×
エクスポート形式 豊富 テキストファイル形式や動画字幕形式 音声ファイル・テキストファイル Google Docsのみ 豊富
無料プラン
無料プランでの文字起こし時間(月間) 300分/月 10分/日 300分/月 無制限 120分/月
有料プラン料金 16,800円/年
(月あたり1,400円)
1,100円/月〜 17,280円〜
(月あたり1,440円〜)
14,220円/年〜
(月あたり1,185円〜)

Plaud

プラン 無料 Pro Unlimited
料金 0円 16,800円/年
(月あたり1,400円)
40,000円
(月あたり約3,333円)
文字起こし時間 300分/月 1,200分/月 無制限(100時間/日)
カスタム要約テンプレート
Ask Plaud
マインドマップ
話者識別
Plaud Desktop(オンラインミーティング録音可能)
Plaud Web(複数端末同期可能)
Plaudは、業界トップクラスのシェア率を誇るAI文字起こし・議事録作成ツール・製品です。

オンライン会議では「Plaud Desktop」、対面の録音では専用ボイスレコーダーのスマホにMagSafeで装着できるカードサイズの「Plaud Note」、身に着けて使えるウェアラブル型の「Plaud NotePin」、そして特に収音性能が秀でた最新フラッグシップモデル「Plaud Note Pro」の3製品を展開しています。
いずれのモデルも、話者識別や自動段落分けといった議事録・レポート作成に欠かせない機能を備え、さらに112か国語の多言語にも対応。

Whisperとは異なり、単なる文字起こしだけでなくAIによる要約機能も活用できます。また、話者識別など議事録作成に欠かせない機能はもちろん、一般的な文字起こしアプリにはない議事録・講義・コンサルティングなど10,000種類以上の要約テンプレートを備えているため、目的に応じた文字起こしを大幅に効率化することが可能です。

Plaud Desktopを使えば、Web会議ツールと連携して会議の音声を録音し、文字起こしや要約などの解析が行えます。Web会議ツールにボットを参加させる手間も発生せず、設定によってはWeb会議の開始と同時に録音を開始することも可能です。Plaudの各AIボイスレコーダーを購入すれば、追加費用なしで利用できます。

さらに、独自のAIアシスタント「Ask Plaud」機能では、簡単な質問を投げかけるだけで、Plaudが持つ膨大な記録のなかから必要な情報を抽出します。議事録を効率的に作成するだけでなく、情報を効果的に活用したいというユーザーに最適なサービスです。

Plaudの料金プランには無料で使えるスタータープランもあり、有料プランと比べると文字起こし時間はやや制限されるものの、便利なAI機能などは利用可能です。Whisper同様に無料で使えるプランでも、AI文字起こしなどが利用できるのは利点のひとつだといえるでしょう。

機能 特徴
録音機能 AI指向性音声収音技術を搭載し、雑音の多い環境でもクリアな音声を収録可能
文字起こし機能 112言語に対応し、録音データを自動でテキスト化して編集可能な文書を生成
オンラインミーティング録音 Plaud Desktopを利用することで、あらゆるオンライン会議を会議ボットなしで記録
多次元要約 複数の要約テンプレートに対応し、議事録や要点整理を自動作成
タイムライン機能 録音内容に自動でタイムスタンプを付与し、簡単に振り返り可能
ファイル共有 文字起こし文書や録音データを豊富なファイル形式ですぐに共有可能
Ask Plaud機能 会話内容から次のアクションやToDoを自動抽出し、戦略的な意思決定をサポート
テンプレートスナップ 手書きメモや印刷物を撮影するだけで編集可能なテンプレートに変換
AutoFlow 録音から文字起こし・要約・メール送信までを自動で実行
テンプレート数 10,000以上 公式とコミュニティを含め、多彩なフォーマットを提供
セキュリティ GDPR、EN 18031、SOC 2 Type II、HIPAA、ISO/IEC 27001:2022、ISO/IEC 27701:2019に準拠し、国際水準のデータ保護を実現
クラウド連携 録音・文字起こし・要約をクラウドに保存し、デバイス間で共有可能

Plaudに関する詳しい情報、お申込みはこちら


製品一覧

Plaud Note Pro
Plaud Note Pro
Plaud Note
Plaud Note
Plaud NotePin
Plaud NotePin

文字起こしさん

サービス名

文字起こしさん

リアルタイム文字起こし

×

音声ファイルの文字起こし

動画ファイルの文字起こし

対応言語

約100言語に対応

専用端末料金

専用端末要否

AI要約

タスク抽出

×

話者分離

エクスポート形式

テキストファイル形式や動画字幕形式

無料プラン

無料プランでの文字起こし時間(月間)

10分/日

有料プラン料金

1,100円/月〜

文字起こしさんは、日本発のブラウザ型AI文字起こしサービスです。Whisperのようなコード入力といった操作は不要で、ログインや登録なしでも無料で文字起こし機能を利用できます。音声・動画・画像・PDFなど幅広い形式のファイルに含まれる情報をテキスト化可能です。

ただし、無料で使う場合は1日3分(登録で1日10分)の音声しか文字起こしできないため、本格的に使う場合は有料プランへの加入が必要です。また、リアルタイム文字起こしはできず、タスク抽出やスケジュール機能がない点にも注意しましょう。

LINE WORKS AiNote

サービス名

LINE WORKS AiNote

リアルタイム文字起こし

音声ファイルの文字起こし

動画ファイルの文字起こし

×

対応言語

主要言語に対応

専用端末料金

専用端末要否

AI要約

タスク抽出

×

話者分離

エクスポート形式

音声ファイル・テキストファイル

無料プラン

無料プランでの文字起こし時間(月間)

300分/月

有料プラン料金

17,280円〜

(月あたり1,440円〜)

LINE WORKS AiNote(旧CLOVA note)は、議事録作成に特化した文字起こしアプリ・ツールです。Whisperとは異なり、話者分離や単語登録、AI要約などのさまざまな機能を備えています。サポート窓口も用意されているため、ビジネスシーンでも利用しやすいでしょう。

個人向け・法人向けそれぞれにプランが用意されており、個人はフリープラン、法人は有料プランの無料トライアルを選べばコストをかけずに利用できます。ただし、個人のフリープランは文字起こし時間・機能に制限がある点には注意してください。

LINE WORKS AiNoteについては以下の記事でも解説しています。気になる場合は、あわせてチェックしてみてください。

▶︎LINE WORKS AiNote(旧CLOVA note)とは?実際の精度や料金などを解説

Googleドキュメント

サービス名

Googleドキュメント

リアルタイム文字起こし

音声ファイルの文字起こし

×

動画ファイルの文字起こし

×

対応言語

100言語以上

専用端末料金

専用端末要否

AI要約

×

タスク抽出

×

話者分離

×

エクスポート形式

Google Docsのみ

無料プラン

無料プランでの文字起こし時間(月間)

無制限

有料プラン料金

Googleドキュメントは文字起こしアプリではないものの、音声入力機能を使えば議事録作成に活用できます。マイク経由で入力される音声をリアルタイムに文字起こし可能です。完全無料で利用でき、100言語以上の多言語に対応している点もメリットだといえます。

一方、Whisperのように、音声ファイルや動画ファイルをアップロードしての文字起こしは基本できません。また、高機能な議事録作成アプリとは異なり、AI要約・タスク抽出・話者分離などの機能もなく、効率的な議事録作成を求めるシーンにはやや物足りなく感じるでしょう。

Googleドキュメントを用いた文字起こしについては、以下の記事でも解説しています。できることやできないこと、文字起こしの手順について知りたい場合は、あわせて参考にしてみてください。

▶︎Googleドキュメントで文字起こしする方法とは?実際に精度や使い方を解説

Notta

サービス名

Notta

リアルタイム文字起こし

音声ファイルの文字起こし

動画ファイルの文字起こし

対応言語

58言語

専用端末料金

23,500円

専用端末要否

なくても利用可能

AI要約

タスク抽出

話者分離

エクスポート形式

豊富

無料プラン

無料プランでの文字起こし時間(月間)

120分/月

有料プラン料金

14,220円/年〜

(月あたり1,185円〜)

Nottaとは、日本のNotta株式会社が提供するAI議事録作成アプリです。音声を自動で文字化するだけでなく、要約や翻訳など幅広い機能を備えており、議事録作成の効率化が期待できます。Whisperとは異なり、タスク抽出など、高度な機能が利用できるのもポイントです。

有料プランのほかフリープランがあり、無料で一部の機能を利用できます。ただし、ビジネスシーンなどで本格的に使うのであれば、有料プランへの加入が必要です。また、最上位プラン以外はアップロードしたデータがAI学習に利用される可能性がある点には注意しましょう。

Nottaについては以下の記事でも詳しく紹介しています。メリットや注意点、使い方などについて確認したい場合は、ぜひ参考にしてみてください。

▶︎文字起こしツールNottaとは?実際に使ってみて精度や使い方、料金などを解説

Whisperに関するよくある質問

Whisperに関するよくある質問とその回答を紹介します。

Whisperでの文字起こしは有料?無料で使える?

Whisperは、基本的に無料で使えるオープンソースの音声認識モデルです。GitHubで公開されており、自分のPCやGoogle Colaboratoryなどの環境にインストールして使う場合は、費用は一切かかりません。ただし、長時間の音声を処理する場合やGPUを使う場合は、パソコンの性能やクラウド環境のリソースに依存するため、無料範囲を超えると有料になるケースもあります。

一方、Hugging Face SpacesやOpenAIのAPI(Whisper API)を使う場合は、クラウド上でモデルを実行するため、一部は有料になります。特にAPI利用時は、音声データ1分あたりの課金制が採用されています。

なお、無料で使える文字起こしツールについては、以下の記事でも詳しく解説しています。Whisper以外の方法も検討したい場合は、ぜひ参考にしてみてください。

Whisperによる文字起こしの精度は?

Whisperによる文字起こしは高い精度が期待できるといわれていますが、入力する音源の音質などに大きく左右されます。より高精度な文字起こしを行いたい場合は、専用ボイスレコーダーや固有名詞を登録できる機能などを備えたツールを利用したほうがよいでしょう。

同じOpen AIのChatGPTでも文字起こしはできる?

ChatGPTでも音声ファイルをアップロードすればWhisperベースの文字起こしが可能です。Whisperと比べると手軽に利用できるため、メモ用途などであればChatGPTを使うのもよいでしょう。

高精度で手軽に使える文字起こしツールならPlaudがおすすめ


高精度で手軽に使える文字起こしツールを使いたい場合は、PlaudのAIボイスレコーダーがおすすめです。

Plaudは、業界トップクラスのシェア率を誇るAI文字起こし・議事録作成ツール・製品です。

オンライン会議では「Plaud Desktop」、対面の録音では専用ボイスレコーダーのスマホにMagSafeで装着できるカードサイズの「Plaud Note」、身に着けて使えるウェアラブル型の「Plaud NotePin」、そして特に収音性能が秀でた最新フラッグシップモデル「Plaud Note Pro」の3製品を展開しています。

いずれのモデルも、話者識別や自動段落分けといった議事録・レポート作成に欠かせない機能を備え、さらに112か国語の多言語にも対応。

料金プランは、無料・Pro・Unlimitedの3種類で、それぞれ月間文字起こし時間の制限や機能が異なります。有料プランのPro・Unlimitedは3日間の無料トライアルが可能です。

話者識別やAI要約といった議事録・レポート作成に欠かせない機能はもちろん、一般的な議事録作成アプリにはない議事録・講義・コンサルティングなど10,000種類以上の要約テンプレートを備えているため、目的に応じた文字起こしを効率的に行えます。無料プランでもこれらの高度な機能を活用できるのがPlaudの大きな魅力です。
機能 特徴
録音機能 AI指向性音声収音技術を搭載し、雑音の多い環境でもクリアな音声を収録可能
文字起こし機能 112言語に対応し、録音データを自動でテキスト化して編集可能な文書を生成
オンラインミーティング録音 Plaud Desktopを利用することで、あらゆるオンライン会議を会議ボットなしで記録
多次元要約 複数の要約テンプレートに対応し、議事録や要点整理を自動作成
タイムライン機能 録音内容に自動でタイムスタンプを付与し、簡単に振り返り可能
ファイル共有 文字起こし文書や録音データを豊富なファイル形式ですぐに共有可能
Ask Plaud機能 会話内容から次のアクションやToDoを自動抽出し、戦略的な意思決定をサポート
テンプレートスナップ 手書きメモや印刷物を撮影するだけで編集可能なテンプレートに変換
AutoFlow 録音から文字起こし・要約・メール送信までを自動で実行
テンプレート数 10,000以上 公式とコミュニティを含め、多彩なフォーマットを提供
セキュリティ GDPR、EN 18031、SOC 2 Type II、HIPAA、ISO/IEC 27001:2022、ISO/IEC 27701:2019に準拠し、国際水準のデータ保護を実現
クラウド連携 録音・文字起こし・要約をクラウドに保存し、デバイス間で共有可能

Plaudに関する詳しい情報、お申込みはこちら


製品一覧

Plaud Note Pro
Plaud Note Pro
Plaud Note
Plaud Note
Plaud NotePin
Plaud NotePin

ニュース

AI議事録取れる君とは?文字起こし方法や評判口コミ、他サービスとの比較などを紹介

AI議事録取れる君とは?文字起こし方法や評判口コミ、他サービスとの比較などを紹介

AI議事録取れる君は、ブラウザ上で利用できる議事録作成支援ツールです。この記事では、AI議事録取れる君とはどんなツールなのか、機能や料金プラン、評判などについて解説。実際の登録・ログイン方法や使い方も紹介します。

詳細を見る
ソースネクストの文字起こしAI「automemo(オートメモ)」とは?特徴や使い方を解説

ソースネクストの文字起こしAI「automemo(オートメモ)」とは?特徴や使い方を解説

automemo(オートメモ)は、ソースネクストが提供する文字起こしAIです。この記事ではautomemo(オートメモ)とはどんなサービスなのか、機能や料金プラン、できることなどを解説。デメリットや使い方なども紹介します。

詳細を見る
Anker Soundcore WorkとPlaudはどっちがおすすめ?実際に購入して文字起こし・要約性能や装着感などを比較レビュー

Anker Soundcore WorkとPlaudはどっちがおすすめ?実際に購入して文字起こし・要約性能や装着感などを比較レビュー

Anker Soundcore WorkとPlaudを徹底比較。実際に録音して文字起こし・要約の精度を検証し、サイズ感や装着感、料金プランまで詳しく解説します。どちらのAIボイスレコーダーを選ぶべきか悩んでいる人に向けて、違いや特徴をわかりやすくまとめました。

詳細を見る
コンテンツにスキップ