音声をテキスト化する「文字起こし」は、会議の議事録作成や講義の記録、インタビューの書き起こしなど様々なシーンで活用されています。
近年では、テレワークやリモート会議の普及により、個人・企業を問わず文字起こしのニーズが高まっています。
あまり知られていませんが、Microsoft Wordには「文字起こし機能」が搭載されています。この機能を使うことで、リアルタイムでの音声入力や、録音した音声ファイルからの文字起こしが簡単にできます。
本記事では、Wordの文字起こし機能の基本的な使い方から、精度を上げるコツ、他の文字起こしツールとの比較まで解説します。
Wordの文字起こし機能とは?
Microsoft Wordに搭載されている「文字起こし機能」は、専用機器や複雑な設定が必要なく、誰でもすぐに使えるのが魅力です。この機能は、会話やスピーチ、会議音声などを文章として記録したいときに非常に役立ちます。
Wordで利用できる文字起こし機能には、「ディクテーション」と「トランスクリプト」の2つがあり、どちらも、Office製品のサブスクリプション「Microsoft 365」の契約者限定の機能となっています。
| 料金 | 機能 | 推奨環境 | 使用制限 | 発話者の識別 | |
| ディクテーション | Microsoft365への加入が必須 | ・リアルタイムで文字起こし | ・Web版Word (Microsoft EdgeまたはGoogle Chrome) デスクトップ版Word |
月5時間、1ファイル最大300分まで | × |
| トランスクリプト | Microsoft365への加入が必須 | ・音声ファイルをアップロードして文字起こし | Web版Word (Microsoft EdgeまたはGoogle Chrome) |
なし | ○ |
また、「ディクテーション」と「トランスクリプト」は、それぞれ利用シーンや注意点が異なります。目的に応じて、どちらの機能を使うか選ぶとよいでしょう。
| 利用シーン | 注意点 | |
| ディクテーション | ・会議や打ち合わせのリアルタイム議事録作成 ・プレゼンや講義の内容を記録 ・話しながらメモやアイデアを書き出したい時 |
・話しながら修正はできないため、後で編集が必要 ・複数人で話すと誰の発言か判別できない ・ノイズが多い環境では認識精度が下がる |
| トランスクリプト | ・インタビューや講演など、録音済みの素材を文字起こししたい時 ・複数人の会話を区別して記録したい時 ・リアルタイム入力ができない場面 |
・アップロード上限は、ファイル1本あたり最大300分(5時間)まで ・1ヶ月あたりの文字起こし時間も最大5時間程度 ・アップロード済みの音声ファイルはOneDriveに自動保存されてしまう |
Wordで文字起こしする方法
Wordの「ディクテーション」と「トランスクリプト」を使って、実際に文字起こしする方法を解説します。
ディクテーション機能の使い方

引用:Microsoft
Wordのディクテーション機能を使って文字起こす方法は、以下の通りです。
- Microsoft EdgeブラウザでWeb版Wordを開く
https://www.office.com にアクセスし、Microsoftアカウントでログイン - 新規または既存のWord文書を開く
- リボンメニューの「ホーム」タブにあるマイク型の「ディクテーション」ボタンをクリック
- ブラウザのマイク使用許可を確認(初回のみ)
- 話し始めると、カーソルのある位置に音声がリアルタイムで文字入力される
- 終了したいときは「停止」をクリック
トランスクリプト機能の使い方

引用:Microsoft
トランスクリプト機能で文字起こしする際は、あらかじめ録音した音声を用意しておきましょう。
- Web版Wordを開く(Microsoft Edge推奨)
Microsoft 365にサインインし、https://www.office.com からWordにアクセス - 新しい文書を開き、「ホーム」タブ → 「ディクテーション」の横の▼をクリック
- 「トランスクリプト」を選択
- 右側のパネルが表示されたら、「音声ファイルのアップロード」を選択
- 音声ファイル(.mp3、.wav、.m4a、.mp4など)をアップロード
- 自動で音声の解析と文字起こしが開始され、話している人ごとにテキストが表示される
- 「すべて挿入」または「選択して挿入」ボタンで、本文に書き出すことが可能
Word文字起こしの精度を上げる3つのコツ
Wordの文字起こし機能は便利で使いやすい反面、環境や話し方によっては誤認識が発生することがあります。ちょっとした工夫で精度を高めることができるため、コツをご紹介します。
静かな環境で録音
音声認識の精度を下げる最大の要因は「雑音」です。エアコンの音、人の話し声、キーボードのタイピング音などの環境音が多いと、音声が正しく認識されず、修正作業に手間がかかります。できるだけ静かな空間で録音するだけでも、認識精度の向上が期待できます。
明瞭な発音を心がける
曖昧な発音や早口は、音声認識の精度低下につながります。「えーと」「あの」といったつなぎ言葉が多いと、精度が下がります。なるべくはっきりとした口調で、文を区切りながら話すことを意識しましょう。特に専門用語や固有名詞は、ゆっくり・正確に発音するだけで認識精度が改善されます。録音前に単語をメモしておくと、意識して発音できるのでオススメです。
専用マイクを活用
内蔵マイクは音質が悪く、ノイズも拾いやすいため、できれば外付けのマイクやICレコーダーを利用しましょう。中でも、ノイズキャンセリング付きマイクや指向性マイクは、録音対象の声をクリアに拾うのに最適です。さらに、録音後にノイズ除去ツールで処理すれば、Wordの認識精度はさらに向上します。最近は、無料で使えるノイズ除去ソフトもあるため、積極的に活用しましょう。
Wordで文字起こしした文書と音声ファイルの共有方法
Wordで文字起こしが完了したら、文字データを共有する方法を知っておくと便利です。文字や音声の共有方法、情報漏えいを防ぐためのセキュリティ対策を解説します。
文字起こしした文書の共有方法
文字起こしした文章は、通常のWordファイル(.docx)として保存できます。用途に応じて、以下の形式で共有するのがオススメです。
- docx形式:あとから編集する必要がある場合に最適
- pdf形式:改変を防ぎたい、相手に読み取り専用で渡す場合に便利
さらに、GoogleドライブやOneDriveなどのクラウドストレージにアップロードすれば、リンクで簡単にファイル共有が可能です。共有時には、以下のような設定を行うと安全です。
- 「閲覧のみ」に設定して編集を制限
- パスワード保護でアクセス制限をかける
-
閲覧期限やダウンロード制限を設定する
また、TeamsやSlackなどのビジネスチャットツールを使えば、気軽に共有することができます。リアルタイムでコメントをもらえるため、グループでの編集やレビューにも適しています。
音声データの共有方法

引用:Microsoft
トランスクリプト機能で文字起こしを行った際、元の音声ファイルは自動的にOneDriveに保存されます。共有方法は以下の通りです。
- OneDriveにログインし、対象の音声ファイルを右クリック
- 「共有」を選択
- URLリンクを生成し、相手に送信
- 「閲覧のみ」「ダウンロード可/不可」などの詳細設定も可能
ファイル形式は .mp3 や .wav などが一般的です。
特にチームで録音内容を確認する必要がある場合、クラウド連携による共有は非常に有効です。Microsoft 365を活用すれば、WordとOneDrive間で連携でき、ファイルの再利用や編集履歴の確認も簡単に行えます。
文字起こししたデータを文書と共有時の注意点・セキュリティ対策
個人情報を含むデータの取り扱いに注意
文字起こししたデータには、氏名・会社名・発言内容など、個人情報や機密情報が含まれる可能性があります。そのため、ファイルを共有する際には、第三者への漏えいリスクを意識し、慎重に取り扱うことが重要です。
安全に共有するためのセキュリティ対策
情報漏えいを防ぐために、以下のようなセキュリティ対策を意識するといいでしょう。
- 共有リンクのアクセス権限を「リンクを知っている全員」ではなく、特定のユーザーに限定する
- 編集が不要な相手には「閲覧のみ」の権限を割り当てる
- ファイルや共有リンクにパスワードを設定し、メールなどで別送する
- 具体的すぎる名称を避け、内容が外部に推測されないようにする
-
ファイルの有効期間を設定することで、不正アクセスを防ぐ
共有時は「誰に・何を・いつまで」を明確に
共有する際には、「誰に、何を、いつまで共有するのか」をあらかじめ明確にしておくことが大切です。チーム内での情報共有であっても、権限や期間をきちんと管理しないと、誤送信や情報漏えいの原因になります。特に、クライアントや外部関係者とのやり取りでは、共有ルールをあらかじめ取り決めておくことをおすすめします。
Word以外でおすすめの文字起こしツール4選
Wordの文字起こし機能は優れていますが、対応できる場面や機能には限りがあります。特に、ビジネスシーンでは、文字起こしのスピードが求められるケースも多くなっています。
- 録音の質
- 要約の自動化
- 話者分離の精度など
より高度な要件を満たすためには専用の文字起こしサービスの導入も検討するといいでしょう。
ここでは、高機能な文字起こしサービスを4つ紹介し、それぞれの特徴や注意点などを解説します。
| 料金 | 特徴 | 注意点 | 精度 | 言語 | 導入のしやすさ | |
| Plaudシリーズ | Plaud Note:27,500円 Plaud NotePin:27,500円 Plaud Note Pro:30,800円 |
・会議、取材、通話、移動中など全シーンに対応 ・話者ごとのセグメント化やノイズ抑制機能が非常に優秀 ・Wordや他アプリとの連携もスムーズ(テキストのエクスポート可能) |
・専用デバイスの購入が必要なため、初期コストがかかる アプ リと機器の接続など、事前の設定が必要 ・シンプルな機能だけで十分な人には、ややオーバースペック |
・話者を正確に認識 ・VCSセンサーで通話音も拾える |
日本語を含む112言語に対応 | デバイス購入とアプリ準備が必要だが、セットアップ後はほぼ自動運用 |
| AIgijiroku | 5,500円/月〜 | ・複数人の会話をリアルタイムに識別・分離できる ・議事録の要約や構成が自動化されており、時間短縮に貢献 ・導入、管理がクラウド完結型で、手間がかからない |
・個人での利用は割高で、料金体系が法人向け(人数単位)になっている ・UIが業務向けに設計されており、操作に慣れるまでやや時間がかかる ・外部の録音データをアップロードして使う用途には向いていない |
話者自動分離あり | 主に日本語対応 | クラウド型で即導入可 |
| Otolio(旧スマート書記) | 3,278円/月〜 | ・カレンダーとの連携による自動化が強み ・会議名や出席者を基に議事録を自動命名・整理 ・UIがシンプルで、初心者でも直感的に操作可能 ・SlackやTeamsとの連携もあり、社内共有がスムーズ |
・録音環境のノイズにやや弱く、雑音が多い場面では誤認識が増える ・会議の途中で発話者が入れ替わるような場面では、話者分離の精度にバラつきがある ・あくまで「会議」の録音に最適化されており、インタビューや講演などには不向き |
誤差あり | 日本語 | クラウド型で即導入可 |
| otter.ai | 8.33ドル/月〜(約1,300円〜)(Freeプランもあり) | ・英語の認識精度が非常に高く、ビジネスシーンで使える ・音声を自動で要約・分類し、検索性が高い ・クラウド上でチーム共有・編集が簡単に行える |
・日本語への対応は不完全で、実用レベルの精度には達していない ・多言語対応と記載はあるが、日本語は誤認識が多く、句読点や文構造が崩れる ・有料プランでなければ録音時間や保存期間に制限あり ・英語が苦手な人には操作が難しい |
英語は高精度 | 多言語対応(日本語は精度に難あり) | 無料プランからすぐ利用可 |
Plaudシリーズ
| プラン | 無料 | Pro | Unlimited |
|---|---|---|---|
| 料金 | 0円 | 16,800円/年 (月あたり1,400円) |
40,000円 (月あたり約3,333円) |
| 文字起こし時間 | 300分/月 | 1,200分/月 | 無制限(100時間/日) |
| カスタム要約テンプレート | ◯ | ◯ | ◯ |
| Ask Plaud | ◯ | ◯ | ◯ |
| マインドマップ | ◯ | ◯ | ◯ |
| 話者識別 | ◯ | ◯ | ◯ |
| Plaud Desktop(オンラインミーティング録音可能) | ◯ | ◯ | ◯ |
| Plaud Web(複数端末同期可能) | ◯ | ◯ | ◯ |
いずれのモデルも、話者識別や自動段落分けといった議事録・レポート作成に欠かせない機能を備え、さらに112か国語の多言語にも対応。さらに、Plaud Noteは、録音から転送、文字起こし、さらには要約までをワンタッチで完結できます。音声を録音すると、Bluetooth経由でスマートフォンに転送され、クラウド上のAIが自動で文字起こし・要約・分類までを実行してくれます。音声認識エンジンにはMicrosoft Azureが使用されており、Microsoft Wordのトランスクリプト機能と同じ技術を基盤としているため、Wordとほぼ同等の認識精度が期待できます。
料金プランは、無料・Pro・Unlimitedの3種類で、それぞれ月間文字起こし時間の制限や機能が異なります。有料プランのPro・Unlimitedは3日間の無料トライアルが可能です。
話者識別やAI要約といった議事録・レポート作成に欠かせない機能はもちろん、一般的な議事録作成アプリにはない議事録・講義・コンサルティングなど10,000種類以上の要約テンプレートを備えているため、目的に応じた文字起こしを効率的に行えます。無料プランでもこれらの高度な機能を活用できるのがPlaudの大きな魅力です。
| 機能 | 特徴 |
|---|---|
| 録音機能 | AI指向性音声収音技術を搭載し、雑音の多い環境でもクリアな音声を収録可能 |
| 文字起こし機能 | 112言語に対応し、録音データを自動でテキスト化して編集可能な文書を生成 |
| オンラインミーティング録音 | Plaud Desktopを利用することで、あらゆるオンライン会議を会議ボットなしで記録 |
| 多次元要約 | 複数の要約テンプレートに対応し、議事録や要点整理を自動作成 |
| タイムライン機能 | 録音内容に自動でタイムスタンプを付与し、簡単に振り返り可能 |
| ファイル共有 | 文字起こし文書や録音データを豊富なファイル形式ですぐに共有可能 |
| Ask Plaud機能 | 会話内容から次のアクションやToDoを自動抽出し、戦略的な意思決定をサポート |
| テンプレートスナップ | 手書きメモや印刷物を撮影するだけで編集可能なテンプレートに変換 |
| AutoFlow | 録音から文字起こし・要約・メール送信までを自動で実行 |
| テンプレート数 10,000以上 | 公式とコミュニティを含め、多彩なフォーマットを提供 |
| セキュリティ | GDPR、EN 18031、SOC 2 Type II、HIPAA、ISO/IEC 27001:2022、ISO/IEC 27701:2019に準拠し、国際水準のデータ保護を実現 |
| クラウド連携 | 録音・文字起こし・要約をクラウドに保存し、デバイス間で共有可能 |
Plaudに関する詳しい情報、お申込みはこちら
製品一覧
AIgijiroku

引用:AI議事録
AI議事録(AIgijiroku)は、会議の音声をリアルタイムで文字起こしし、話者ごとに自動識別しながら議事録を作成してくれる法人向けのサービスです。Zoomなどのオンライン会議ツールとの連携機能が充実しており、テレワークや大規模な打ち合わせで活躍します。
クラウド上で動作するため、インストール不要で導入できるのもポイント。会議終了後には自動で要約された議事録が作成され、チーム全体で情報を即座に共有できます。
AIgijirokuは、「チームでの効率化」を重視する法人向けサービスです。一方で、1人での音声メモや取材録の文字起こしにはオーバースペックな印象もあり、コストパフォーマンスはやや低めとなります。
Otolio(旧スマート書記)

引用:Otolio
Otolio(旧スマート書記)は、会議の音声を自動で録音・文字起こし・要約まで行う、議事録作成に特化したクラウドサービスです。GoogleカレンダーやOutlookカレンダーとの連携機能が搭載されており、事前に登録した会議に自動対応してくれます。
たとえば、10:00〜11:00に「会議」とカレンダー登録しておくと、その時間になると自動で録音が開始され、終了後は要約付きの議事録が自動で生成されます。議事録はクラウド上に蓄積され、いつでも検索・共有が可能です。
Otolioは、「会議の録音と議事録作成を自動化したい」方にオススメです。ただし、使いどころを誤ると精度面で不満が出る可能性もあるため、用途はあくまで会議に限定されます。
otter.ai

引用:otter.ai
otter.ai(オッター・エーアイ)は、アメリカを中心に広く使われている音声文字起こしサービスで、英語の認識精度と機能の豊富さで高い評価を得ています。AIによるリアルタイム文字起こし、会話の要約、スピーカーの自動識別、キーワード抽出など、ビジネス用途にも対応したサービスです。
ZoomやGoogle Meetなどのオンライン会議ツールとの連携機能も充実しており、発話中の内容がリアルタイムで文字化される点は非常に便利です。また、録音した音声を検索したり、要点を自動で抜き出す「スマートサマリー」機能も魅力のひとつです。
otter.aiは、英語圏のビジネスパーソンにとっては非常に優れたツールですが、日本語ユーザーが実務に使うにはハードルがあります。日本語の文字起こしが主目的であれば、Plaud Noteなどの専用サービスの方が確実です。
Wordの文字起こしに関するよくある質問
無料で利用できる?
Wordの文字起こし機能は、「ディクテーション」「トランスクリプト」ともに、Microsoft 365の有料サブスクリプションが必要です。そのため、Wordで音声を文字起こししたい場合は、Microsoft 365サブスクリプションへの加入が必須となります。
英語など外国語に対応してる?
Wordの文字起こし機能は、複数の言語に対応しています。特に「ディクテーション」機能では、英語、スペイン語、フランス語、中国語など、主要な国際言語を選択して、音声入力することが可能です。
ただし、日本語以外の言語を使う場合は、設定メニューから手動で言語を切り替える必要があります。また、話者の発音やアクセントによって認識精度が変わるため、特に英語ではネイティブに近い発音が求められる場面もあります。
また、トランスクリプト機能も一部の言語に対応していますが、日本語以外ではサポートされていない言語もあるため、事前に確認するようにしましょう。
録音時間の上限は?
Wordのトランスクリプト機能には、音声ファイルの長さと月間利用時間に制限があります。
まず、1回にアップロードできる音声ファイルの長さは最大300分(5時間)です。これを超える音声は1ファイルとしては処理できませんので、必要に応じて分割する必要があります。月間あたりの最大利用時間は約5時間(300分×1)に制限されています。この上限に達すると、新たな音声ファイルをアップロードしても自動文字起こしができなくなります。
そのため、頻繁に長時間の音声を文字起こしする方は、別の文字起こしサービスとの併用を検討するのが現実的です。
まとめ|文字起こしツールを使って作業をもっとラクに!
Microsoft Wordに搭載されている文字起こし機能は、手軽に利用でき、無料版でも十分に活用できるツールです。特に、「ディクテーション」や「トランスクリプト」を活用することで、音声のテキスト化作業を効率化し、業務や学習の生産性を高めてくれるでしょう。
ただし、精度の向上には録音環境や話し方の工夫が不可欠です。この記事で紹介した「精度を上げる3つのコツ」や「共有のポイント」も意識すれば、実務でも活用することができます。
一方で、Wordの機能は限られているので、より高機能な文字起こしツールを利用したい人は、全シーン対応型の「Plaud Note」のような専用デバイスの導入がオススメです。
Plaud Noteは、録音から転送、文字起こし、要約、整理までをワンタッチで完結でき、実用性と利便性を兼ね備えています。特に、出先での取材や会議、移動中の記録、資料作成の効率化など、ビジネスや実務の全シーンで活躍します。ぜひ本記事を参考にしながら、自分に合った方法やツールを見つけて、文字起こしをより効率よく活用してみてください。