音声文字起こし・AI要約完全ガイド — 議事録・講義・取材を一気通貫

公開: 2026-04-29

会議が終わった瞬間、議事録を白紙のドキュメントから書き始める。1 時間の取材音声を再生しながら、ポーズボタンと再生ボタンを交互に押して書き起こす。配信動画の字幕を、頭から手打ちで起こしていく――こうした「音声を文字にしてまとめる」作業は、地味なのに時間を吸い取る代表格です。実はこの作業、いまやブラウザだけで、無料で、登録もアプリインストールも不要で、文字起こしから要約まで一気通貫で済ませられるようになっています。鍵は 2 つの API の組み合わせ：1996 年に W3C で議論が始まったWeb Speech APIと、Chrome 138 から本格搭載されたSummarizer API（Gemini Nano）です。本記事では、これらをどう日常業務に組み込めば「議事録 30 分」が「議事録 5 分」になるのか、どこに気をつければプライバシーや精度の罠を踏まないか、他の有償サービスとどう使い分けるべきかを、ベンリーの音声文字起こし・AI要約ツールの使用例と一緒に整理します。

「ブラウザだけで音声認識」が現実になるまで

音声認識をブラウザで動かす標準仕様は、Google が 2012 年に Chrome へ実験実装した webkitSpeechRecognition がきっかけで一気に実用化が進みました。当初は「英語しか実用に耐えない」「ノイズに弱い」「クラウド送信が前提」と批判されていましたが、2010 年代後半に Google・Apple のクラウド音声認識精度が劇的に向上し、日本語の認識率も「実用で困らない」レベルに到達。一方で要約は長らく外部 API（OpenAI など）が主流でしたが、2024 年に Google が Chrome に搭載した オンデバイス AI モデル「Gemini Nano」と、それを呼び出すための Summarizer API によって、「ブラウザを開けば認識から要約までブラウザの中で完結する」という世界がついに現実になりました。本記事はその新しい世界線を前提にしています。

なぜ今「ブラウザだけで文字起こし＋AI要約」なのか

音声を文字にしてまとめる作業は、長い間「特別なツール」または「人手」で行うものでした。プロの起こし屋さんに発注すれば 30 分で数千円、自分でやれば 1 時間音声に対して 3〜4 時間。Google ドキュメントの音声入力や、Notta・Rimo Voice のような専用クラウドサービスが普及してからは状況が改善しましたが、それでもアカウント登録・無料枠の上限・チームで使うときの権限管理など、地味に立ちはだかる障害がありました。

2025 年〜2026 年にかけて状況を一変させたのが、「オンデバイス AI」と「ブラウザ標準 API」の合流です。Chrome に搭載された Gemini Nano は、約 1〜3GB のモデルがインストール時にダウンロードされ、以降はネットワーク接続なしでも要約・翻訳・分類が動きます。同じく Edge にも独自のオンデバイスモデルが組み込まれつつあり、「ブラウザを開けば AI が中にいる」状態が現実になりました。さらに音声認識の Web Speech API は、Chrome / Edge / Safari で広く利用可能。この 2 つを組み合わせるだけで、「録音→文字起こし→要約」の連続パイプラインがブラウザの中だけで完結します。

これが意味するのは、単に「無料で使える」ということだけではありません。テキストデータが外部 API に送信されないこと、アカウント登録の手間がないこと、使用回数や文字数の制限が事実上なくなること、そしてAPI 料金が発生しないこと。法人利用での社内データの取り扱い基準にも適合しやすく、副業ライターやポッドキャスターのような個人クリエイターにとっては「コストゼロで定常運用できる文字起こしパイプライン」を意味します。

仕組み — Web Speech API と Summarizer API

裏側で動いている技術を理解しておくと、後のトラブルシュートや精度向上のコツが格段に頭に入りやすくなります。本ツールは大きく 2 つの API を組み合わせています。

Web Speech API（音声認識）

Web Speech API のうち、本ツールで使うのは SpeechRecognition インターフェースです。Chrome では歴史的経緯で webkitSpeechRecognition という名前で提供されています。マイクから取り込んだ音声は、ブラウザがフレーム単位で音声認識サーバー（Chrome の場合は Google のクラウド認識サーバー）に送信し、テキストの認識結果がストリーミングで返ってきます。コードのコアは次のように単純です。

const SR = window.SpeechRecognition || window.webkitSpeechRecognition;
const rec = new SR();
rec.lang = 'ja-JP';        // 認識言語
rec.continuous = true;     // 連続認識（明示停止まで継続）
rec.interimResults = true; // 認識中の暫定結果も返す

rec.onresult = (e) => {
  for (let i = e.resultIndex; i < e.results.length; i++) {
    const r = e.results[i];
    if (r.isFinal) {
      console.log('確定:', r[0].transcript);
    } else {
      console.log('暫定:', r[0].transcript);
    }
  }
};

rec.start();

ここで重要なのが interimResults = true の設定です。これを有効にすると、まだ確定していない「暫定結果」が isFinal = false で次々と返ってくるので、UI 上で「リアルタイムに文字が流れる」演出ができます。確定結果は isFinal = true で返ってくるので、それだけをテキストエリアに追記すれば、最終的に整理されたテキストになります。本ツールでも、暫定結果は薄いグレーで別エリアに表示し、確定するごとに本文へ追記する設計にしています。

もう一つの注意点が 無音 60 秒問題です。Chrome の Web Speech API は、無音状態が約 60 秒続くと自動的に onend を発火して停止します。これは「ユーザーが話し終わったから終わり」と判断する仕様で、長時間の会議では明らかに困ります。本ツールでは onend イベントを検知して「ユーザーが停止ボタンを押していなければ自動で start() を再実行する」というループ構造で対処しています。

Summarizer API（オンデバイス AI 要約）

Chrome 138 から正式に利用可能になった Summarizer API は、ブラウザ内蔵の Gemini Nano モデルを呼び出して要約を行う API です。インターフェースは次のように極めてシンプルです。

// 利用可否を確認
const availability = await Summarizer.availability();
if (availability !== 'available' && availability !== 'downloadable') {
  // フォールバックへ
}

// 要約器を作成（type / format / length が指定可能）
const summarizer = await Summarizer.create({
  type: 'tldr',         // 'tldr' | 'key-points' | 'teaser' | 'headline'
  format: 'plain-text', // 'plain-text' | 'markdown'
  length: 'medium'      // 'short' | 'medium' | 'long'
});

const summary = await summarizer.summarize(longText);

type の選択肢は要約のスタイル指定で、tldr は短い「結論先出し」型の要約、key-points は箇条書きの要点抽出、teaser は記事冒頭のリード文向け、headline は見出し的に短くまとめる、という用途別になっています。会議議事録には key-points、Podcast 概要欄には tldr、記事リード文には teaser が向いています。

Gemini Nano は端末で動くため、入力テキストは外部に送信されません。ただし初回利用時にモデルファイル（約 1.5〜3 GB）のダウンロードが必要です。availability() が downloadable を返した場合、ダウンロードが必要な状態を示します。本ツールではこの状態のとき、ユーザーに 「AIモデル（Gemini Nano、約 1.5〜3 GB）のダウンロードが必要です。続けますか？」という確認ダイアログを表示し、同意した場合のみダウンロードと要約を進めます。ダウンロード中は要約ブロックに「Gemini Nano（約1.5〜3GB）をダウンロード中… XX%」と進捗が表示されます。キャンセルした場合は、その場で重要文抽出のフォールバックに切り替わります。一度ダウンロードが完了すれば、次回以降は確認ダイアログなしで即時に要約が走ります。

モデルが入っているか確認する 3 つの方法

「自分のブラウザに Gemini Nano が入っているのか？」を Chrome 側から直接確認できる管理画面が用意されています。次のアドレスを Chrome のアドレスバーにコピー＆ペーストして開いてください（このページからのリンククリックではブラウザの仕様上開けません）。

chrome://components/ — モデルのバージョン管理画面。「Optimization Guide On Device Model」の項目を探し、バージョン番号が 0.0.0.0 や空欄でなければ取得済み。「アップデートを確認」で最新版に更新できる。
chrome://on-device-internals/ — オンデバイス AI のデバッグ画面。モデルの詳細状態・パフォーマンス・クラッシュ履歴が見られる。リセットボタンも用意されている。
chrome://flags — 「Optimization Guide On Device Model」フラグの有効/無効を切り替え。「Enabled BypassPerfRequirement」にすると、ハードウェア要件を満たさない端末でもモデルを試せる（自己責任）。

Chrome 内蔵 AI の仕組みや Summarizer API の詳細仕様については、Google が公開している Chrome Built-in AI 公式ドキュメントと Summarizer API のリファレンスが参考になります。

フォールバック：重要文抽出（TextRank ライト）

Safari や AI 非対応端末でも要約機能を提供するために、本ツールでは純 JavaScript で動く抽出型要約（extractive summarization）をフォールバックとして用意しています。仕組みは次のとおりです。

テキストを文（句点・改行・! / ?）で分割する。
各文を「単語＋日本語 2-gram」でトークン化し、ストップワード（の・に・はや the / a / is など）を除外する。
全体での語の頻度（TF：term frequency）を計算する。
各文のスコアを「文中の語の TF 平均」として算出し、文長によるペナルティを掛ける。
スコア上位 N 文を抜き出し、元の登場順に並び替える。

TF-IDF の IDF を省略した簡易版なので「自然な日本語に編集された要約文」は作れませんが、「元のテキストから重要そうな文を選び出して並べる」という意味では十分機能します。LLM が使えない環境でも「これだけ読めば全体像がつかめる」レベルのまとめが返ってくるので、フォールバックとしてはちょうどよいバランスです。

議事録ワークフロー — 30分→5分にする手順

議事録作成は、文字起こし＋AI 要約パイプラインがもっとも威力を発揮するシーンです。従来「会議終了後に頭から議事録を書く」では会議時間と同じくらいの時間がかかっていましたが、ベンリーの音声文字起こし・AI要約ツールを使うと、所要時間を文字どおり 1/5〜1/10 に圧縮できます。実運用で効くワークフローを順を追って紹介します。

事前準備（30 秒）

会議室の PC、または自分の PC で /tools/voice-transcription/ を開く。
言語が「日本語」になっていることを確認。
ブラウザのマイク権限を許可（初回のみ）。

会議中（録音→文字起こし）

会議開始と同時に「録音を開始」ボタンを押す。
会議中は基本的に放置で OK。テキストエリアに認識結果が流れていきます。
重要な発言・決定の際に、軽くキーワードを口頭で挟むと後の要約の質が上がります（例：「〜ということで決定」「ここはアクションアイテム」）。
会議終了後、もう一度ボタンを押して停止。

後処理（3〜5 分で完了）

テキストエリアでざっと誤認識をスキャン。社名・人名・専門用語の誤りだけ修正。一字一句直す必要はありません（要約の精度に大きく影響しないため）。
「要約する」ボタンを押す。AI 要約が利用できる環境では数秒で要点が生成されます。
要約結果をコピーして議事録テンプレに貼り付け。決定事項・課題・次回までの宿題を分類。
必要なら、文字起こしの本文も「ダウンロード」で .txt 保存しておくと、後で誰かに「この発言の文脈を確認したい」と言われたときに即対応できます。

議事録テンプレートの推奨フォーマット

AI 要約の結果を貼り付けやすいテンプレを最初に作っておくと運用がラクになります。## 議題 / ## 決定事項 / ## アクションアイテム（担当・期日付き）/ ## 次回 の 4 ブロックを定型にして、AI 要約の出力をそれぞれの欄に振り分けるだけで議事録が完成します。アクションアイテムだけは AI が漏らしやすいので、必ず人間の目でチェックしてください。

取材・インタビューの一次原稿を作る

ライター・編集者の作業の中でも、もっとも時間がかかるのが取材音声の文字起こしです。1 時間のインタビュー音声を頭から手で起こすと、慣れた人でも 3〜4 時間。慣れていないと半日仕事になります。ここで本ツールを「一次原稿の自動生成器」として使うと、最初の素材作りが劇的に早くなります。

具体的な手順は次のとおりです。1) 録音済みの取材音声をスマホやレコーダーで再生し、PC のマイクで拾わせて文字起こし（または PC 側のステレオミックス機能で直接取り込み）。2) 文字起こし完了後、明らかな誤認識の固有名詞だけを直す。3) 「要約する」ボタンで全体の論点をざっと把握。4) その要約をもとに「記事の見出し候補」「リード文の方向性」「使えそうな引用」を組み立てる。5) 必要な箇所だけ手作業で本文を整文する。

このフローで重要なのは、「取材音声の全文を完璧に書き起こさない」という割り切りです。記事に使うのは取材内容の 20〜30% で、残りは雑談や脱線、編集で削る部分。完璧な書き起こしを目指すと割に合わないので、「AI 要約で全体像を掴む→使う部分だけ精査する」という二段構えにすると、ライティングの時間が劇的に減ります。

講義・セミナー・ウェビナーの活用

大学の講義・社内研修・録画ウェビナーなど、「話を聞きながらノートを取る」シーンにも本ツールは効きます。ノートに書く労力を文字起こしに任せて、自分は聞くこと・考えることに集中できる、というのが最大のメリットです。

運用のコツは次のとおりです。

講義中は文字起こしをバックグラウンドで走らせ、印象に残った部分だけ自分のメモに書く。後で文字起こし側を見直すことで、自分が聞き逃した箇所を補える。
講義終了後すぐに AI 要約を回す。記憶が新しいうちに要約を眺めると、「自分の理解と一致しているか」のセルフチェックになる。
図やグラフは AI 要約に含まれないので、別途スマホで写真を撮るかスクリーンショットを取って、テキスト要約と紐づけて保存する。
専門用語は誤認識されるので、講義の後にテキスト検索で typo っぽい箇所をチェック・修正してから要約に回すと精度が上がる。

オンライン講義の場合、「PC のスピーカーから流れる講師の声を、PC のマイクで拾う」という方法でも一応は動きますが、ステレオミックスやループバック機能を使うと音質が劇的に良くなります。Mac なら BlackHole、Windows なら VB-CABLE のような仮想オーディオデバイスを使うと、PC 内部の音声を直接ブラウザのマイク入力にルーティングできます。

Podcast・Voicy・YouTube の概要欄を量産する

音声・動画コンテンツ配信者にとって、毎回の配信ごとに「概要欄」「ショートノート」「タイトル候補」を考えるのは地味に時間泥棒です。1 エピソードあたり 30 分〜 1 時間使ってしまうクリエイターも珍しくありません。ここでも本ツールを使うと、収録音声を流してテキスト化→AI 要約→そのままタイトル候補と概要欄の下書き、という流れで時間を圧縮できます。

典型的な流れは次のとおりです。1) 配信音源（収録済み MP3）を PC で再生して文字起こし。2) 「要約する」で全体の TL;DR を生成。3) 要約結果をベースに 100〜200 文字の概要欄を整える。4) タイトル候補は要約のキーフレーズから 3〜5 案作成し、もっとも開封されそうなものを選ぶ。

YouTube の場合は字幕の下書きとしても活躍します。YouTube 側にも自動字幕機能はありますが、句読点が入らない・段落分けがない・話者表記がない、といった課題があります。本ツールで一度文字起こししてから手動で句読点・改行を入れて SRT ファイルに変換する流れの方が、結果的にきれいな字幕に仕上がるケースが多いです。

関連して、字幕や概要欄の文字数調整には文字数カウントツール、英語字幕のワード数チェックには英語単語の文字数カウントを併用すると、SNS の文字数制限や YouTube 説明欄の表示崩れに引っかかりません。

認識精度を上げる 7 つのコツ

Web Speech API の認識精度は、入力する音声の品質と環境にダイレクトに影響されます。経験的に効果が大きい 7 つのコツをまとめます。

静かな部屋で使う：エアコンのファン音・冷蔵庫の動作音・キーボードのタイピング音は、それぞれ単独では気にならなくても認識器の足を引っ張ります。可能なら静音モードに切り替えて。
マイクとの距離を 30cm 以内に：声の S/N 比はマイクからの距離の 2 乗に反比例します。1m 離れると劇的に精度が落ちます。会議室で広く拾いたい場合は会議用マイクを中央に置く。
USB マイクまたはヘッドセット型を使う：ノート PC 内蔵マイクは「最低限会話できる」レベルで、認識用には不向き。3,000〜5,000 円の USB マイク（Yeti Nano、Blue Snowball など）でも体感で精度が 1.5〜2 倍に上がります。
はっきり、ゆっくり目に話す：とくに早口の人は意識的に 1.2 倍ゆっくり話すと認識率が大きく改善します。語尾を飲み込まない、文末をしっかり閉じるのも効きます。
複数人会議は発言者の前にマイクを集中させる：会議室で全員の声を拾うのは難しいので、現実的には司会者やよく発言する人の近くにマイクを置き、他の参加者の発言は司会が要約して言い直す、という運用が安定します。
専門用語の事前リスト化：「うちの業界・社内固有名詞」は誤認識されやすいので、出やすい語をテキストファイルにまとめておき、文字起こし後にテキスト検索＋一括置換で直すフローを作っておく。
長時間は 15〜20 分ごとに区切って保存：Web Speech API は理論的には何時間でも動きますが、ブラウザのメモリやマイク権限のリセットなど稀にトラブルが起きます。重要な会議は 15〜20 分ごとに「ダウンロード」して別ファイルに退避させる癖をつけると安心。

AI要約のクオリティを上げるコツ

AI 要約の質は、入力テキストの「整い具合」と「分量バランス」で大きく変わります。Gemini Nano のようなオンデバイス AI は、クラウドの最新巨大モデル（GPT-4 系、Claude 系）に比べると性能で見劣りする場面もありますが、プロンプト的工夫で十分実用レベルに引き上げられます。

1. 入力テキストを軽く整えてから要約する

誤認識まみれの文字起こしをそのまま要約に投げると、AI が誤った文脈を拾って妙な要約を返すことがあります。固有名詞・キーワードだけは事前に修正する習慣をつけると、要約のキャラ立ちが良くなります。一字一句直す必要はなく、「人名・社名・製品名・数字」だけで十分です。

2. 要約タイプを使い分ける

本ツールは type: 'tldr' をデフォルトにしていますが、Summarizer API は他にも 'key-points'（箇条書き）、'teaser'（リード文）、'headline'（見出し）といったタイプに対応しています。議事録なら key-points、ブログのリード文なら teaser、SNS シェア用の見出しなら headline が向いています（将来的にはツール側で選択できるようにする予定です）。

3. 入力が短すぎる/長すぎる場合は要注意

入力が 100 字未満では「要約のしようがない」ので、AI 出力が冗長になりがちです。逆に長すぎる入力（数万字）は AI のコンテキスト窓を超えると性能が落ちます。実用的には500〜10,000 字のレンジが要約の質が安定します。長い議事録は章ごとに分割して要約し、最後に要約結果をさらに要約する「マルチパス要約」が有効です。

4. 重要キーワードを文中に明示しておく

「決定事項です」「これは課題」「ネクストアクション」など、要約してほしい構造を口頭で明示しておくと、AI 要約が拾ってくれやすくなります。これはプロンプトエンジニアリングを「会議の発話レベル」で実践している、と捉えると分かりやすいでしょう。

5. 要約結果をそのまま信用しない

とくにオンデバイス AI は「ハルシネーション（事実と異なる内容の生成）」が起きることがあります。要約は必ず元のテキストとつき合わせ、「言っていないことを言ったことにしている」「数字を勝手に丸めた」「逆の意味に変換した」などの誤りを人間がチェックしてください。要約はあくまで議事録のたたき台であって、完成品ではありません。

プライバシー設計 — 何が、どこに送られているのか

「ブラウザだけで完結」と言っても、実際には複数のレイヤーでデータがやり取りされています。誤解を避けるため、本ツールでデータがどこに流れているのかを明確にします。

データ種別	送信先	備考
マイクの音声データ	ブラウザの音声認識エンジン（Chrome の場合は Google のクラウド）	Web Speech API の仕様上、ブラウザがクラウドに送信。ベンリーは関与しない。
音声認識結果のテキスト	お使いのブラウザ内のみ	テキスト形式で返ってきた認識結果は、ブラウザのテキストエリアに表示されるだけ。
要約対象のテキスト	ブラウザ内（オンデバイス AI 利用時）／処理せず（フォールバック時）	Gemini Nano は端末内で動作するため、テキストはブラウザの外に出ない。
LocalStorage への自動保存	お使いの端末のブラウザストレージのみ	ベンリーのサーバーには送信されない。同じ端末・同じブラウザで開き直したときの復元用。
ベンリーのサーバーへの送信	なし	文字起こし結果も要約も、当サイトに送信・保存されることはない。

整理すると、「マイクの音声データだけは Google などの外部認識エンジンに送られる」のが唯一外部送信が発生するポイントです。それ以外（認識結果のテキスト・要約・自動保存）はすべてお使いのブラウザの中だけで完結します。社外秘の議論や個人情報を含む内容については、音声認識自体もオフラインで処理する有償サービス（Apple のオンデバイス文字起こし、Whisper のローカル実行など）の利用を推奨します。

会議の録音・文字起こしには参加者の同意を

業務上の会議や顧客との打ち合わせを録音・文字起こしする場合は、参加者全員にその旨を事前に伝えて同意を得てください。法的にも、内部規定上も「録音している事実を伏せたまま記録する」ことはトラブルの原因になります。冒頭に「議事録作成のため文字起こしツールを使用します」と一言伝えるだけで、後々のリスクが激減します。

他の文字起こしサービスとの使い分け

専用クラウド型の文字起こしサービス（Notta・Rimo Voice・Otter.ai・CLOVA Note など）と比べた場合の違いを、機能軸で整理します。

軸	ベンリー（本ツール）	専用クラウド（Notta・Rimo・Otter 等）
料金	完全無料・無制限	無料枠あり（時間・回数制限）／有料プランは月数百〜数千円
登録	不要	アカウント登録必須
話者の自動分離	非対応（手動で「Aさん：」を入れる）	対応（精度は様々）
タイムコード	非対応	対応（多くは秒単位）
音声ファイルアップロード	マイク入力のみ（再生しながら拾う方式）	MP3 / WAV / m4a 等を直接アップロード可
AI 要約	標準搭載（オンデバイス）	有料プランで提供されることが多い
チーム共有・コラボ	非対応（個人利用前提）	対応（コメント・共有・権限管理）
プライバシー	音声のみ Google 等に送信、テキストは端末内のみ	音声・テキストとも各社のクラウドに保存

整理すると、「個人で・無料で・サクッと使いたい」シーンなら本ツール、「業務で精度・話者分離・チーム共有が要件」なら専用サービス、という使い分けがおすすめです。1 on 1 や勉強用のメモ取り、Podcast の概要欄作成、長いメールや記事の要約など、軽量・即時のニーズには本ツールが圧倒的に手軽。一方、裁判記録や公式議事録のように「正確性・タイムコード・話者特定」が重要な業務では、専用サービスを選んでください。

うまくいかないときのトラブルシュート

マイクの権限ダイアログが出ない／許可しても認識されない

ブラウザ設定でサイト単位のマイク権限が「拒否」になっている可能性があります。Chrome ならアドレスバー左の鍵アイコンをクリック→「サイトの設定」→「マイク」を「許可」に変更。OS 側でブラウザ自体にマイクアクセスを与えていない場合（特に macOS）は、システム設定→プライバシーとセキュリティ→マイクで Chrome / Edge / Safari にチェックを入れてください。

「録音中」のはずなのに文字が増えない

マイク入力レベルが極端に低い可能性があります。OS のサウンド設定でマイクの入力ボリュームを確認し、声を出したときにメーターが反応しているか確認してください。また、Web Speech API は無音 60 秒で自動停止しますが、本ツールでは自動再開するようにしています。それでも止まる場合はブラウザを再読み込みしてください。

要約ボタンを押しても「簡易要約（重要文抽出）」しか動かない

お使いのブラウザが Summarizer API に対応していないか、AI モデルがまだダウンロードされていない可能性があります。Chrome 138 以降の対応端末では、要約ボタン押下時に「AIモデルのダウンロードが必要です。続けますか？」という確認ダイアログが出るので、「OK」を押すとダウンロードが開始されます。確認ダイアログをキャンセルした場合・ダイアログ自体が表示されない場合（端末非対応・モデル不可）は、簡易要約にフォールバックします。chrome://flags で「Optimization Guide On Device Model」が「Enabled」になっているかも合わせて確認してください。

誤認識が多すぎる

大半はマイク品質と環境ノイズが原因です。USB マイクへの切り替え、静かな環境への移動でほとんどの問題は解決します。それでも改善しない場合は、認識言語が話している言語と一致しているか（日本語を話しているのに英語認識になっていないか）を確認してください。

テキストがクリアされてしまった

本ツールは LocalStorage に自動保存していますが、シークレットモード（プライベートブラウジング）では保存されません。また、ブラウザの「閲覧データを削除」を実行すると LocalStorage も消えます。重要な文字起こしは、こまめに「ダウンロード」で .txt ファイルに保存する習慣をつけてください。

よくある質問

会議全員の声を 1 台の PC で拾えますか？: 会議室の中央に PC を置き、内蔵マイクで全員の声を拾うことは可能ですが、距離が遠い参加者ほど認識精度が落ちます。実用的には会議用 USB マイクを中央に設置するか、Zoom / Teams のような会議ツール経由でステレオミックス入力にする方が安定します。
録音した MP3 ファイルから直接文字起こしできますか？: 本ツールはマイク入力のみ対応しているため、MP3 ファイルを「PC で再生して PC のマイクで拾う」という方式になります。ファイル直接アップロードを使いたい場合は、Notta・Rimo Voice・OpenAI Whisper のような専用サービスをご利用ください。
英語と日本語の混在した会議は？: Web Speech API は「録音セッション中の言語を 1 つ」しかサポートしません。混在会議では、メイン言語で録音しておいてから、別言語の重要発言だけ手動で書き直す運用がおすすめです。
iPhone / Android のブラウザで使えますか？: iOS の Safari は Web Speech API に対応していますが、認識精度や挙動が PC 版と異なる場合があります。Android の Chrome は PC 版とほぼ同じ動作です。AI 要約はモバイルではフォールバックの簡易要約になることが多いです。
無音時間が長い動画の文字起こしは？: Web Speech API は無音が約 60 秒続くと自動停止します。本ツールでは自動再開するようにしていますが、長時間の無音が含まれる動画では、再開のタイミングで一部が抜ける可能性があります。重要な動画は手動で再生・停止しながら使ってください。
商用利用はできますか？: 本ツール自体は無料・登録不要でご利用いただけます。生成された文字起こしテキスト・要約結果は、お使いいただいたあなたが自由に活用できます。ただし、録音元の音声に著作権が含まれる場合（市販音声・他者の発言など）は、そちらの権利関係にご注意ください。

今すぐ試してみよう

無料・登録不要・ブラウザだけで完結。録音から AI 要約まで、その場で体験できます。

音声文字起こし・AI要約ツールを開く →