画像から文字起こしを無料でやる方法 — スマホ・スキャン・スクショ別の最適手順

スマートフォンで紙の書類を撮影しているシーン Photo: Unsplash

紙の資料、会議のホワイトボード、本の 1 ページ、スマホのスクリーンショット——「この画像に写った文字をテキストとして抜き出したい」というニーズは、リモートワーク・ペーパーレス化が進むほど増えてきました。Google レンズや iPhone の「テキスト認識表示」も便利ですが、長文を一気に・正確に・PC のブラウザだけで処理したいとき、選択肢を整理しておくと作業が一気に楽になります。本記事では「スマホ写真」「スキャン書類」「PC スクショ」の 3 シーンに分けて、それぞれの最適な文字起こし手順と、ベンリーの 写真の文字数カウントをどう使い分けるかを実例ベースで解説します。

結論先出し

とにかく速く・正確に文字起こししたいなら 写真の文字数カウントの「AI モード」(Gemini)を選んでください。手書きメモ・低解像度スクショ・複雑な背景でも実用的な精度が出ます。社外秘・契約書・個人情報を含む画像を扱う場合は、同ツールの「OCR モード」(端末内 Tesseract / PaddleOCR)に切り替えれば外部送信ゼロで処理できます。両方を切り替えながら使えるのがベンリーの強みです。

なぜ画像から文字起こしするのか

「画像に写っている文字をテキスト化する」という作業は、地味に見えて生産性インパクトの大きい作業です。1 枚の写真を 30 分かけて手で書き写すか、5 秒で 95% の精度で抽出してから残り 5% を直すか——後者を選べる時代になりました。実務でよく出てくる用途は次のとおりです。

  • 議事録の作成: 会議のホワイトボードや配布資料を撮影しておき、後で文字起こし。手入力の半分以下の時間で完了。
  • 名刺管理: 受け取った名刺を 1 枚撮るだけで、会社名・氏名・連絡先を CRM やメールアプリに転記。
  • 書籍からの引用: 紙の書籍の一節を撮影し、引用部分を素早くデジタル化。原稿に挿入。
  • 翻訳前の下準備: 海外旅行先のメニュー・標識・パンフレットを撮影 → テキスト化 → 翻訳サービスへ貼り付け。
  • SNS 画像のテキスト確認: Instagram カルーセルや X 画像投稿の文字量を、公開前に 写真の文字数カウントでチェック。
  • 古い印刷物のデジタル化: 図書館で借りた本のページ、家族の手紙、古いマニュアルなどを少しずつデータ化。

従来はクラウド型の有料 OCR サービス(ABBYY FineReader、Adobe Acrobat、Google Cloud Vision など)が定番でしたが、無料・登録不要・ブラウザだけで動く選択肢が増えてきたため、「ちょっと使いたい」用途ならクラウドにアップしなくても十分です。

AI モード vs 端末内 OCR の選び方

2026 年現在、画像 OCR には大きく分けて 2 系統の技術が使われています。マルチモーダル AI(Gemini、GPT-4o、Claude 3.5 など)と、専用 OCR エンジン(Tesseract、PaddleOCR、Azure Vision など)です。それぞれ得意・不得意が違うので、用途で選ぶのが正解です。

マルチモーダル AI は、文字を「読む」のではなく「理解する」ところまで一気にやる発想で動きます。崩し字でも前後の文脈から推測できるし、表組みのレイアウトを保ったまま起こせるし、写真の影や歪みがあっても許容します。一方で 1 回の処理が比較的高コストで、画像を AI サーバーに送る必要があるためプライバシー面では一段落ちます。

専用 OCR エンジンは、文字 1 つ 1 つを画像認識して取り出す純粋な「読み取り」処理です。前処理(二値化・歪み補正・ノイズ除去)の質がそのまま結果に直結します。完全にブラウザ内(あるいはローカル)で完結できるため、機密書類や個人情報を扱う場合の第一選択肢。代わりに、画像品質が悪いと一気に精度が落ちます。

ベンリーの 写真の文字数カウントはこの 2 系統を 1 つの UI で切り替え可能にしているのが特徴です。デフォルトは「AI モード(Gemini)」、上限到達・エラー時は自動で「OCR モード」(Tesseract または PaddleOCR)にフォールバック。プライバシー重視なら最初から「OCR モード」を選択しておけば、画像はブラウザから外に出ません。

シーン推奨モード理由
不特定の写真・手書き・装飾フォントAI モード文脈推論で崩しても読める
機密書類・社外秘・個人情報を含む画像OCR モード外部送信ゼロ、端末内完結
大量バッチ処理(数十枚以上)OCR モード(高精度 PaddleOCR)API レート制限なし、無制限処理
縦書きの古典・書籍OCR モード(Tesseract jpn_vert)縦書き専用モデルが優秀
低解像度・荒れたスクショAI モードAI が劣化に強い

シーン1: スマホで撮った紙の書類・板書

もっとも頻度の高いシーンです。会議のホワイトボード、研修の配布資料、紙のメモ、レシート、本の 1 ページ——スマホで撮ったあとどうするか。基本フローは次の通り。

  1. 撮影段階で勝負が決まる。明るい場所で、文字と垂直に近い角度で、ピントを文字に合わせる。画面いっぱいに文字を入れる。これだけで OCR 精度が 20% は変わる。詳細は OCR 精度を最大化する撮影・前処理テクニックで深掘りしています。
  2. スマホから PC へ転送。AirDrop、Google フォト、LINE Keep、Slack のセルフ DM など、自分が一番速い手段で。ファイルサイズは 1〜3MB に収まるはず。
  3. ベンリーの 写真の文字数カウントにドラッグ&ドロップ。AI モードがデフォルトで選ばれているので、そのままアップロード。3〜5 秒で結果が出る。
  4. テキストエリアからコピー。すぐに Word・Notion・メールアプリへ貼り付け。文字数も同時に表示されるので、レポート分量の把握にも使える。

スマホからそのままアップロードしても同じツールが動きます。モバイル版ブラウザでも UI は変わらず、写真ライブラリから直接選択 → 認識 → コピーまで完結します。

シーン2: スキャナーで取り込んだ書類

複合機やドキュメントスキャナで取り込んだ PDF・画像から文字起こしする場合は、スマホ撮影とはまた違うコツがあります。スキャンは「均一な照明・正面・高解像度」が保証されているため、OCR の理想的な入力です。一方で 解像度・カラー設定・余白を間違えると精度が出ません。

  • 解像度は 300dpi 以上。スキャナのデフォルトが 150dpi になっていることが多いので、設定を確認。小さい文字(脚注・本文)が混ざる場合は 400〜600dpi 推奨。
  • カラーモードは「グレースケール」または「白黒」。カラースキャンは情報量が多いが、OCR にとってはノイズになりやすい。スキャナ側に「文書」モードがあればそれを選択。
  • 余白を切り詰める。元書類の周りに大きな余白があると、ツール側の自動領域検出が外れることがある。スキャナのトリミング機能か、画像編集で余白をカット。
  • PDF で出力された場合は画像化が必要。詳細は後述の「PDF から文字を抜き出す手順」を参照。

準備が整ったら、ベンリーの 写真の文字数カウントへドラッグ&ドロップ。スキャン書類は前処理が綺麗なので、AI モードでも OCR モード(特に高精度 PaddleOCR)でも好結果が得やすいです。機密度が高い社内文書なら OCR モードを選択してください。

シーン3: PC のスクリーンショット

「ブログ記事のスクショ」「ゲーム画面のセリフ」「PDF ビューアでテキスト選択できない箇所」「他人の Slack 投稿のスクショ」など、PC で撮るスクショからの文字起こしも頻出です。Windows の Snipping Tool、Mac の Cmd+Shift+4、Chrome の DevTools フルページキャプチャ——撮り方は何でも構いません。

スクショ特有の落とし穴は 解像度の縮小圧縮です。スクショを Slack や LINE で共有 → ダウンロードした画像は、サーバー側で再圧縮されて画質が落ちていることがあります。ぼやけた文字は OCR が苦戦するため、元のスクショ(共有前のオリジナル)を使うのが安全です。

  1. スクショを撮る(オリジナルを保持)
  2. 必要に応じてトリミング(文字部分だけに)
  3. 写真の文字数カウントへドロップ
  4. AI モードで一発抽出、テキストをコピー

Web 記事のスクショから引用したいとき、もとのページが選択不可(Right-click 無効化、画像化されたテキスト)でも、スクショ → OCR → テキスト化 という流れで突破できます。引用ルールには注意してください(出典明記、適切な範囲)。

縦書き・古典・手書きを抜き出すコツ

横書き印刷物に比べて、縦書き手書きは OCR の難敵です。それぞれの対処法を整理します。

縦書き(小説・書道・古典)

普通の OCR エンジンは横書き前提でレイアウト解析するため、縦書きをそのまま入れるとぐちゃぐちゃの結果になります。ベンリーの 写真の文字数カウントは OCR モードの「詳細設定 → 縦書きとして認識する」をオンにすることで、Tesseract の縦書き専用言語データ(jpn_vert)を読み込み、縦の文字配列を正しく解釈します。初回のみ約 3MB の追加ダウンロードがありますが、以降はキャッシュされます。

AI モード(Gemini)も縦書きを理解できますが、「右から左へ列をたどる」ルールは時々誤認します。長文を起こすなら OCR モード(縦書きチェック ON)が安定します。

手書き

手書きはコンテキスト推論が必須なので、AI モードが圧倒的に有利です。ボールペンで書いた走り書き程度なら Gemini は十分に読みます。崩した行書や続け字は AI でも難しいので、撮影段階で「ブロック体ではっきり書く」ことが大事。完璧を期待せず、AI の出力を下書きとして人間が校正する、という運用が現実的です。

古典(くずし字・変体仮名)

古文書・変体仮名の認識は専用モデル(みを:くずし字 OCR、KuroNet など)の領域で、汎用 OCR や汎用 AI では精度が出ません。研究用途なら国立国語研究所などの専用サービスを使ってください。

PDF から文字を抜き出す手順

「PDF が選択不可で困った」というシーンも頻出です。PDF には大きく 2 種類あって、テキストレイヤーがある PDF(Word から書き出した PDF、組版された電子書籍など)と、画像 PDF(スキャナで取り込んだだけの PDF)があります。前者は普通にコピペすれば良いだけ。問題は後者です。

画像 PDF からテキストを抽出する流れは:

  1. PDF を画像化: Mac の「プレビュー」アプリで PDF を開き、各ページを JPEG・PNG として書き出し。Windows なら Adobe Acrobat、または無料の「PDF Sam」「Smallpdf」など。複数ページなら 1 ページずつ。
  2. 1 枚ずつ 写真の文字数カウント: AI モードでもブラウザ完結の OCR モードでも好きな方で。
  3. 結果を順番に貼り付け: 1 ページずつテキストエリアからコピーして、Word・Notion・Markdown ファイルに集約。

枚数が多い場合は、PDF をテキスト化する専用サービス(Adobe Acrobat の OCR 機能、Google Drive の「PDF をテキスト変換」機能)の方が一括処理できて早いです。10 ページ以下ならベンリーの方が手軽です。

機密情報を扱うときの注意

OCR は便利ですが、画像をどこに送るかで 情報セキュリティのリスクがまったく違います。整理しておきましょう。

方法送信先機密書類への適性
ベンリー「AI モード」Google Gemini API△ 一般文書向き、社外秘は不可
ベンリー「OCR モード」送信なし(端末内)◎ 契約書・個人情報も安全
Google レンズGoogle△ ログ蓄積の可能性
iPhone「テキスト認識表示」端末内◎ Apple Neural Engine ローカル処理
Adobe Acrobat OCRAdobe Cloud / ローカル○ 設定で切替可能
クラウド OCR API(Google Vision 等)各クラウド× 個別契約と DPA が必要

業務で扱う書類が「もし漏れたら問題になるか」を 1 度立ち止まって考え、その答えが「Yes」なら端末内処理(ベンリーの OCR モード、iPhone のテキスト認識、社内オンプレ OCR)に絞るのが基本です。

関連ガイド

抜き出したテキストの文字数を確認したいなら 文字数カウント完全攻略、OCR の精度をさらに上げたいなら OCR 精度を最大化する撮影・前処理テクニック、SNS 画像内のテキスト量を最適化したいなら SNS 画像内テキストの文字数ベストプラクティスもどうぞ。

よくある質問

無料で何枚まで処理できますか?

「AI モード」は API コスト管理のため 1 日 5 回まで無料、X(旧 Twitter)でシェアすると当日限定で +10 回追加されて合計 15 回まで使えます。OCR モード(端末内 Tesseract / PaddleOCR)は 完全無制限です。大量バッチ処理が必要なら OCR モードを使ってください。

AI モードと OCR モード、どちらが正確ですか?

一般的には AI モード(Gemini)の方が精度が高いです。特に手書き・低解像度・装飾フォント・歪んだ画像で差が大きく出ます。一方で、印刷物をきれいにスキャンした書類なら OCR モード(PaddleOCR 高精度)も AI に肩を並べる精度を出します。「とりあえず AI モードで試して、結果が悪ければ OCR モードに切り替えて再試行」が現実的なワークフローです。

iPhone のテキスト認識との違いは?

iPhone の「テキスト認識表示」(Live Text)は Apple Neural Engine による端末内処理で、プライバシー面では最高水準です。ただし PC では使えず、長文の連続選択・コピーがやや手間。ベンリーは PC ブラウザでも同じ精度の認識が使えること、抽出後すぐに文字数カウント・原稿用紙換算まで一気通貫で出せること、AI モードで iPhone より高精度な認識ができることが利点です。スマホ単体で完結する作業なら iPhone Live Text、PC でまとめて処理するならベンリー、と使い分けると効率的です。

処理に失敗するときはどうすれば?

原因は多くの場合 4 つに分類できます。①画像が暗い・ピントが甘い、②文字が小さすぎる、③背景が複雑で文字と干渉している、④画像形式が非対応(HEIC など)。①〜③は OCR 精度を最大化する撮影・前処理テクニックで具体的な改善法を解説しています。④は事前に JPEG / PNG に変換してから試してください。それでもダメな場合は「AI モードから OCR モードへ」「OCR モードから AI モードへ」と切り替えると、片方が読めるケースもあります。

抽出したテキストの文字数を一緒に知りたい

ベンリーの 写真の文字数カウントは、OCR と文字数カウントが 一体化しています。画像をアップロードした瞬間に、文字数(改行・空白抜き)・行数・読了時間(500 字/分目安)・原稿用紙換算(400 字詰)が同時に表示されます。テキスト入力からカウントしたいだけなら 文字数カウントもどうぞ。

今すぐ画像から文字起こしを試す

写真・スキャン・スクショ、どれでもブラウザにドラッグ&ドロップするだけ。AI モード(Gemini)で高精度認識、機密書類なら OCR モード(端末内完結)に切替。登録不要・完全無料です。

写真の文字数カウントを開く →