画像から文字起こしを無料でやる方法 — スマホ・スキャン・スクショ別の最適手順

公開: 2026-05-16

紙の資料、会議のホワイトボード、本の 1 ページ、スマホのスクリーンショット——「この画像に写った文字をテキストとして抜き出したい」というニーズは、リモートワーク・ペーパーレス化が進むほど増えてきました。Google レンズや iPhone の「テキスト認識表示」も便利ですが、長文を一気に・正確に・PC のブラウザだけで処理したいとき、選択肢を整理しておくと作業が一気に楽になります。本記事では「スマホ写真」「スキャン書類」「PC スクショ」の 3 シーンに分けて、それぞれの最適な文字起こし手順と、ベンリーの写真の文字数カウントをどう使い分けるかを実例ベースで解説します。

結論先出し

とにかく速く・正確に文字起こししたいなら写真の文字数カウントの「AI モード」（Gemini）を選んでください。手書きメモ・低解像度スクショ・複雑な背景でも実用的な精度が出ます。社外秘・契約書・個人情報を含む画像を扱う場合は、同ツールの「OCR モード」（端末内 Tesseract / PaddleOCR）に切り替えれば外部送信ゼロで処理できます。両方を切り替えながら使えるのがベンリーの強みです。

なぜ画像から文字起こしするのか

「画像に写っている文字をテキスト化する」という作業は、地味に見えて生産性インパクトの大きい作業です。1 枚の写真を 30 分かけて手で書き写すか、5 秒で 95% の精度で抽出してから残り 5% を直すか——後者を選べる時代になりました。実務でよく出てくる用途は次のとおりです。

議事録の作成: 会議のホワイトボードや配布資料を撮影しておき、後で文字起こし。手入力の半分以下の時間で完了。
名刺管理: 受け取った名刺を 1 枚撮るだけで、会社名・氏名・連絡先を CRM やメールアプリに転記。
書籍からの引用: 紙の書籍の一節を撮影し、引用部分を素早くデジタル化。原稿に挿入。
翻訳前の下準備: 海外旅行先のメニュー・標識・パンフレットを撮影 → テキスト化 → 翻訳サービスへ貼り付け。
SNS 画像のテキスト確認: Instagram カルーセルや X 画像投稿の文字量を、公開前に写真の文字数カウントでチェック。
古い印刷物のデジタル化: 図書館で借りた本のページ、家族の手紙、古いマニュアルなどを少しずつデータ化。

従来はクラウド型の有料 OCR サービス（ABBYY FineReader、Adobe Acrobat、Google Cloud Vision など）が定番でしたが、無料・登録不要・ブラウザだけで動く選択肢が増えてきたため、「ちょっと使いたい」用途ならクラウドにアップしなくても十分です。

AI モード vs 端末内 OCR の選び方

2026 年現在、画像 OCR には大きく分けて 2 系統の技術が使われています。マルチモーダル AI（Gemini、GPT-4o、Claude 3.5 など）と、専用 OCR エンジン（Tesseract、PaddleOCR、Azure Vision など）です。それぞれ得意・不得意が違うので、用途で選ぶのが正解です。

マルチモーダル AI は、文字を「読む」のではなく「理解する」ところまで一気にやる発想で動きます。崩し字でも前後の文脈から推測できるし、表組みのレイアウトを保ったまま起こせるし、写真の影や歪みがあっても許容します。一方で 1 回の処理が比較的高コストで、画像を AI サーバーに送る必要があるためプライバシー面では一段落ちます。

専用 OCR エンジンは、文字 1 つ 1 つを画像認識して取り出す純粋な「読み取り」処理です。前処理（二値化・歪み補正・ノイズ除去）の質がそのまま結果に直結します。完全にブラウザ内（あるいはローカル）で完結できるため、機密書類や個人情報を扱う場合の第一選択肢。代わりに、画像品質が悪いと一気に精度が落ちます。

ベンリーの写真の文字数カウントはこの 2 系統を 1 つの UI で切り替え可能にしているのが特徴です。デフォルトは「AI モード（Gemini）」、上限到達・エラー時は自動で「OCR モード」（Tesseract または PaddleOCR）にフォールバック。プライバシー重視なら最初から「OCR モード」を選択しておけば、画像はブラウザから外に出ません。

シーン	推奨モード	理由
不特定の写真・手書き・装飾フォント	AI モード	文脈推論で崩しても読める
機密書類・社外秘・個人情報を含む画像	OCR モード	外部送信ゼロ、端末内完結
大量バッチ処理（数十枚以上）	OCR モード（高精度 PaddleOCR）	API レート制限なし、無制限処理
縦書きの古典・書籍	OCR モード（Tesseract jpn_vert）	縦書き専用モデルが優秀
低解像度・荒れたスクショ	AI モード	AI が劣化に強い

シーン1: スマホで撮った紙の書類・板書

もっとも頻度の高いシーンです。会議のホワイトボード、研修の配布資料、紙のメモ、レシート、本の 1 ページ——スマホで撮ったあとどうするか。基本フローは次の通り。

撮影段階で勝負が決まる。明るい場所で、文字と垂直に近い角度で、ピントを文字に合わせる。画面いっぱいに文字を入れる。これだけで OCR 精度が 20% は変わる。詳細は OCR 精度を最大化する撮影・前処理テクニックで深掘りしています。
スマホから PC へ転送。AirDrop、Google フォト、LINE Keep、Slack のセルフ DM など、自分が一番速い手段で。ファイルサイズは 1〜3MB に収まるはず。
ベンリーの写真の文字数カウントにドラッグ&ドロップ。AI モードがデフォルトで選ばれているので、そのままアップロード。3〜5 秒で結果が出る。
テキストエリアからコピー。すぐに Word・Notion・メールアプリへ貼り付け。文字数も同時に表示されるので、レポート分量の把握にも使える。

スマホからそのままアップロードしても同じツールが動きます。モバイル版ブラウザでも UI は変わらず、写真ライブラリから直接選択 → 認識 → コピーまで完結します。

シーン2: スキャナーで取り込んだ書類

複合機やドキュメントスキャナで取り込んだ PDF・画像から文字起こしする場合は、スマホ撮影とはまた違うコツがあります。スキャンは「均一な照明・正面・高解像度」が保証されているため、OCR の理想的な入力です。一方で 解像度・カラー設定・余白を間違えると精度が出ません。

解像度は 300dpi 以上。スキャナのデフォルトが 150dpi になっていることが多いので、設定を確認。小さい文字（脚注・本文）が混ざる場合は 400〜600dpi 推奨。
カラーモードは「グレースケール」または「白黒」。カラースキャンは情報量が多いが、OCR にとってはノイズになりやすい。スキャナ側に「文書」モードがあればそれを選択。
余白を切り詰める。元書類の周りに大きな余白があると、ツール側の自動領域検出が外れることがある。スキャナのトリミング機能か、画像編集で余白をカット。
PDF で出力された場合は画像化が必要。詳細は後述の「PDF から文字を抜き出す手順」を参照。

準備が整ったら、ベンリーの写真の文字数カウントへドラッグ&ドロップ。スキャン書類は前処理が綺麗なので、AI モードでも OCR モード（特に高精度 PaddleOCR）でも好結果が得やすいです。機密度が高い社内文書なら OCR モードを選択してください。

シーン3: PC のスクリーンショット

「ブログ記事のスクショ」「ゲーム画面のセリフ」「PDF ビューアでテキスト選択できない箇所」「他人の Slack 投稿のスクショ」など、PC で撮るスクショからの文字起こしも頻出です。Windows の Snipping Tool、Mac の Cmd+Shift+4、Chrome の DevTools フルページキャプチャ——撮り方は何でも構いません。

スクショ特有の落とし穴は 解像度の縮小と圧縮です。スクショを Slack や LINE で共有 → ダウンロードした画像は、サーバー側で再圧縮されて画質が落ちていることがあります。ぼやけた文字は OCR が苦戦するため、元のスクショ（共有前のオリジナル）を使うのが安全です。

スクショを撮る（オリジナルを保持）
必要に応じてトリミング（文字部分だけに）
写真の文字数カウントへドロップ
AI モードで一発抽出、テキストをコピー

Web 記事のスクショから引用したいとき、もとのページが選択不可（Right-click 無効化、画像化されたテキスト）でも、スクショ → OCR → テキスト化という流れで突破できます。引用ルールには注意してください（出典明記、適切な範囲）。

縦書き・古典・手書きを抜き出すコツ

横書き印刷物に比べて、縦書きと 手書きは OCR の難敵です。それぞれの対処法を整理します。

縦書き（小説・書道・古典）

普通の OCR エンジンは横書き前提でレイアウト解析するため、縦書きをそのまま入れるとぐちゃぐちゃの結果になります。ベンリーの写真の文字数カウントは OCR モードの「詳細設定 → 縦書きとして認識する」をオンにすることで、Tesseract の縦書き専用言語データ（jpn_vert）を読み込み、縦の文字配列を正しく解釈します。初回のみ約 3MB の追加ダウンロードがありますが、以降はキャッシュされます。

AI モード（Gemini）も縦書きを理解できますが、「右から左へ列をたどる」ルールは時々誤認します。長文を起こすなら OCR モード（縦書きチェック ON）が安定します。

手書き

手書きはコンテキスト推論が必須なので、AI モードが圧倒的に有利です。ボールペンで書いた走り書き程度なら Gemini は十分に読みます。崩した行書や続け字は AI でも難しいので、撮影段階で「ブロック体ではっきり書く」ことが大事。完璧を期待せず、AI の出力を下書きとして人間が校正する、という運用が現実的です。

古典（くずし字・変体仮名）

古文書・変体仮名の認識は専用モデル（みを：くずし字 OCR、KuroNet など）の領域で、汎用 OCR や汎用 AI では精度が出ません。研究用途なら国立国語研究所などの専用サービスを使ってください。

PDF から文字を抜き出す手順

「PDF が選択不可で困った」というシーンも頻出です。PDF には大きく 2 種類あって、テキストレイヤーがある PDF（Word から書き出した PDF、組版された電子書籍など）と、画像 PDF（スキャナで取り込んだだけの PDF）があります。前者は普通にコピペすれば良いだけ。問題は後者です。

画像 PDF からテキストを抽出する流れは:

PDF を画像化: Mac の「プレビュー」アプリで PDF を開き、各ページを JPEG・PNG として書き出し。Windows なら Adobe Acrobat、または無料の「PDF Sam」「Smallpdf」など。複数ページなら 1 ページずつ。
1 枚ずつ写真の文字数カウントへ: AI モードでもブラウザ完結の OCR モードでも好きな方で。
結果を順番に貼り付け: 1 ページずつテキストエリアからコピーして、Word・Notion・Markdown ファイルに集約。

枚数が多い場合は、PDF をテキスト化する専用サービス（Adobe Acrobat の OCR 機能、Google Drive の「PDF をテキスト変換」機能）の方が一括処理できて早いです。10 ページ以下ならベンリーの方が手軽です。

機密情報を扱うときの注意

OCR は便利ですが、画像をどこに送るかで 情報セキュリティのリスクがまったく違います。整理しておきましょう。

方法	送信先	機密書類への適性
ベンリー「AI モード」	Google Gemini API	△ 一般文書向き、社外秘は不可
ベンリー「OCR モード」	送信なし（端末内）	◎ 契約書・個人情報も安全
Google レンズ	Google	△ ログ蓄積の可能性
iPhone「テキスト認識表示」	端末内	◎ Apple Neural Engine ローカル処理
Adobe Acrobat OCR	Adobe Cloud / ローカル	○ 設定で切替可能
クラウド OCR API（Google Vision 等）	各クラウド	× 個別契約と DPA が必要

業務で扱う書類が「もし漏れたら問題になるか」を 1 度立ち止まって考え、その答えが「Yes」なら端末内処理（ベンリーの OCR モード、iPhone のテキスト認識、社内オンプレ OCR）に絞るのが基本です。

関連ガイド

抜き出したテキストの文字数を確認したいなら文字数カウント完全攻略、OCR の精度をさらに上げたいなら OCR 精度を最大化する撮影・前処理テクニック、SNS 画像内のテキスト量を最適化したいなら SNS 画像内テキストの文字数ベストプラクティスもどうぞ。

よくある質問

無料で何枚まで処理できますか？

「AI モード」は API コスト管理のため 1 日 5 回まで無料、X（旧 Twitter）でシェアすると当日限定で +10 回追加されて合計 15 回まで使えます。OCR モード（端末内 Tesseract / PaddleOCR）は 完全無制限です。大量バッチ処理が必要なら OCR モードを使ってください。

AI モードと OCR モード、どちらが正確ですか？

一般的には AI モード（Gemini）の方が精度が高いです。特に手書き・低解像度・装飾フォント・歪んだ画像で差が大きく出ます。一方で、印刷物をきれいにスキャンした書類なら OCR モード（PaddleOCR 高精度）も AI に肩を並べる精度を出します。「とりあえず AI モードで試して、結果が悪ければ OCR モードに切り替えて再試行」が現実的なワークフローです。

iPhone のテキスト認識との違いは？

iPhone の「テキスト認識表示」（Live Text）は Apple Neural Engine による端末内処理で、プライバシー面では最高水準です。ただし PC では使えず、長文の連続選択・コピーがやや手間。ベンリーは PC ブラウザでも同じ精度の認識が使えること、抽出後すぐに文字数カウント・原稿用紙換算まで一気通貫で出せること、AI モードで iPhone より高精度な認識ができることが利点です。スマホ単体で完結する作業なら iPhone Live Text、PC でまとめて処理するならベンリー、と使い分けると効率的です。

処理に失敗するときはどうすれば？

原因は多くの場合 4 つに分類できます。①画像が暗い・ピントが甘い、②文字が小さすぎる、③背景が複雑で文字と干渉している、④画像形式が非対応（HEIC など）。①〜③は OCR 精度を最大化する撮影・前処理テクニックで具体的な改善法を解説しています。④は事前に JPEG / PNG に変換してから試してください。それでもダメな場合は「AI モードから OCR モードへ」「OCR モードから AI モードへ」と切り替えると、片方が読めるケースもあります。

抽出したテキストの文字数を一緒に知りたい

ベンリーの写真の文字数カウントは、OCR と文字数カウントが 一体化しています。画像をアップロードした瞬間に、文字数（改行・空白抜き）・行数・読了時間（500 字/分目安）・原稿用紙換算（400 字詰）が同時に表示されます。テキスト入力からカウントしたいだけなら文字数カウントもどうぞ。

今すぐ画像から文字起こしを試す

写真・スキャン・スクショ、どれでもブラウザにドラッグ&ドロップするだけ。AI モード（Gemini）で高精度認識、機密書類なら OCR モード（端末内完結）に切替。登録不要・完全無料です。

写真の文字数カウントを開く →