スキャンしたPDFから文字を抽出する方法:定番の3つ
授業の配布資料、署名済みの契約書、古いマニュアルなど、スキャンしたPDFから一部の文章をコピーしたい。そんな場面はよくあります。カーソルで文字をなぞっても反応せず、ページ全体が1枚の画像のように選択されてしまう――これはとてもよくある悩みです。でも、文字情報が消えているわけではありません。見えないだけで、画像の中に閉じ込められているのです。

スキャンPDFは、実質的には書類を撮影した画像です。コンピューターが認識しているのは文字ではなくピクセルなので、テキストを選択したり、コピーしたり、検索したりできません。そこで必要になるのが OCR(Optical Character Recognition/光学文字認識) です。OCRは画像を解析し、文字や数字の形を見分けて、機械が読める編集可能なテキストに変換します。このガイドでは、スキャンしたPDFをテキスト化するための代表的な3つの方法を紹介します。無料のオンラインOCRから、業務向けの高機能ソフトまで、用途に合わせて選べるようにわかりやすく解説します。
結論先取り:スキャンPDFをテキスト化するおすすめ方法
急いでいる方向けに、まず結論から。どの方法が最適かは、処理速度・認識精度・プライバシーのどれを重視するかで決まります。
| 方法 | 向いている用途 | 精度(1〜5) | 目安コスト |
|---|---|---|---|
| オンラインOCRツール | 数ページのメモなど、簡単な書類をすばやく1回だけテキスト抽出したい場合 | 3.5 | 無料(制限あり) |
| Adobe Acrobat Pro | 業務文書で高い精度とレイアウト再現性が必要な場合 | 4.5 | サブスク(約20ドル/月) |
| 専用OCRソフト | 大量処理、アーカイブ用途、複雑な一括処理を細かく管理したい場合 | 5.0 | 高額な買い切り(100ドル以上) |
このスコアは一般的な使用感にもとづく編集部の目安であり、厳密なベンチマークではありません。結果は原稿の状態によって変わります。
要点: 学生・研究者・事務職など、たまにスキャンPDFから文字を抜き出したい人なら、まずは 無料のオンラインOCRツール から試すのが最も効率的です。一方で、機密文書を扱うことが多い、あるいは毎日レイアウトを崩さず処理したいなら、Adobe Acrobat Pro に投資する価値があります。
まず知っておきたい:スキャンPDFと通常PDFの違い
手順に入る前に、なぜコピーできないのかを整理しておきましょう。PDFはすべて同じように見えても、中身は同じではありません。使いにくさの原因は、大きく分けて「通常PDF」と「スキャンPDF」の違いにあります。
- 通常PDF: Microsoft Word や Google Doc など、デジタルの元データから書き出されたPDFです。最初からテキストレイヤーが含まれているため、文字は画像ではなくデータとして保存されています。そのため、普通の文書と同じように選択・コピー・検索・編集ができます。
- スキャンPDF: 紙の書類をスキャナーやスマホのカメラアプリで取り込んで作られたPDFです。各ページはJPEGやTIFFのような画像ファイルがPDFの中に入っている状態で、文字レイヤーはありません。あるのは「文字が写った画像」だけです。
自分のPDFがどちらか見分ける方法は? とても簡単です。PDFを開いて、カーソルで1文だけを選択してみてください。文字単位で正確に選べるなら通常PDFです。反対に、ページの一部や全体が大きな青い枠でまとめて選択されるなら、それは画像ベースのスキャンPDFです。こうしたPDFを扱うときに役立つのがOCRです。
方法1:無料のオンラインOCRで手早く文字起こしする
スキャンした論文から引用を抜き出したい、紙の請求書をデータ化したい――そんな多くのケースでは、無料のオンラインOCRが最短ルートです。ソフトをインストールする必要がなく、ブラウザ上でそのまま使えて、画像PDFを数秒で使えるテキストに変換できます。
メリットはわかりやすく、無料で使え、どのブラウザからでもアクセスでき、処理も速いことです。ただし、見落とされがちな注意点もあります。無料サービスでは、ファイルサイズや1日に処理できるページ数に制限があることがあります。さらに重要なのは、書類を外部サーバーにアップロードする必要がある点です。機密情報や個人情報を含む文書には向かない場合があります。
それでも、機密性の低い資料であれば利便性は非常に高いです。最近の使いやすい例としては、PDFテキスト抽出ツール があります。AI搭載エンジンにより、基本利用なら登録不要で、余計なノイズの少ないテキスト抽出ができます。
一般的な流れは次のとおりです。
- スキャンしたPDFをアップロードします。 Lynote の作業画面を開くと、入力方法がいくつか表示されます。手元のファイルを使う場合は、「Upload File」 タブを選びます。スキャンPDFをそのままページにドラッグ&ドロップするか、「Browse Local Files」 をクリックしてパソコンから選択できます。
- PDFから文字を抽出します。 ファイルの読み込みが終わったら、「Create Note」 ボタンをクリックします。すると文書がAIエンジンに送られ、OCR処理がすぐに始まります。各ページの画像を解析し、文字を認識し(130以上の言語に対応)、内容をデジタルテキストとして再構成します。
- 抽出結果を確認して書き出します。 数秒後、抽出されたテキストがメイン編集パネルの左側に表示されます。全文を選択してクリップボードにコピーできます。必要に応じて、PDF要約 を確認したり、内容について質問したりすることもできます。


以前、学生らしい切羽詰まった状況に陥ったことがあります。歴史のゼミで、30ページあるスキャン資料が課題として出され、翌日までにレポート提出が必要でした。教授がある歴史家の名前に触れていたのは覚えていたのですが、どこに書かれていたか思い出せません。分厚い本文を1時間かけて目で追う代わりに、そのPDFをオンラインOCRツールに入れてみたところ、1分もかからず検索可能な文書になりました。あとはその歴史家の名前で Ctrl+F をかけるだけで、必要な3ページにすぐたどり着けました。小さなことですが、その夜を本当に救ってくれました。
方法2:Adobe Acrobat Pro の内蔵OCRを使う
仕事でPDFを扱うことが多いなら、Adobe Acrobat Pro を使える環境があるかもしれません。業界標準とされるのには理由があり、内蔵OCRの性能は高く、安定感もあります。この方法が向いているのは、単に文字を抜き出したいだけでなく、元のレイアウト、フォント、書式をできるだけ保ったまま処理したい場合です。
テキストだけを吐き出すオンラインツールと違い、Acrobat は「検索可能な画像PDF」を作成できます。これは元のスキャン画像を残したまま、その上に見えない選択可能なテキストレイヤーを追加する方式です。見た目は元のままなのに、文書内検索ができるようになり、コピー&ペーストにも対応します。
「有料で使う価値はあるの?」と思うかもしれません。すでにCreative Cloudを契約しているなら、使わない手はありません。そうでない場合は、たまにしか使わない用途には月額料金がやや高めです。
始める前に確認したいこと
- Adobe Acrobat Pro の有料プラン契約が必要です(無料のAdobe ReaderにはOCR機能は含まれていません)。
- 精度を上げるには、スキャンしたPDFが鮮明で、解像度が少なくとも300 DPIあることを確認してください。
Acrobat Proで文字認識する手順
- Adobe Acrobat ProでスキャンしたPDFを開きます。
- 「ツール」 センターに移動します。上部ツールバーまたは右側パネルから開けます。
- 「スキャン補正」 ツールを選択します。ここには、スキャン文書を見やすく整える機能がまとまっています。
- 表示された「スキャン補正」ツールバーで、「テキスト認識」 をクリックします。小さなドロップダウンが表示されるので、「このファイル内」 を選びます。
- 設定ダイアログが開きます。通常は初期設定のままで問題ありません。認識精度を上げたい場合は、文書の言語を指定してください。最後に 「テキスト認識」 をクリックすると処理が始まります。
これでAcrobatが各ページを順番に処理します。ページ数の多い文書では、数分かかることがあります。完了したら、もう一度テキストを選択してみてください。これまでコピーできないPDFだったものでも、通常のPDFのようにハイライト、コピー、検索ができるようになります。
Adobe Acrobat Proが無料のオンラインOCRツールよりレイアウトを保ちやすい主な理由は、高度な文書解析エンジンを搭載しているためです。単に文字列を抜き出すのではなく、複雑な表や段組みも再構成できるよう設計されています。
方法3:大量処理なら専用OCRソフト
1件ずつ処理する段階を超えて、キャビネット1台分の紙書類をデータ化するなら、専用OCRソフトの出番です。ABBYY FineReaderやKofax OmniPageのようなツールは、OCR ソフト 比較でもよく挙がる本格派で、大量のPDF文字認識に向いています。
一般的なユーザーには少しオーバースペックですが、法律事務所、研究用途、ペーパーレス化を進める企業にとっては重要な投資です。こうしたプラットフォームが選ばれる理由は次のとおりです。
- 一括処理: 何百件ものスキャンPDFをまとめて読み込ませ、夜間に自動処理させて、必要な形式で一括書き出しできます。
- 高度なレイアウト認識: 複雑な紙面構成の認識に強く、ヘッダー、フッター、段組み、表、画像などを判別し、Word文書のような編集可能な形式でもできるだけ忠実に再現します。
- 連携と自動化: 多くの専用OCRソフトは自動化に対応しています。たとえば「監視フォルダー」を設定しておけば、新しいスキャンファイルを入れるだけで自動変換し、別の保存先へ振り分けることができます。
- 最高水準の認識精度: オンラインOCRやAcrobatも十分高性能ですが、専用ソフトは低品質なスキャンに対する細かな調整項目が多く、難しい原稿でも精度を出しやすいのが強みです。
正直なところ、これが必要かどうかは使い方で判断できます。週に10〜20件以上のスキャン文書をテキスト化する場合や、古い資料・劣化した原稿・複雑なレイアウトを扱うことが多い場合は、専用OCRツールの無料体験を試す価値があります。
スキャンPDFの文字抽出でよくある問題と対処法
OCRは魔法のように便利ですが、うまくいかないこともあります。文字化けしたり、レイアウトが崩れたりする場合は、たいてい次のどれかが原因です。
- 問題:元のスキャン品質が低い
- 原因: OCRで正確に文字認識するには、文字の形がはっきりしている必要があります。ぼやけた画像、傾いた原稿、低解像度のスキャン(200 DPI未満)は、人が暗い部屋で文字を読むようなものです。「たぶんこう書いてある」という曖昧な結果が増えます。
- 対処法: 可能であれば、より高解像度で再スキャンしてください(300 DPIが目安です)。原稿がスキャナー台に平らに置かれ、まっすぐセットされているかも確認しましょう。入力品質は、出力結果を左右する最大の要因です。
- 問題:レイアウトが複雑(表・段組み・テキストボックスなど)
- 原因: 基本的なOCRは、左から右、上から下へ順に読み取ります。そのため、2段組みの論文のようなレイアウトでは、左段1行目、右段1行目…という順で混ざってしまい、意味の通らない文章になることがあります。
- 対処法: こうしたケースでは、Acrobatや専用OCRソフトが強みを発揮します。テキスト領域を判別して正しい順序で処理する「ゾーンOCR」に対応しているためです。無料ツールを使う場合は、まずテキストだけを抽出し、その後に手作業で整形する前提で考えるのが現実的です。
- 問題:手書き文字、スタンプ、特殊フォントが含まれている
- 原因: 多くのOCRエンジンは標準的な印刷フォントを前提に学習しています。手書き文字のばらつきには弱く、段落の上に大きく押された赤い「PAID」スタンプのような要素があると、その下の文字がほとんど読めなくなることもあります。
- 対処法: 手書き文字には、通常のOCRとは別系統のICR(Intelligent Character Recognition)対応ソフトが必要です。スタンプ入り文書は、後から手動で修正する以外に簡単な解決策がないこともあります。標準的でない要素がある文書ほど、出力結果を必ず目視で確認してください。
よくある質問
OCRの文字抽出精度はどれくらいですか?
最近のAI搭載OCRは非常に高精度で、状態の良い活字文書なら99%を超えることも珍しくありません。ただし、スキャン品質が悪い場合、レイアウトが複雑な場合、特殊フォントが使われている場合は精度が下がります。重要な文書では、最後に人の目で軽く校正する時間を見込んでおくのが安心です。
文字抽出後に書式やフォントが変わるのはなぜですか?
ここは重要なポイントです。OCRが取り出すのは 内容(文字そのもの)ですが、書式はそこから 再構成 しています。つまり、完全な複製ではなく、作り直しに近い処理です。新しい文書では、元画像に使われていたフォントそのものではなく、ArialやCalibriのような標準システムフォントが使われます。その結果、特に複雑なレイアウトの文書では、改ページや文字間隔が変わることがあります。
ソフトを入れずにスキャンPDFから文字を抽出できますか?
いいえ。画像PDF テキスト化やスキャン PDF テキスト 抽出には、基本的にOCRソフトが必要です。選択肢は、Web上で使うPDF OCR 無料ツール、Acrobatのようなインストール型ソフト、またはスマホアプリのどれを使うか、という違いです。どこかでOCRプログラムが動いていない限り、文字認識はできません。
スキャンしたPDFを無料でテキスト化する一番いい方法は?
多くのユーザーにとって、LynoteのAI文字起こし のような信頼できるオンラインOCRツールが、無料で使える有力な選択肢です。ソフトのインストールや有料契約なしで、標準的な用途なら精度・速度・使いやすさのバランスが取れています。機密文書を扱う場合は、アップロード前にプライバシー面を確認してください。
結論:用途別のおすすめ
スキャンしたPDFから文字を抜き出す方法を選ぶときに大切なのは、「唯一のベストなツール」を探すことではなく、自分の作業内容に合った方法を選ぶことです。
- 機密性の低い文書を、1回だけ手早く変換したい なら、まずは 無料のオンラインOCRツール を試しましょう。
- 業務文書を継続的に扱い、レイアウトもできるだけ保ちたい なら、Adobe Acrobat Pro が定番です。
- 紙書類のデータ化や大量のスキャン処理が業務に含まれる なら、専用OCRソフト への投資を検討する価値があります。
編集部のおすすめ: この作業が必要になるのがたまに、という学生・研究者・事務職の方の多くには、Lynote のような最新のオンラインツールがいちばん実用的です。無料ですぐ使えて、高精度なAIエンジンを搭載し、インストールも不要。バランスのよさが魅力です。複雑な契約書や財務書類では、レイアウト調整の自由度が高いデスクトップソフトのほうが向く場合もありますが、スキャンしたPDFを検索可能にしたい、コピーできないPDFをテキスト化したい、といった日常的な用途なら、Lynoteなら数秒で結果を得られます。


