smallPDF.us

OCR PDF — テキスト抽出 スキャン文書をすぐに変換

画像ベース・スキャン・カメラ撮影のPDFを完全に検索・コピー可能な文書に変換。100以上の言語対応。インストール不要。数秒で完了。

スキャンPDFをアップロード

ドラッグ&ドロップまたはクリックして選択 — PDFファイルのみ

SSL暗号化 1時間後に削除 登録不要

無料: 10 MB · 2ページ · 1回/日  |  Pro: 100 MB以上 · 無制限ページ · バッチOCR

SmallPDF.us OCRが選ばれる理由

長年のドキュメント処理経験をもとに構築されたOCRパイプラインは、精度・プライバシー・多様な文書に対応するよう設計されています。

文字認識精度98〜99%

混在フォント・回転ページ・劣化スキャン・複数列レイアウトに対応した多段階認識。300 DPI以上のクリーンな原稿はほぼ人間と同等の精度を実現。

100以上の言語を自動検出

ラテン文字・キリル文字・アラビア文字・ヘブライ語・CJK(中国語・日本語・韓国語)・デーヴァナーガリー・タイ語など — 正しい文字モデルをページごとに自動適用。

非破壊の検索可能PDF

元のレイアウト・画像・書式は完全に保持されます。透明なテキスト層を重ねるだけで、検索・コピー・スクリーンリーダーが問題なく機能します。

Proユーザー優先キュー

Proユーザーは標準キューを完全にバイパス。1ページのOCRジョブは3秒以内に完了し、複数ページはページを並列処理してほぼ即時に完了。

ゼロ知識プライバシー

転送時はTLS 1.3、ジョブごとに分離されたコンテナ、1時間以内(無料)または72時間以内(有料)に自動削除。文書の内容を読んだり保存したり共有したりすることは一切ありません。

Word・TXTエクスポート(Pro)

検索可能なPDFを超えて。OCR結果を.docx形式でWordに書き出したり、インデックス作成・翻訳・コンテンツ管理用に.txtとしてエクスポートできます。

使い方 — 3つの簡単なステップ

一度アップロードするだけで、数秒で完全にインデックス化されたアクセシブルなPDFが完成。

1

スキャンPDFをアップロード

ドラッグ&ドロップまたはクリックして選択。契約書・請求書・書籍・フォーム・カメラ撮影など、あらゆるPDFを受け付けます。アカウント不要。

無料:10 MB · 2ページ
2

OCRエンジンがページを処理

各ページは傾き補正・ノイズ除去・言語検出後、多言語文字認識モデルで処理されます。テキスト座標は元のジオメトリにマッピングされます。

言語自動検出
3

検索可能PDFをダウンロード

完全に埋め込まれた不可視テキスト層を持つ文書が届きます。Ctrl+F検索・コピー&ペースト・スクリーンリーダーがどこでも機能します。

Pro:.docx・.txtも可

OCR PDFの活用場面

毎日、多くの業界のプロフェッショナルが正確なOCRを活用してスキャン文書内のデータを活用しています。

⚖️

法律専門家

スキャンされた裁判所の申請書・陳述書・契約書を検索可能なPDFに変換し、事件準備中のキーワード検索や引用参照を高速化。

🏥

医療・ヘルスケア

手書きまたは印刷された患者記録・検査結果・処方箋をデジタル化し、EHRシステムやコンプライアンス監査にアクセスしやすくする。

📚

学術研究

スキャンされた学術論文・歴史的資料・図書館書籍からテキストを抽出し、全文検索・引用管理・NLP分析を可能に。

🏢

財務・会計

請求書・レシート・銀行明細・税務書類をOCRして会計ソフトへのデータ入力を自動化し、コストのかかる手動転記ミスを解消。

🌍

多言語文書

100以上のOCR対応言語で、外国語の契約書・移民書類・国際文書を安心して処理。

🏗️

建築・エンジニアリング

スキャンされた設計図や技術図面から仕様・部品番号・寸法を抽出し、改定管理やBIMワークフローに統合。

よくある質問

SmallPDF.usのOCR PDFについて知っておくべきこと

OCR(光学文字認識)はPDFの各ページを画像として扱い、複数段階のパイプラインを実行します:傾き補正・ノイズ除去・コントラスト正規化、そしてピクセルパターンをUnicode文字にマッピングするディープラーニング文字認識モデル。再構成されたテキストは元の視覚コンテンツ上に不可視の層として埋め込まれ、元のレイアウトを1ピクセルも変えることなく文書を完全に検索・コピー可能にします。

テキストのスキャン画像を含むPDF — フラットベッドスキャナの文書・PDFとして保存されたカメラ写真・ファックス・印刷フォーム・アーカイブマイクロフィルムスキャン — はすべてOCRの恩恵を受けます。PDFにすでに選択可能なテキストが含まれている場合(単語をハイライトできる場合)、それはネイティブPDFであり、OCRは不要です。

300 DPI以上のクリーンで高解像度のスキャンでは、標準的なラテン文字の文書で98〜99%の文字精度を達成します。精度はスキャン品質によって異なります:ぼやけた・低コントラスト・ひどく歪んだ画像はスコアが低くなります。手書きテキストは部分的にサポートされていますが、印刷テキストより大幅に難しいです。

プライバシーはSmallPDF.usの構築における基本です。すべてのアップロードはTLS 1.3暗号化を経由します。ファイルはジョブ完了直後に破棄される分離された使い捨てコンテナで処理されます。無料プランのファイルは1時間以内に完全削除され、有料プランのファイルは24〜72時間以内に削除されます。文書の内容を読んだりインデックス化したり共有・販売・保持することは一切ありません。

OCRエンジンは英語・スペイン語・フランス語・ドイツ語・イタリア語・ポルトガル語・オランダ語・ロシア語・アラビア語・中国語(簡体字・繁体字)・日本語・韓国語・ヒンディー語など100以上の言語をサポートしています。言語はページのサンプルから自動検出されますが、有料ユーザーは手動で言語を指定することもできます。

無料プランユーザーはOCRジョブあたり最大2ページを処理できます。ProおよびAgencyプランユーザーは1回のジョブで無制限ページ数のPDFをOCRでき、バッチOCRで最大10ファイルを一度に送信できます。

無料ユーザーは検索可能なPDF(Ctrl+F検索・コピー&ペースト・アクセシビリティツールを可能にする不可視テキスト層付き)を受け取ります。ProおよびAgencyユーザーは、書式付き.docx Wordドキュメントまたはデータパイプライン・翻訳ツール・CMSに対応した.txtファイルとしてエクスポートすることもできます。

光学文字認識は計算集約的で、各ページには前処理と推論のためにかなりのGPU時間が必要です。すべてのユーザーに対してサービスを高速で信頼性高く維持するために、1日1回の無料OCRを提供しています。無制限のOCR実行・優先キュー・大きなファイルサポート・バッチ処理のためにProにアップグレードしてください。

OCRとは何か、なぜPDFに必要なのか

OCR(光学文字認識)は、フラットな画像ベースのPDFとライブでインタラクティブな文書の間のギャップを埋める技術です。紙の契約書をスキャンしたり、レシートを写真に撮ったり、印刷されたレポートをPDFとして保存したりすると、ファイルは本質的に画像になります — コンピュータはピクセルパターンを見ており、文字を見ていません。OCRがそれを変えます。

結果は<strong>検索可能なPDF</strong>:元のものと視覚的に同一ですが、画像の下に不可視の完璧に整列されたテキスト層があります。200ページの契約書をCtrl+F検索したり、段落をハイライトしてコピーしたり、アクセシビリティツールで視覚障害のある読者にコンテンツを読み上げてもらったりできます。

SmallPDF.usが正確なOCR結果を提供する方法

文書処理の精度は妥協できません。OCRパイプラインは4つの明確に定義されたステージを経ます。まず<strong>前処理</strong>:各ページは回転・ノイズ・コントラストについて分析され、テキスト領域と非テキスト図形に分割されます。次に<strong>言語検出</strong>:サンプルスキャンがラテン・キリル・アラビア・CJKまたは100以上の対応スクリプトのいずれかで作業しているかを識別します。第3に<strong>認識エンジン</strong>が類似のグリフを区別するためにコンテキスト言語モデルを使用して文字ごとの分析を実行します。最後に<strong>後処理</strong>がPDFにテキスト層を埋め込む前に正しいスペース・ハイフネーション・段落構造で単語と文章を再構成します。

最適な結果のために、原本文書は均一な照明で300 DPI以上でスキャンされていることを確認してください。150 DPI以下の文書・重いバックグラウンドテクスチャ・極端な傾きは精度が低下する可能性があります。いずれの場合も、PDFの元の視覚コンテンツは完全に変更されません — 不可視の検索可能なテキスト層だけが上に追加されます。

PDFを検索可能にする準備はできましたか?

スキャンされたPDFをドロップするだけで、数秒で完全にインデックス化されたコピー可能な文書が完成。無料で永続的に使用でき、登録不要。