OCR PDF — Text extrahieren aus jedem gescannten Dokument
Wandeln Sie bild- oder scanbasierte PDFs in vollständig durchsuchbare, kopierbare Dokumente um. 100+ Sprachen. Keine Installation. Ergebnis in Sekunden.
Gescanntes PDF hochladen
Ziehen & ablegen oder klicken — nur PDF-Dateien
Kostenlos: 10 MB · 2 Seiten · 1/Tag | Pro: 100 MB+ · Unbegrenzte Seiten · Batch-OCR
Warum SmallPDF.us OCR überzeugt
Aufgebaut auf jahrelanger Dokumentenverarbeitungserfahrung wurde unsere OCR-Pipeline von Grund auf für Genauigkeit, Datenschutz und reale Dokumentenvielfalt entwickelt.
98–99 % Zeichengenauigkeit
Mehrstufige Erkennung verarbeitet gemischte Schriften, gedrehte Seiten, beschädigte Scans und mehrspaltige Layouts. Saubere 300-DPI+-Dokumente erreichen konstant nahezu menschliche Genauigkeit.
100+ Sprachen automatisch erkannt
Latein, Kyrillisch, Arabisch, Hebräisch, CJK (Chinesisch, Japanisch, Koreanisch), Devanagari, Thailändisch und mehr — das richtige Zeichenmodell wird seitenweise automatisch angewendet.
Zerstörungsfreies durchsuchbares PDF
Ihr ursprüngliches Layout, Bilder und Formatierung bleiben vollständig erhalten. Wir fügen eine transparente, pixelgenaue Textebene ein, damit Suche, Kopieren und Screenreader einwandfrei funktionieren.
Prioritätswarteschlange für Pro-Nutzer
Pro-Nutzer umgehen die Standardwarteschlange vollständig. Einseitige OCR-Jobs werden in unter 3 Sekunden abgeschlossen; mehrseitige Batches verarbeiten Seiten parallel für nahezu sofortige Ergebnisse.
Zero-Knowledge-Datenschutz
TLS 1.3 bei der Übertragung, isolierte Compute-Container pro Job, automatische Löschung innerhalb 1 Stunde (kostenlos) oder 72 Stunden (bezahlt). Wir lesen, speichern oder teilen Ihre Dokumentinhalte niemals.
Word- und TXT-Export (Pro)
Gehen Sie über das durchsuchbare PDF hinaus. Exportieren Sie OCR-Ergebnisse als .docx für die Bearbeitung in Word oder als .txt für Indizierungs-, Übersetzungs- und Content-Management-Workflows.
So funktioniert es — 3 einfache Schritte
Einmal hochladen, in Sekunden ein vollständig indiziertes und zugängliches PDF erhalten.
Gescanntes PDF hochladen
Ziehen & ablegen oder klicken zum Durchsuchen. Wir akzeptieren jedes PDF — Verträge, Rechnungen, Bücher, Formulare, Kameraaufnahmen. Kein Konto erforderlich.
Kostenlos: 10 MB · 2 SeitenOCR-Engine verarbeitet Seiten
Jede Seite wird entzerrt, entrauscht, spracherkannt und durch unser mehrsprachiges Zeichenerkennungsmodell verarbeitet. Textkoordinaten werden auf die ursprüngliche Geometrie zurückgemappt.
Automatische SpracherkennungDurchsuchbares PDF herunterladen
Erhalten Sie Ihr Dokument mit einer vollständig eingebetteten, unsichtbaren Textebene. Strg+F-Suche, Kopieren & Einfügen und Screenreader funktionieren jetzt überall.
Pro: auch .docx & .txtWer OCR PDF nutzt — und warum
Täglich verlassen sich Fachleute aus Dutzenden von Branchen auf genaues OCR, um die in ihren gescannten Dokumenten gesperrten Daten zu erschließen.
Juristen & Rechtsanwälte
Gescannte Gerichtsunterlagen, Vernehmungen und Verträge in durchsuchbare PDFs umwandeln für schnelle Stichwortsuche und Zitatreferenzierung bei der Fallvorbereitung.
Gesundheitswesen & Medizin
Handgeschriebene oder gedruckte Patientenakten, Laborbefunde und Rezepte digitalisieren — zugänglich für EHR-Systeme und Compliance-Prüfungen.
Wissenschaftliche Forschung
Text aus gescannten Zeitschriftenartikeln, historischen Archiven und Bibliotheksbüchern extrahieren für Volltextsuche, Zitierverwaltung und NLP-Analysen.
Finanzen & Buchhaltung
Rechnungen, Quittungen, Kontoauszüge und Steuerdokumente per OCR verarbeiten, um die Dateneingabe in Buchhaltungssoftware zu automatisieren und teure manuelle Fehler zu vermeiden.
Mehrsprachige Dokumente
Fremdsprachige Verträge, Einwanderungsunterlagen oder internationale Korrespondenz mit voller Sicherheit in 100+ unterstützten OCR-Sprachen verarbeiten.
Ingenieurwesen & Architektur
Spezifikationen, Teilenummern und Maße aus gescannten Blaupausen und technischen Zeichnungen für Revisionsmanagement und BIM-Workflow-Integration extrahieren.
Häufig gestellte Fragen
Alles, was Sie über OCR PDF auf SmallPDF.us wissen müssen
OCR (Optische Zeichenerkennung) behandelt jede Seite Ihres PDFs als Bild und führt es durch eine mehrstufige Pipeline: Entzerrung, Rauschentfernung, Kontrastnormalisierung, dann ein Deep-Learning-Zeichenerkennungsmodell, das Pixelmuster auf Unicode-Zeichen abbildet. Der rekonstruierte Text wird als unsichtbare Ebene über den ursprünglichen Bildern eingebettet, wodurch das Dokument vollständig durchsuchbar und kopierbar wird, ohne einen einzigen Pixel des ursprünglichen Layouts zu verändern.
Jedes PDF, das gescannte Bilder von Text enthält — Dokumente von einem Flachbettscanner, als PDF gespeicherte Kamerafotos, Faxe, gedruckte Formulare oder archivierte Mikrofilmscans — profitiert von OCR. Wenn Ihr PDF bereits auswählbaren Text enthält (d.h. Sie können Wörter markieren), handelt es sich um ein 'natives' PDF und OCR ist nicht erforderlich.
Für saubere, hochauflösende Scans bei 300 DPI oder mehr erreicht unsere Engine routinemäßig 98–99 % Zeichengenauigkeit bei standardmäßigen lateinschriftlichen Dokumenten. Die Genauigkeit variiert naturgemäß mit der Scanqualität: unscharfe, kontrastarme oder stark verzerrte Bilder erzielen niedrigere Werte. Handgeschriebener Text wird teilweise unterstützt, ist aber deutlich schwieriger als gedruckter Text.
Datenschutz ist grundlegend für die Art, wie wir SmallPDF.us aufgebaut haben. Jeder Upload erfolgt über TLS-1.3-Verschlüsselung. Ihre Datei wird in einem isolierten Einmal-Container verarbeitet, der sofort nach Abschluss Ihres Jobs vernichtet wird. Kostenlose Dateien werden innerhalb von 1 Stunde dauerhaft gelöscht; bezahlte innerhalb von 24–72 Stunden. Wir lesen, indizieren, teilen, verkaufen oder behalten Ihre Dokumentinhalte niemals.
Unsere OCR-Engine unterstützt 100+ Sprachen einschließlich Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Russisch, Arabisch, Chinesisch (Vereinfacht & Traditionell), Japanisch, Koreanisch, Hindi und viele mehr. Die Sprache wird automatisch aus einem Seitenbeispiel erkannt, aber bezahlte Nutzer können auch manuell eine Sprache angeben.
Kostenlose Nutzer können bis zu 2 Seiten pro OCR-Job verarbeiten. Pro- und Agency-Plan-Nutzer können PDFs mit unbegrenzt vielen Seiten in einem einzigen Job per OCR verarbeiten und auch bis zu 10 Dateien auf einmal über Batch-OCR einreichen.
Kostenlose Nutzer erhalten ein durchsuchbares PDF — visuell identisch mit dem Original, aber mit einer eingebetteten, unsichtbaren Textebene, die Strg+F-Suche, Kopieren & Einfügen und Hilfsmittel ermöglicht. Pro- und Agency-Nutzer können den extrahierten Text auch als formatiertes .docx-Word-Dokument oder als rohe .txt-Datei exportieren.
Optische Zeichenerkennung ist rechenintensiv — jede Seite erfordert erhebliche GPU-Zeit für Vorverarbeitung und Inferenz. Wir bieten 1 kostenlosen OCR-Lauf pro Tag an, um den Dienst für alle Nutzer schnell und zuverlässig zu halten. Upgraden Sie auf Pro für unbegrenzte OCR-Läufe, Prioritätswarteschlangenzugang, größere Dateiunterstützung und Batch-Verarbeitung.
Was ist OCR und warum braucht Ihr PDF es?
OCR (Optische Zeichenerkennung) ist die Technologie, die die Lücke zwischen einem flachen, bildbasierten PDF und einem lebendigen, interaktiven Dokument überbrückt. Wenn Sie einen Papiervertrag scannen, eine Quittung fotografieren oder einen gedruckten Bericht als PDF speichern, ist die Datei im Wesentlichen ein Bild — der Computer sieht Pixelmuster, keine Buchstaben. OCR ändert das.
Das Ergebnis ist ein <strong>durchsuchbares PDF</strong>: visuell identisch mit dem Original, aber mit einer unsichtbaren, perfekt ausgerichteten Textebene unter den Bildern. Sie können jetzt einen 200-seitigen Vertrag mit Strg+F durchsuchen, einen Absatz markieren und kopieren oder Barrierefreiheits-Tools den Inhalt für sehbehinderte Leser vorlesen lassen. Pro-Nutzer gehen weiter und laden den extrahierten Text als bearbeitbare <strong>.docx-Word-Datei</strong> oder als rohe <strong>.txt-Datei</strong> herunter.
Wie SmallPDF.us genaue OCR-Ergebnisse liefert
Genauigkeit bei der Dokumentenverarbeitung ist nicht verhandelbar. Unsere OCR-Pipeline durchläuft vier klar definierte Stufen. Erstens <strong>Vorverarbeitung</strong>: Jede Seite wird auf Rotation, Rauschen, Kontrast analysiert und in Textbereiche und Nicht-Text-Figuren segmentiert. Zweitens <strong>Spracherkennung</strong>: Ein Stichprobenscan identifiziert, ob Sie in Latein, Kyrillisch, Arabisch, CJK oder einem anderen der 100+ unterstützten Skripte arbeiten. Drittens führt die <strong>Erkennungs-Engine</strong> zeichenweise Analysen durch. Schließlich <strong>Nachbearbeitung</strong> rekonstruiert Wörter und Sätze vor der Einbettung der Textebene.
Für optimale Ergebnisse stellen Sie sicher, dass Ihr Quell-Dokument mit 300 DPI oder mehr mit gleichmäßiger, schattenfreier Beleuchtung gescannt wurde. Dokumente bei 150 DPI oder darunter, schwere Hintergrungtexturen oder extreme Neigung können zu geringerer Genauigkeit führen. In jedem Fall bleiben die ursprünglichen Bilder in Ihrem PDF vollständig unverändert.
Bereit, Ihr PDF durchsuchbar zu machen?
Legen Sie ein gescanntes PDF ein und erhalten Sie in Sekunden ein vollständig indiziertes, kopierbares Dokument. Dauerhaft kostenlos, keine Anmeldung erforderlich.