OCR PDF — Extraire le texte de tout document scanné
Transformez les PDFs basés sur des images, scannés ou capturés par caméra en documents entièrement consultables et copiables. 100+ langues. Aucune installation. Résultats en secondes.
Télécharger un PDF scanné
Glisser-déposer ou cliquer pour parcourir — fichiers PDF uniquement
Gratuit : 10 Mo · 2 pages · 1/jour | Pro : 100 Mo+ · Pages illimitées · OCR par lots
Pourquoi l'OCR SmallPDF.us se démarque
Construit sur des années d'expérience en traitement de documents, notre pipeline OCR a été conçu de zéro pour la précision, la confidentialité et la diversité réelle des documents.
Précision de reconnaissance 98–99 %
La reconnaissance multi-passes gère les polices mixtes, les pages pivotées, les scans dégradés et les mises en page à plusieurs colonnes. Les documents sources propres en 300 DPI+ atteignent constamment une précision quasi humaine.
100+ langues détectées automatiquement
Latin, cyrillique, arabe, hébreu, CJK (chinois, japonais, coréen), devanagari, thaï et plus — le bon modèle de caractères est appliqué automatiquement par page.
PDF consultable non destructif
Votre mise en page originale, vos images et votre formatage sont parfaitement préservés. Nous superposons une couche de texte transparente et alignée au pixel près pour que la recherche, la copie et les lecteurs d'écran fonctionnent parfaitement.
File d'attente prioritaire pour les utilisateurs Pro
Les utilisateurs Pro contournent entièrement la file d'attente standard. Les jobs OCR d'une seule page se terminent en moins de 3 secondes ; les batches multi-pages traitent les pages en parallèle pour un résultat quasi instantané.
Confidentialité zéro connaissance
TLS 1.3 en transit, conteneurs de calcul isolés par job, suppression automatique en 1 heure (gratuit) ou 72 heures (payant). Nous ne lisons, stockons ni partageons jamais le contenu de votre document.
Export Word et TXT (Pro)
Allez au-delà du PDF consultable. Exportez les résultats OCR en .docx pour l'édition dans Word, ou en .txt pour les pipelines d'indexation, de traduction et de gestion de contenu.
Comment ça marche — 3 étapes simples
Téléchargez une fois, obtenez un PDF entièrement indexé et accessible en secondes.
Téléchargez votre PDF scanné
Glissez-déposez ou cliquez pour parcourir. Nous acceptons tout PDF — contrats, factures, livres, formulaires, photos. Aucun compte nécessaire.
Gratuit : 10 Mo · 2 pagesLe moteur OCR traite les pages
Chaque page est redressée, débruitée, détectée en langue et traitée par notre modèle de reconnaissance de caractères multilingue. Les coordonnées de texte sont remappées sur la géométrie originale.
Détection automatique de la langueTéléchargez le PDF consultable
Recevez votre document avec une couche de texte invisible entièrement intégrée. La recherche Ctrl+F, le copier-coller et les lecteurs d'écran fonctionnent maintenant partout.
Pro : aussi .docx & .txtQui utilise l'OCR PDF — et pourquoi
Chaque jour, des professionnels de dizaines de secteurs s'appuient sur un OCR précis pour déverrouiller les données enfouies dans leurs documents scannés.
Professionnels juridiques
Convertir les dépôts de tribunal scannés, les dépositions et les contrats en PDFs consultables pour une recherche rapide de mots-clés et des références de citations lors de la préparation des dossiers.
Santé & Médical
Numériser les dossiers patients manuscrits ou imprimés, les résultats de laboratoire et les prescriptions — les rendant accessibles aux systèmes DSE et aux audits de conformité.
Recherche académique
Extraire le texte d'articles de revues scannés, d'archives historiques et de livres de bibliothèque pour activer la recherche en texte intégral, la gestion des citations et l'analyse NLP.
Finance & Comptabilité
OCR des factures, reçus, relevés bancaires et documents fiscaux pour automatiser la saisie de données dans les logiciels comptables et éliminer les erreurs de transcription manuelle coûteuses.
Documents multilingues
Traiter des contrats en langue étrangère, des papiers d'immigration ou de la correspondance internationale en toute confiance dans 100+ langues OCR prises en charge.
Ingénierie & Architecture
Extraire les spécifications, numéros de pièces et mesures des plans et dessins techniques scannés pour le suivi des révisions et l'intégration du workflow BIM.
Questions fréquemment posées
Tout ce que vous devez savoir sur l'OCR PDF sur SmallPDF.us
L'OCR (Reconnaissance Optique de Caractères) traite chaque page de votre PDF comme une image et la fait passer par un pipeline en plusieurs étapes : redressement, suppression du bruit, normalisation du contraste, puis un modèle de reconnaissance de caractères par apprentissage profond qui mappe les motifs de pixels sur des caractères Unicode. Le texte reconstruit est intégré comme une couche invisible sur les visuels originaux, rendant le document entièrement consultable et copiable sans changer un seul pixel de la mise en page originale.
Tout PDF contenant des images scannées de texte — documents d'un scanner à plat, photos de caméra sauvegardées en PDF, fax, formulaires imprimés ou scans de microfilms d'archives — bénéficiera de l'OCR. Si votre PDF contient déjà du texte sélectionnable (c'est-à-dire que vous pouvez surligner des mots), c'est un PDF 'natif' et l'OCR n'est pas nécessaire.
Pour des scans propres et haute résolution à 300 DPI ou plus, notre moteur atteint régulièrement 98–99 % de précision des caractères sur les documents à script latin standard. La précision varie naturellement avec la qualité du scan : les images floues, à faible contraste ou fortement déformées obtiendront des scores inférieurs. Le texte manuscrit est partiellement pris en charge mais est nettement plus difficile que le texte imprimé.
La confidentialité est fondamentale dans la façon dont nous avons construit SmallPDF.us. Chaque téléchargement transite par le chiffrement TLS 1.3. Votre fichier est traité dans un conteneur de calcul isolé à usage unique qui est détruit immédiatement après la fin de votre job. Les fichiers du plan gratuit sont définitivement supprimés en 1 heure ; les fichiers payants en 24–72 heures. Nous ne lisons, indexons, partageons, vendons ni conservons jamais le contenu de votre document.
Notre moteur OCR prend en charge 100+ langues dont l'anglais, l'espagnol, le français, l'allemand, l'italien, le portugais, le néerlandais, le russe, l'arabe, le chinois (simplifié et traditionnel), le japonais, le coréen, l'hindi et bien d'autres. La langue est auto-détectée à partir d'un échantillon de la page, mais les utilisateurs payants peuvent aussi spécifier une langue manuellement.
Les utilisateurs du plan gratuit peuvent traiter jusqu'à 2 pages par job OCR. Les utilisateurs des plans Pro et Agency peuvent faire l'OCR de PDFs avec un nombre de pages illimité en un seul job, et peuvent également soumettre jusqu'à 10 fichiers à la fois via l'OCR par lots.
Les utilisateurs gratuits reçoivent un PDF consultable — visuellement identique à l'original mais avec une couche de texte invisible intégrée qui permet la recherche Ctrl+F, le copier-coller et les outils d'accessibilité. Les utilisateurs Pro et Agency peuvent également exporter le texte extrait en document Word .docx formaté ou en fichier .txt brut pour les pipelines de données, les outils de traduction ou les systèmes de gestion de contenu.
La reconnaissance optique de caractères est informatiquement intensive — chaque page nécessite un temps GPU significatif pour le prétraitement et l'inférence. Nous fournissons 1 OCR gratuit par jour pour maintenir le service rapide et fiable pour tous les utilisateurs. Passez à Pro pour des exécutions OCR illimitées, l'accès à la file d'attente prioritaire, la prise en charge de fichiers plus grands et le traitement par lots.
Qu'est-ce que l'OCR et pourquoi votre PDF en a-t-il besoin ?
L'OCR (Reconnaissance Optique de Caractères) est la technologie qui comble le fossé entre un PDF plat basé sur des images et un document vivant et interactif. Lorsque vous scannez un contrat papier, photographiez un reçu ou enregistrez un rapport imprimé en PDF, le fichier est essentiellement une image — l'ordinateur voit des motifs de pixels, pas des lettres. L'OCR change cela.
Le résultat est un <strong>PDF consultable</strong> : visuellement identique à l'original, mais avec une couche de texte invisible et parfaitement alignée sous les images. Vous pouvez maintenant rechercher dans un contrat de 200 pages avec Ctrl+F, surligner et copier un paragraphe, ou laisser les outils d'accessibilité narrer le contenu aux lecteurs malvoyants. Les utilisateurs Pro vont plus loin en téléchargeant le texte extrait sous forme de <strong>fichier Word .docx</strong> éditable ou de <strong>fichier .txt</strong> brut.
Comment SmallPDF.us délivre des résultats OCR précis
La précision dans le traitement des documents est non négociable. Notre pipeline OCR passe par quatre étapes bien définies. Premièrement, le <strong>prétraitement</strong> : chaque page est analysée pour la rotation, le bruit, le contraste et segmentée en régions de texte et figures non textuelles. Deuxièmement, la <strong>détection de la langue</strong> : un scan échantillon identifie si vous travaillez en latin, cyrillique, arabe, CJK ou un autre des 100+ scripts pris en charge. Troisièmement, le <strong>moteur de reconnaissance</strong> effectue une analyse caractère par caractère. Enfin, le <strong>post-traitement</strong> reconstruit les mots et phrases avant d'intégrer la couche de texte dans votre PDF.
Pour des résultats optimaux, assurez-vous que votre document source a été scanné à 300 DPI ou plus avec un éclairage uniforme et sans ombres. Les documents à 150 DPI ou moins, les textures de fond lourdes ou l'inclinaison extrême peuvent produire une précision inférieure. Dans tous les cas, les visuels originaux de votre PDF restent complètement intacts.
Prêt à rendre votre PDF consultable ?
Déposez n'importe quel PDF scanné et obtenez un document entièrement indexé et copiable en secondes. Gratuit pour toujours, sans inscription.