pdf

Traduire un document PDF à l'aide de SDL Trados Studio


La traduction des documents PDF numérisés est une tâche aussi courante que complexe. Le billet de blog à ce sujet, rédigé par Emma Goldsmith, est l'une des pages les plus consultées sur notre site Web.

Outre le billet de blog pratique d'Emma, nous avons récemment créé une nouvelle page de guides vidéo conçue pour les chefs de projet. Vous y trouverez une sélection de courtes vidéos qui expliquent comment traiter les fichiers complexes tels que les documents PDF, JSON, PO, InDesign, XML et plus encore.

Rendez-vous sur notre nouvelle page de guides vidéo pour les chefs de projet ici pour découvrir comment travailler facilement avec différents fichiers.

______________________________________________________________________________________

Personnellement, je préfère traduire des documents Word classiques. Quand on nous demande de traduire un PDF, on sait que cela va prendre plus de temps et que parfois, le fichier final devra être retravaillé. Voici quelques conseils utiles d'un traducteur pour traiter les fichiers PDF dans SDL Trados Studio et pour vous faciliter un peu le travail.


Qu'est-ce qu'un PDF et quelle est la différence entre un fichier numérisé et un fichier modifiable ?

Le sigle PDF veut dire Portable Document Format. Ce format permet d'afficher exactement le même contenu, avec la même présentation, quel que soit l'appareil et le programme utilisé pour ouvrir le fichier. Si cela présente un avantage pour l'auteur du document, ce n'est pas vraiment le cas pour le traducteur.

Les documents PDF sont soit numérisés, soit modifiables. Les PDF modifiables ont des calques de texte et peuvent être traités dans Studio 2011 et les versions plus récentes. Les fichiers PDF numérisés sont de simples images d'une page qui ne contiennent aucun caractère de texte électronique. Ils peuvent être traités dans Studio 2015 et les versions plus récentes car elles possèdent une fonctionnalité de reconnaissance optique de caractères (OCR) qui extrait le texte.

Il est facile de différencier ces deux types de PDF. Ouvrez votre fichier avec un lecteur PDF. Si vous pouvez sélectionner, copier et coller un mot ou un paragraphe du document, il s'agit d'un PDF modifiable.

Limitations dans les langues et autres problèmes

Le moteur OCR utilisé par SDL Trados Studio pour les fichiers PDF repose sur la technologie Solid Documents. La technologie OCR fonctionne grâce à un dictionnaire, c'est pourquoi elle n'est disponible que dans certaines langues : le danois, le néerlandais, l'anglais, le finlandais, le français, l'allemand, l'italien, le norvégien, le polonais, le portugais, le russe, l'espagnol, le suédois et le turc.

Le texte source doit donc être dans l'une de ces langues. En outre, pour que le document PDF soit convenablement converti, la qualité de l'image doit être bonne. Un texte déformé, flou, pâle, taché ou écrit à la main ne pourra pas être converti :

numérisation-1

numérisation-2

Si votre document PDF ressemble à l'un des exemples ci-dessus (qui sont des exemples réels), je vous conseille de dicter le document source dans Word à l'aide d'un logiciel de reconnaissance vocale, puis de traduire ce fichier Word dans Studio.

Obtenir un aperçu avant de débuter la traduction

Supposons que vous ayez un document PDF numérisé d'assez bonne qualité, comme le document ci-dessous :

numérisation-3
L'étape suivante consiste à le tester dans Studio. Dans Studio 2019, il vous suffit de déposer le PDF dans l'affichage Bienvenue.

glisser-déposer

Dans la fenêtre suivante, cliquez sur Avancé.

paramètres-avancés

À gauche, cliquez sur Types de fichiers>PDF>Convertisseur puis sur Parcourir pour obtenir un aperçu du fichier.

paramètres-des-modèles-de-projets

Cela permet d'avoir un aperçu de la manière dont se présentera le fichier dans la fenêtre de l'Éditeur et d'enregistrer le fichier au format docx dans le même dossier que le document PDF.

Maintenant, vous avez le choix entre traduire le document tel quel ou bien retravailler la mise en page et la présentation du fichier source au format Word pour ensuite traduire cette version améliorée dans Studio, à la place du document PDF original.

N'oubliez pas que pour un projet, l'aperçu des types de fichiers utilise les règles de segmentation standard et non les paramètres de segmentation de la MT. En outre, l'aperçu des types de fichiers n'est pas disponible en ajoutant un fichier à un projet, mais seulement en ouvrant le fichier dans l'affichage Bienvenue, dans les paramètres du projet et dans les options générales.

Si vous travaillez encore sur Studio 2015, vous n'aurez pas accès du tout à la fonctionnalité d'aperçu. Pour contourner cette difficulté, vous pouvez ouvrir le PDF dans l'Éditeur, puis cliquer sur Ctrl+shift+P pour visualiser et enregistrer le fichier source au format Word.

Conversion OCR et options Word dans le type de fichier PDF

L'avantage de Studio 2019 est que vous pouvez tester les différents paramètres de fichiers PDF (voir la capture d'écran ci-dessus) et voir comment le fichier sera traité si ces paramètres sont appliqués. Généralement, dans la catégorie Présentation je choisis l'option Enchaînement. On obtient ainsi le résultat le plus basique, mais qui reproduit fidèlement le format des puces, des caractères en gras, etc.

Personnellement, je supprime les images, mais il se peut que vous deviez les garder et les convertir, lorsque cela est possible. C'est la meilleure option de traitement des en-têtes et pieds de page, même s'il est parfois plus simple de les effacer à ce stade pour les rajouter plus tard à la main dans le fichier cible au format Word.

Détecter les tableaux est une fonctionnalité essentielle.

La dernière série d'options définit la manière dont Studio va reconnaître le texte.

  • Tout caractère convient aux documents PDF mixtes (contenant à la fois du texte modifiable et du texte numérisé).
  • Caractères à problème uniquement convient aux PDF numérisés (mais vous pouvez aussi utiliser l'option Tout caractère).
  • Aucun ne convient aux PDF numérisés.

Maintenant, revenez à la liste à gauche. Commun (en dessous de Convertisseur) vous propose tous les paramétrages possibles pour les documents Word, y compris les options permettant d'ajouter des commentaires dans le document cible.

Considérations pratiques en cours de traduction

Une fois que vous avez défini les paramètres de votre projet et passez à la phase de traduction, soyez attentifs aux erreurs classiques d'un OCR qui peuvent se glisser dans le texte source. Dans certaines polices, les « 1 » et les « I » se ressemblent beaucoup, tout comme les « 0 » et les « o » (exemple : 2O décembre 20I6). Il arrive aussi que certaines combinaisons de lettres soient mal interprétées, surtout dans les noms propres qui ne figurent pas dans le dictionnaire de l'OCR (par exemple « Dr Tumer » au lieu de « Dr Turner »).

N'oubliez pas que vous pouvez modifier les segments source pour corriger les erreurs. Cela permet d'améliorer le texte source, mais aussi de mieux exploiter vos MT, dès à présent et dans le futur. Dans le segment actif, cliquez sur Alt+F2 pour modifier la source.

Parfois, la conversion de fichiers PDF génère de faux retours de chariot (marques de paragraphe) ce qui entraîne le découpage d'une phrase en deux segments. Dans Studio 2019, vous pouvez facilement fusionner ce type de segments. Pour cela, appuyez sur Alt+Shift+Flèche du bas, faites un clic droit dans la colonne des numéros, puis sélectionnez Fusionner les segments. Si cette option est grisée, allez dans les paramètres du projet et vérifiez que les options de modification de la source et de fusion des segments sont activées comme dans l'écran ci-dessous :

paramètres-du-projet

Pour terminer, lorsque vous allez enregistrer votre document cible en appuyant sur Shift+F12, ne vous affolez pas si vous ne pouvez pas l'enregistrer au format PDF. Le fichier cible sera au format Word docx.

PDF modifiables

Traduire des documents PDF modifiables est un jeu d'enfant. Comme nous l'avons déjà vu plus tôt, la plupart des versions de Studio permettent d'importer des fichiers PDF modifiables. Vous verrez d'ailleurs que Studio convertit mieux ce type de fichiers que si vous les ouvrez dans MS Word (cette fonctionnalité est disponible dans Word 2013 et les versions plus récentes). Studio reproduit plus fidèlement les en-têtes et les pieds de page, conserve mieux les caractères en gras et n'ajoute pas d'espace avant chaque marque de paragraphe en début de ligne.

PDF et tarification

Malgré les avancées dans le traitement des fichiers PDF, la traduction de ces derniers prend plus de temps que la traduction de fichiers aux formats natifs. Il est aussi plus difficile d'obtenir un compte exact de mots source. Si possible, je conseille de facturer ce type de traduction à l'heure ou, à défaut, au compte final de mots cible avec un tarif plus élevé.

Un dernier conseil si vous avez affaire à un document PDF particulièrement coriace : demandez au client le fichier original. Studio prend en charge une immense variété de formats de documents. Ainsi, même si vous ne possédez pas le programme natif, vous pourrez sans doute traiter le fichier dans Studio.

Traduisez des fichiers PDF numérisés dans plus de 130 langues grâce à l'application IRIS PDF OCR Support pour SDL Trados Studio.

empty