pdf

SDL Trados StudioでPDFを翻訳する方法


SDLのウェブサイトで常に高い人気を誇るブログ投稿の1つが、Emma Goldsmithが寄稿するこの記事です。スキャンしたPDFの翻訳方法を説明しているのですが、これが一般的でありながら面倒な作業でもあることがわかります。

Emmaの役に立つ投稿に加え、SDLは最近、プロジェクトマネージャーを対象とした操作手順に関するビデオページも新たに開設しました。ここでは、PDF、JSON、PO、InDesign、XMLなどの複雑なファイルの作業方法について解説する短いビデオをいろいろご覧いただけます。

プロジェクトマネージャー向けの操作手順に関する新しいビデオページにアクセスし、さまざまなファイルを簡単に扱える方法をご確認ください。

______________________________________________________________________________________

もし読者の方が私と同じく翻訳者であるならば、PDFよりもWordドキュメントで翻訳したいと考えていることでしょう。PDFが受信トレイに届いた日は、作業に時間を要し、最終データになってもまだ修正が必要になるだろうと覚悟するでしょう。1人の翻訳者として、SDL Trados StudioでのPDFファイル処理をより簡単にするヒントを他の翻訳者の方々にもご紹介したいと思います。


PDFとはどういうもので、スキャンしたファイルと編集可能なファイルの違いは何でしょうか?

PDFはPortable Document Formatの略語であり、デバイスや使用するプログラムに関係なく、開いたときにまったく同じコンテンツとレイアウトが表示されるファイルです。ドキュメントの作者にとっては好都合ですが、翻訳者にとってはそれほど歓迎できるものではありません。

PDFドキュメントは編集可能なものか、スキャンしたものかのどちらかになります。編集可能なPDFにはテキストレイヤーがあり、SDL Trados Studio 2011以降で処理できます。スキャンしたPDFはページ全体のイメージにすぎず、電子テキスト文字が使用されていません。このようなPDFは、光学文字認識(OCR)を実行してテキストを抽出するエンジンが組み込まれているSDL Trados Studio 2015以降で処理できます。

これら2種類のPDFは簡単に見分けることができます。ファイルをPDFリーダーで開きます。編集可能なPDFである場合、単語または段落の選択、コピー、貼り付けのみを実行できます。

言語などの制限事項

PDFファイル向けに使用されるSDL Trados StudioのOCRエンジンは、Solid Documentsテクノロジーを使用しています。OCRテクノロジーは辞書をベースにしているため、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、イタリア語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スウェーデン語、トルコ語といった特定の言語で使用可能です。

原文のテキストが前述の言語のいずれかに該当する必要があります。変換を適切に行うために、イメージの品質も高くなければなりません。次のような歪んだテキスト、不鮮明な画像、汚れの付着、手書きなどはすべて適用できません。

scan-1

scan-2

PDFが上図のいずれかのような場合(共に実例)、Wordの音声認識ソフトウェアで原文の口述筆記をしてから、SDL Trados StudioでWordファイルにて翻訳することをお勧めします。

翻訳前に出力結果をプレビュー

下記のようにかなり品質の良いPDFを受け取ったとします。

scan-3
次のステップは、SDL Trados Studioでのファイルのテストです。SDL Trados Studio 2019の[ようこそ]ビューにPDFをドロップするだけです。

drag-and-drop

次のウィンドウで、[詳細設定]をクリックします。

advanced-setting

左側で、[ファイルの種類]、[PDF]、[コンバータ]の順に選択し、[参照]をクリックしてファイルをプレビューします。

project-template-settings

これによりファイルの体裁をエディタウィンドウですばやくプレビューできます。同時に、ファイルもdocx形式でPDFのフォルダに保存されます。

翻訳をそのまま続けるか、あるいは書式設定を実行し、原文をWordファイルのレイアウトにしてから、元のPDFファイルではなくWordファイルをSDL Trados Studioで翻訳するかを判断します。

ファイル形式プレビューでは、プロジェクトの翻訳メモリの分節設定ではなく、標準的な分節規則が使用されます。また、ファイル形式プレビューは、ファイルをプロジェクトに追加した場合は使用できません。ようこそビューからファイルを開いた場合にのみ、プロジェクトの設定オプションと通常オプションで使用できます。

SDL Trados Studio 2015には、ファイルプレビュー機能自体が存在しません。代替策として、エディタでPDFを開き、Ctrl+shift+Pを押して原文ファイルを表示し、Wordで保存することができます。

PDFファイル形式のOCR変換とWordオプション

SDL Trados Studio 2019のプレビューのメリットは、PDFファイル形式設定(スクリーンショットを参照)でファイルがどう処理されるかを確認できる点です。私は通常[レイアウト]を[フロー]に設定します。出力されるのは基本的なものですが、箇条書きの文字、太字などの書式は正しく設定されます。

私はイメージを削除しますが、必要であればイメージを残すことも変換することもできます。ヘッダーとフッターは適切に処理されますが、ここでは削除をしておいて訳文Wordファイルに手動で追加したほうが簡単な場合もあります。

表の検出]は必要です。

最後に、SDL Trados Studioでのテキスト認識方法のオプションを設定します。

  • 文字ごと]は、編集可能なテキストとスキャンしたテキスト両方を含む複合PDF用です。
  • 問題のある文字のみ]は、スキャンしたPDF用です([文字ごと]と併用可能です)。
  • なし]は編集可能なPDF用です。

左側のリストに戻ります。[全般設定]([コンバータ]の下には、訳文文書にコメントを追加するオプションを含め、Wordドキュメントの設定オプションがすべて揃っています。

翻訳時の応用

プロジェクトの設定を終了し、翻訳段階になったら、原文テキストの典型的なOCRエラーを探します。一部のフォントでは「1」と「I」や「0」と「o」が非常に似ています(例:2O December 20I6)。間違いが発生しやすい文字の組み合わせもあります。OCR辞書にない固有名詞は特にそうです(例:「Dr Turner」を「Dr Tumer」と誤る)。

しかし、原文分節のエラーは修正可能であることを忘れないでください。修正により原文テキストが改善するばかりでなく、翻訳メモリを今後もさらに有効活用することができます。アクティブな分節で、Alt+F2キーを押し、原文を変更します。

ときには、PDFの変換時に誤った強制改行(段落記号)が追加され、1文が2つの分節に分割される場合があります。SDL Trados Studio 2019では、このような分節を簡単に結合できます。Alt+Shift+下矢印キーをクリックし、列の数字の部分で右クリックし、[分節の結合]を選択するだけです。このオプションが灰色で表示されている場合は、プロジェクトの設定に移動し、スクリーンショットのように[原文の編集]と[分節の結合]をオンにします。

project-settings

最後に、Shift+F12キーを押し、訳文文書を保存します。PDFとしては保存できませんが心配は無用です。訳文ファイルはWordのdocx形式になります。

編集可能なPDF

編集可能なPDFの翻訳は順調に進みます。前述のように、ほとんどのバージョンのSDL Trados Studioが編集可能なPDFのインポートに対応しています。多くの場合、SDL Trados StudioでWordに変換するほうがWord自体で開くよりもうまくいくことがあります(Word 2013以降で可能)。SDL Trados Studioで行うほうが、ヘッダーとフッターの挿入の信頼性が高く、太字の書式設定が適切で、行の先頭に余分な段落記号が追加されません。

PDFと価格設定

PDFファイル形式の作業は改善していますが、それでもPDFの翻訳にはネイティブファイル形式よりも時間がかかります。原文の単語数を正確に把握することはさらに困難です。可能ならば時間給を設定するか、または訳文の最終単語数をより高いレートで設定するよう依頼することをお勧めします。

最後のアドバイスとして、扱いにくいPDFを受け取った場合は、クライアントに元のファイルを要求することをお勧めします。SDL Trados Studioでは非常に多くのファイル形式を処理できるため、自分のコンピュータにネイティブプログラムがなくてもSDL Trados Studioで処理することが可能です。

SDL Trados Studio用のIRIS PDF OCR Supportアプリを使用すると、スキャンしたPDFを130以上の言語で翻訳できます。

empty