pdf

如何使用 SDL Trados Studio 翻译 PDF 文件


我们网站备受欢迎的博客文章之一是 Emma Goldsmith 写的一篇关于如何轻松翻译扫描版 PDF 文件的文章,这篇文章显示了 PDF 文件是多么的常用,但又是多么的棘手。

除了 Emma 实用的博客文章外,我们最近还为项目经理新建了一个技巧视频页面。在这里,您将找到一些简短的视频,它们展示了如何处理复杂的文件,如 PDF、JSON、PO、InDesign、XML 等等。

请在此处访问我们为项目经理新建的技巧视频页面,了解处理不同文件的简单方法。

______________________________________________________________________________________

我喜欢翻译直观的 Word 文档,如果您也是的话。当收到 PDF 文件时,这意味着您要花费更多时间进行翻译,有时在完成后还要进一步修改。以下是一些译员对在 SDL Trados Studio 中更轻松地处理 PDF 文件的建议。


何为 PDF?扫描文件和可编辑文件之间的区别是什么?

PDF 是“便捷式文件格式”的首字母缩写,意即不论使用何种设备或程序在何处打开文件,文件都会准确显示相同的内容和排版。这让文档创作人员受益匪浅,但对译员就不是那么一回事了。

PDF 文档分为可编辑版本或扫描版本。可编辑版 PDF 具有文本层,可在 Studio 2011 以上版本中进行编辑。扫描版 PDF 单纯是整页的图像,没有电子文本字符。Studio 2015 以上版本可处理这两种 PDF,因为 Studio 内置的引擎可进行光学字符识别 (OCR) 来提取文本。

区分两种 PDF 十分容易。在 PDF 阅读器中打开文件。只有在可编辑版 PDF 中,您才能选择、复制和粘贴单词或句段。

语言限制和其它无法完成的任务

SDL Trados Studio 中用于 PDF 文件类型的 OCR 引擎由 Solid 文档技术提供支持。OCR 技术基于词典,因此仅适用于特定语言,包括:丹麦语、荷兰语、英语、芬兰语、法语、德语、意大利语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和土耳其语。

您的源文本必须是上述语言之一。此外,OCR 技术还需要清晰的图像才可实现优质转换。歪斜、模糊、暗淡、字迹不清或手写的文本均属于无法完成的任务:

scan-1

scan-2

如果您碰到上述任何一种 PDF(均为现实生活中的例子),那么我建议您使用语音识别软件在 Word 中口述源文件,然后再在 Studio 中翻译此 Word 文件。

翻译前预览输出

假设您拿到了一份清晰的扫描版 PDF,如下所示:

scan-3
接下来就是在 Studio 中试验。在 Studio 2019 中,您只需将此 PDF 放入“欢迎”视图中。

drag-and-drop

在接下来的窗口中,点击“高级”。

advanced-setting

在左侧选择文件类型>PDF>转换器,然后点击“浏览”预览文件。

project-template-settings

这样一来,您可在“编辑器”窗口中快速预览文件样式,并同时保存一份 docx 格式的文件到 PDF 所在文件夹。

现在您可以决定是否要进行下一步,并开始翻译,或者您想完善源 Word 文件中的格式和排版,然后在 Studio 中翻译完善过的 Word 文件而非原先的 PDF。

请牢记,文件类型预览使用标准分段规则,而非项目中的翻译记忆库分段设置。而且当您添加文件至项目时,文件类型预览不可用。只有当您在“欢迎”视图、项目设置和一般选项中打开文件时才可用。

Studio 2015 没有文件预览功能。变通方法是,在“编辑器”中打开 PDF,然后点击 Ctrl+shift+P 在 Word 中查看和保存源文件。

PDF 文件格式中的 OCR 转换和 Word 选项

Studio 2019 预览的魅力在于,您可以尝试不同的 PDF 文件类型设置(参见上面的屏幕截图),预先了解这些设置对文件的影响。我经常设置排版为流畅。这是最基本的排版,项目符号和加粗等格式都正确。

我删掉了图像,但是您可保留图像,可能的话予以转换。页头和页尾也处理得很好。尽管有些时候在目标 Word 文件中删除和添加它们更为简单。

检测表格十分重要。

最后的几个选项说明了 Studio 是如何识别文本的。

  • 每个字符适用于组合 PDF 文档(包括可编辑版 PDF 和扫描版 PDF)。
  • 仅限问题字符适用于扫描版 PDF(您也可使用“每个字符”功能)。
  • 适用于可编辑 PDF 文档。

现在回到左侧的列表。常见功能(在转换器下方)拥有 Word 文档中的所有设置选项,包括在目标文档中添加评论的选项。

翻译实例

完成设置项目进入翻译阶段后,您需要注意源文本中的典型光学字符识别 (OCR) 错误。“1”和“I”以及“0”和“o”在一些字体中看起来十分相似(例如 20I6 年 12 月 2O 日)。特定的字母组合可能会被误判,尤其是 OCR 词典中没有的专有名称,例如“Dr Turner”可能会被当做“Dr Tumer”。

您可以编辑源句段来更正这些错误。这不仅可以改进源文本,还可以让您在现在以及将来更好地利用翻译管理系统。在活动的句段中点击 Alt + F2 修改源文本。

有时在 PDF 的转换过程中会出现硬回车(段落标记)将一句话分成两个句段。Studio 2019 简化了合并句段的流程。您只需点击 Alt+Shift+向下箭头,右击编号列,然后点击“合并句段”。如果此选项不可用,请进入项目设置,按照下方的屏幕截图所示勾选“原文编辑”和“合并句段”选项框:

project-settings

最后当您通过 Shift+F12 保存目标文档之后,请勿担心,文档不会被保存为 PDF 格式。目标文件将会是 Word docx 格式。

可编辑版 PDF

翻译可编辑 PDF 文档非常轻松。正如我之前提到的,大多数版本的 Studio 都可加载可编辑版 PDF。而且您会发现,Studio 将此类型 PDF 转换成 Word 的效果比在 MS Word 中打开进行转换(Word 2013 以上版本具备此功能)的效果要好。Studio 插入的页头和页尾效果更好,可更好地保留加粗格式,且不会在首行的段落符号前增加额外的空格。

PDF 和标价

尽管在 PDF 文件类型上取得了许多进步,但翻译 PDF 文件仍然比原生文件格式要耗时不少。获得准确的字数也更为困难。如果有可能的话,我建议按照小时收费。如果不行,则根据最终的目标字数收取略高一些的费用。

最后一条建议就是如果您遇到了非常棘手的 PDF 文件,请让客户提供原始文件。Studio 可处理众多不同的文件格式,因此,即使您的电脑中没有安装相应的程序,您也可以在 Studio 中处理这些文件。

使用面向 SDL Trados Studio 的 IRIS PDF OCR Support 应用程序,翻译 130 多种语言的扫描版 PDF。

empty