3-waysin-which-law-firms-benefit-when-translators-use-cat-tools

Trados Studioによる全角・半角文字の自動認識

こんにちは、SDLジャパンの土田です。こちらのブログで、Trados Studioを中心としたSDL製品の技術的な情報をお届けしています。

Trados Studio 2017および2019に、「文字幅の違いについて一致を取得(アジアの原文言語)」というオプションが追加されたことをご存知でしょうか。

ご存知のように、日本語環境においてはカタカナや英数字に対して「全角」と「半角」の違いが存在します。たとえば「アメリカ」と「アメリカ」は同じ文字であるにも関らず、コンピューター上では違う文字と認識されていました。それは従来のTrados Studioでも同様です。

しかしこのオプションによって、Trados Studioは同じ文字に対する半角・全角の違いを識別できるようになりました。つまり、翻訳メモリ(TM)に登録済みの原文と翻訳対象の原文を比較する際に、半角・全角違いの文字同士を共通のものとして認識するよう改善されたのです。

これは、日本語の原文に対して特別に実装された新機能です。

先日もSDL Communityで、海外のユーザーから「このオプションはどのような機能なのか」というご質問を頂きましたので、今回はこちらについてご紹介します。


半角カタカナと全角カタカナの違い

まず、半角カタカナと全角カタカナの例でご説明します。

2019-08-14_1

TM内には「彼はアメリカ生まれです。」という原文が登録されており、翻訳対象の原文は「彼はアメリカ生まれです。」というものだったとします。両者の違いは「アメリカ」というカタカナの単語が全角か半角かというだけです。

ここで、[プロジェクトの設定]を開いてみましょう。[言語ペア]>[全ての言語ペア]>[ペナルティ]の画面に、[文字幅の違いについて一致を取得(アジアの原文言語)]という項目があります。

2019-08-14_2

こちらは既定では有効であり、ペナルティの値は「1」に設定されています。こちらの項目が無効になっている時と、既定の状態で有効(ペナルティ:1)になっている時を比較してみましょう。

2019-08-14_3_1

オプションの無効時は、「アメリカ」と「アメリカ」が完全に違う文字として認識され、73%との一致率となってしまいました。

2019-08-14_3_2

それに対してオプションを有効にした場合、両者は同じ文字として判断されます。文字幅のみの差異についてペナルティとして一致率が1%下げられ、結果として「99%の一致」として表示されています。

「ドライバ」と「ドライバ」、あるいは「パートナーシップ」と「パートナーシップ」といったような、濁点・半濁点が混じったカタカナ単語であっても、このオプションは問題なく機能します。


半角アルファベットと全角アルファベットの違い

次は、半角アルファベットと全角アルファベットの例を見てみましょう。

2019-08-14_4

TM内には「Trados Studio 2019を使っています。」という原文が登録されており、翻訳対象の原文は「Trados Studio 2019を使っています。」というものだったとします。

TMの原文に含まれている半角アルファベット、半角数字、半角スペースが、翻訳対象の原文においてはすべて全角で入力されています。

こちらについても、オプションの無効時と有効時でTMの一致を比較してみましょう。

2019-08-14_5_1

オプションの無効時は、「Trados Studio」と「Trados Studio」が完全に違う文字として認識されたために、一致率が70%を下回ってしまい、「TMからの一致なし」と判断されてしまいました。

2019-08-14_5_2

それに対してオプションの有効時は両者が同じ文字列として認識され、同様に文字幅の際に対して1%のペナルティがかかった状態で「99%の一致」として判定されました。

ここで「2019」および「2019」という文字幅違いの数字に関しては、また別の説明が必要になります。

それぞれは認識済みトークン(固定要素)となるため、オプションの有無に関らず自動置換の対象となります。日本語の原文に「2019」という全角数字が含まれていた、訳文言語が英語などのヨーロッパ言語であれば、自動的にローカライズされて「2019」という半角数字に置き換わります。

もちろん、TMの設定で数字を認識済みトークン(固定要素)の対象外とした場合、「2019」と「2019」の差異はこれまで見てきたカタカナやアルファベットの全角・半角と同様に取り扱われます。

認識済みトークン(固定要素)の種類を変更するには、翻訳メモリの[設定]より[フィールドと設定]の画面を開きます。

2019-08-14_6

[次を認識する]のそれぞれの項目を適宜変更してください。


ペナルティを0にした場合

「文字幅の違いについて一致を取得(アジアの原文言語)」のオプションはデフォルトで有効であり、その際に追加されるペナルティは1%と設定されています。

それでは、この値を0にしてみたらどうなるでしょう。

2019-08-14_7

一致率が差し引かれることはありませんので、99%とはならず、100%一致あるいはコンテキスト一致(CM)が適用されることになります。

2019-08-14_8 

こちらの機能はTrados Studio 2017 SR1 CU15以降およびTrados Studio 2019 SR1 以降で利用可能です。

日本語が原文の場合であっても、Trados Studioは柔軟に機能改善されています。