
Trados Studio 2019 – 進歩した日本語原文の解析
みなさま、こんにちは。SDLジャパンの土田です。こちらのブログで、Trados Studioを中心としたSDL製品の技術的な情報をお届けしています。
SDL Trados Studioはバージョン2017 SR1より、日本語の原文に対しても構文解析を行う機能を実装しました。この機能によってTrados Studioは原文をセンテンスや段落単位だけでなく、単語や語句単位で解析します。
その結果、翻訳メモリ(TM)に登録された原文と翻訳対象の原文をより精密に対照することが可能になりました。従来のあいまい一致ではヒットしなかったような原文であっても、より細かい文章の単位で一致が見つかるよう改善がなされたのです。
これは非常に画期的な技術です。
Trados Studioはその後も改善が続けられ、最新のバージョンである2019 SR2が2019年の8月にリリースされました。今回の記事では、Trados Studioが日本語原文に対して実現した構文解析技術の現在と、そのメリットについてお話します。
また、この技術が導入される以前のバージョンであるTrados Studio 2015とのTM互換性も、すでに問題が解決されています。そちらに関してもご説明したいと思います。
日本語の構文解析とは何か
原文の構文解析の技術は、まず単語同士がスペースで区切られたヨーロッパ言語に対して実現され、Trados Studio 2017に活かされました。
そしてStudio 2017 SR1において、日本語や中国語のように単語間の区切りが無い言語の原文に対しても、構文解析を実装することに成功しました。
それではTrados Studio上で行われている構文解析とは、どのようなものでしょうか。
このように、Trados Studioは日本語においても品詞の区切りを判別します。
構文解析技術の導入により、TMの一致判定はさらに精密になり、より高度にTMを活用することが可能になりました。
構文解析技術による一致率の精度向上
この構文解析技術を導入することにより、TMからのあいまい一致判定の精度が向上しました。次のような例でご説明します。
TMに「サンプルです。」という原文が登録されており、翻訳対象となる原文は「これはサンプルの文章です。」というものであったとします。
Trados Studio 2015で作成したTMおよびプロジェクトにおいては、この両者の比較による一致率は70%を下回り、検索結果には何も表示されません。
それに対して、Trados Studio 2017 SR1および2019で作成したTMおよびプロジェクトで検証を行なうと、77%の一致として検索結果に表示されました。
従来のような文字単位での比較であれば、Trados Studio 2015の場合のように原文同士の共通点が70%を下回り、似た意味合いの文章であるにも関らず「一致なし」、すなわち「新規に翻訳が必要な文」として判断されてしまいます。
しかしTrados Studio 2017 SR1以降の場合、構文解析によって原文を日本語としてより論理的に把握しますので、このようなあいまい一致を検出することが可能です。
以上で見たように、従来の文字単位による一致率の計算よりも、構文解析を利用した一致率の計算の方が、実際の翻訳負荷の計算としてより現実的であり、優れていることがお分かりいただけたかと思います。
日本語原文でのフラグメント一致
このような日本語原文に対する構文解析によって、upLIFT技術によるフラグメント一致が日本語原文に対しても可能になりました。
たとえば、このような例で説明させてください。
TMに登録されている原文と翻訳対象ファイルの原文は、「ワイヤレス ネットワークを」という語句が含まれていること意外は共通点がありません。そのため、従来のあいまい一致では検索結果ウィンドウにヒットしません。
しかし、構文解析をもとにしたupLIFT技術によって、語句単位の一致をTMから自動的に判別することが可能になりました。こちらはTrados Studio 2019の画面ですが、TM内の「ワイヤレス ネットワークを」という語句だけを検出し、さらにそれに対応する「wireless network」という訳も同時に検出しています。
このような語句単位で検出される一致を「フラグメント一致」と呼んでいます。日本語原文の翻訳資産をセンテンス単位ではなく語句の単位で、より効率的に再利用することが、日本語の構文解析によって可能になりました。
フラグメント一致を利用するためには、TMにある程度の翻訳単位(原文と訳文のペア)が登録されている必要があります。推奨の翻訳単位(TU)数は5000以上、最低で1000以上となります。
TMに登録されているTU数は、翻訳メモリの[設定]から確認できます。
単語カウントへの応用
日本語が原文の翻訳において作業量を見積もる場合は、文字数をベースにすることが通例です。
構文解析の技術は、従来の文字数ベースのカウントにおいて利用可能であり、構文解析による一致率の精度はこの従来のカウント方式においても改善されています。
そこに加えて、翻訳メモリとの一致率精度の改善とはまた別個の応用として、構文解析は日本語における単語数のカウントにも活かされることになりました。
この方式の単語カウントを有効にするには、プロジェクト作成画面で[アジア言語の原文テキストの場合に単語単位のトークンを使用する]という項目にチェックを入れる必要があります。
この設定項目は、プロジェクト作成後でも有効にすることができます。[プロジェクトの設定]より[プロジェクト]の画面に設定項目があります。
こちらの項目を有効にした上で3種類の原文ファイルで[ファイルの解析]を実行すると、[レポート]画面で次のような結果が得られました。
もちろん[アジア言語の原文テキストの場合に単語単位のトークンを使用する]という設定項目を無効にすることで従来のカウント方式との互換性を保つことも可能です。
繰り返しになりますが、先に述べた「構文解析による一致率の精度向上」というメリットは、従来の文字数によるカウント方式であっても変わらずに得られるものであることをご理解ください。
以前のTMとの互換性
このように革新的な技術が採用されたTrados Studio 2017 SR1以降のTMですが、Trados Studio 2015で作成されたTMをTrados Studio 2017 SR1で使用することも可能です。
下位のバージョンで作成されたTMをTrados Studio 2017 SR1以降のバージョンで使用する際に、TMのアップグレードを求められます。
アップグレードを開始すると、TM内の原文と訳文に対して構文解析が行われ、語句(フラグメント)同士の対応付けが行われます。
この処理によって、Trados Studio 2017 SR1以降で使用するためにTMが最適化されます。
逆に、Trados Studio 2017 SR1以降で作成されたTMをTrados Studio 2015で使用する場合はどうでしょうか。
あらかじめSDL AppStoreよりTM Compatibility Plug-inを入手し、Studio 2015にインストールします。
https://appstore.sdl.com/jp/language/app/tm-compatibility-plug-in-for-sdl-trados-studio-2015/932/
Trados Studio 2015上に[翻訳メモリの逆変換]というメニューが作成されます。こちらをクリックし、上位バージョンで作成されたTMを読み込むことで、Trados Studio 2015でも従来のようなTMからの一致が取得できるようになります(フラグメント一致などのupLIFT技術は使用できません)。
ここで重要なのは、下位から上位への変換を行った場合でも、下位から上位への変換を行った場合でも、同様の解析結果が得られるということです。
この面でも、上位と下位でのTMの互換性は保たれています。対象となるTrados Studioは下記のバージョン同士となります。
SDL Trados Studio 2015 SR3 (Build 12.3.5262.0)
SDL Trados Studio 2017 SR1 CU15 (Build 14.1.10015.44945) 以降
SDL Trados Studio 2019 SR1 (Build 15.1.0.44019) 以降
解析結果の相違は非常に重要な問題となりますが、上記をご理解の上、安心してTrados Studioの最新バージョンをお使いいただければと思います。
以下の記事も、参考として是非お読みください。
upLIFTをわかりやすくご紹介!
https://www.sdltrados.com/jp/blog/upLIFT-JP.html
翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015
https://www.sdltrados.com/jp/blog/translation-memory-compatibility-trados-studio-versions.html