Trados JP Blog Image

Excelにテキスト入力されたタグを抽出する

こんにちは、SDLジャパンの土田です。こちらのブログで、Trados Studioを中心としたSDL製品の技術的な情報をお届けしています。

今回はExcelのセル内に<b></b>などのタグがテキストとして入力されていた場合、Trados Studio上でインラインタグとして抽出する方法をご説明します。

こちらはTrados StudioのExcel用ファイルタイプに以前から備わっていた機能なのですが、あまり知られていないように感じます。


セル内にタグがテキストとして入力されていた場合

例えば以下のようなExcelファイルがあるとします。セル内のテキストには、<b></b>といったタグペアや<br>といったセルフクロージングタグが存在しています。

2019-11-22_1

タグ入りのテキストをxlsx形式やcsv形式などでエクスポートするシステムの場合、このような原文ファイルが翻訳対象となることがあります。

こちらを既定の設定でTrados Studioに読み込ませますと、このようにタグはすべてそのままのテキストで抽出されてしまいます。

2019-11-22_2


埋め込みコンテンツの処理

ここで、Excel用のファイルタイプ設定を変更しましょう。[ファイル]>[オプション]>[ファイルの種類]より[Microsoft Excel 2007-2019]を選択します。

2019-11-22_3

[埋め込みコンテンツの処理を許可する]にチェックを入れ、[タグ定義規則]より[追加]をクリックします。

2019-11-22_4

ここから先は正規表現が必要になるのですが、例えば<a><b><u><i>の各HTMLタグペアをインラインタグとして抽出する場合、以下のように追加します。

規則の種類:タグ ペア
開始:<[a-z][a-z0-9]*[^<>]*>
終了:</[a-z][a-z0-9]*[^<>]*>

 2019-11-22_5

また、<br>(または<br />および<br/>)および<hr>(または<hr />および<hr/>)というセルフクロージングタグをインラインタグとして抽出する場合は以下のように設定します。

規則の種類:プレースホルダ
開始: <[a-z][a-z0-9]*\s?\/?>

こちらの設定で先ほどのExcelファイルを読み込ませます。セル内にテキスト入力されていたタグがインラインタグとして処理されました。

2019-11-22_7

今回はごく1部のHTMLタグを対象にいたしましたが、正規表現の組み方によって、その他のHTMLタグやXMLタグも対応可能です。また正規表現でパターン化させずに、それぞれのタグを個別に設定することも可能です。

この「Excel内の埋め込みコンテンツの処理」は、どこかで役に立つのではないかと思います。