
Markdownファイルタイプを使ってみよう
こんにちは、SDLジャパンの土田です。こちらのブログでTrados Studioを中心としたSDL製品の技術的な情報をお届けしています。
最近、Markdownファイル(.markdownあるいは.md)が翻訳対象となっているプロジェクトのご相談が増えてきました。SDL Trados Studioは2019 SR2よりMarkdownファイルに対応しています。今回はこちらについてご紹介したいと思います。
Markdownサンプルファイル
Markdown(マークダウン)とは「#見出し」「*強調*」など、シンプルな書き方で文書構造を明示でき、HTMLドキュメントに変換できるフォーマットとして開発された軽量なマークアップ言語です。
|
このファイルをTrados Studio 2019 SR2にインポートすると、このようにテキストが抽出されます。
それでは、Markdownのそれぞれの記法がTrados Studio上でどのように処理されているか詳しく見ていきましょう。
テキストの装飾
Markdown記法では、太字にしたいテキストは**あるいは__で囲みます。また斜体にしたいテキストは*あるいは_で囲みます。
**太字のテキストです**
__太字のテキストです__
*斜体のテキストです*
_斜体のテキストです_
***太字と斜体の組み合わせです***
**_太字と斜体の組み合わせです_**
__*太字と斜体の組み合わせです*__
___太字と斜体の組み合わせです___
こちらはWordファイルでの装飾と同様の形で抽出されます。
また、打ち消し線は~~で、上付き文字は^で囲みます。
~~打ち消し線のテキストです~~
上付き文字です^注1^
こちらもWordファイルと同様に抽出されます。
見出し
見出しとなるテキストを#によって定義できます。#の数ごとに見出しのレベルが下がっていきます。HTML5のタグでは<h1>~<h6>に相当します。
# これはH1です
## これはH2です
###### これはH6です
この箇所はTrados Studioでは以下のように抽出されます。一見、ただテキストがインポートされているだけのようですが、右端の文書構造のフィールドには「H」と表示されており、これらが見出しテキストであると認識されていることが分かります。
H1とH2に限り、テキストの次の行に3つ以上連続する=あるいは-を置く記法が存在します。たとえば次のような例です。
これはH1です
===
これはH2です
---
Trados Studioにインポートすると、こちらも同様に「見出し」として文書構造が認識されます。
しかしこれらは訳文としてエクスポートした時に、強制的に#あるいは##に置き換えられてしまいます。読み込み時のみサポートされている書き方となりますのでご注意ください。
ハイパーリンク
URLなどへのハイパーリンクは、Markdownでは(リンク先 "タイトルテキスト")として表記します。"で囲まれたタイトルテキストの部分は、HTMLタグで言えば属性値となりますので必須ではありません。HTMLタグで書くとすれば、<a href="リンク先" title="タイトルテキスト">となります。
SDL Trados Studioについては[こちらのページ](https://www.sdltrados.com/jp/products/trados-studio/ "SDL Trados Studio製品紹介")をご覧ください
Trados Studio上では、リンク付きのテキストとして抽出されます。
タイトルテキストの文章構造が「ATT」として表示されており、Trados Studio上で属性値のテキストであると認識されていることが分かります。
コードおよびHTMLセクションの埋め込み
Markdown文書中に埋め込まれたコードテキストは、`(バッククォート)によって囲まれます。
```json
{
"tm-name": "test-tm_1",
"lang-pair": "en-us",
}
```
プロジェクト作成時は`TM List`を参照してください。
コードブロックとなる場合、```(3つ連続したバッククォート)によって囲まれます。テキスト内に挿入する場合、`(1つのみのバッククォート)で囲みます。
Trados Studioへの読み込み時、既定ではコードブロックの部分は翻訳対象外としてスキップされますが、テキスト内に挿入されたものはインラインタグとして抽出されます。どちらも翻訳プロセスに置いてコード部分が書き換えられないための処置となります。
コードブロックを翻訳対象としたい場合、[オプション]の[ファイルの種類]>[マークダウン]>[一般]より[コードブロックの翻訳]を有効にします。埋め込みコンテンツプロセッサとして[Embedded Content Plaint Text v 1.0.0.0]を指定します。
既定ですとコード部分テキストをすべて読み込んでしまいますが、[オプション]の[埋め込みコンテンツプロセッサ]>[Embedded Content Plaint Text v 1.0.0.0]より正規表現のパターンを指定すれば、任意のテキスト部分のみ翻訳対象テキストとして抽出することが可能です。
また文書中にHTMLのセクションが埋め込まれていた場合も、[オプション]の[ファイルの種類]>[マークダウン]>[一般]より[htmlブロックの翻訳]を有効にし、埋め込みコンテンツプロセッサとして[Html Embedded Content 5 2.0.0.0]あるいは[Html Embedded Content 4 2.0.0.0]を指定します。
埋め込まれているHTMLがHTML5であった場合は[Html Embedded Content 5 2.0.0.0]を、それ以前であった場合は[Html Embedded Content 4 2.0.0.0]を選択します。
emojiの処理
Mardown記法ではemoji(絵文字)を記述することができます。使用できる絵文字の一覧につきましては、下記のページをご覧ください。
Complete list of github markdown emoji markup
https://gist.github.com/rxaviers/7360908
ここから、以下の絵文字を使用してみます。
スマイル
:smile:
ハート
:heart:
猫
:cat:
電話
:telephone:
Trados Studioでは、絵文字はインラインタグとして抽出されます。
[表示]タブよりタグの表示を切り替えると、絵文字の詳細が分かります。
以上、Markdownのファイルタイプから翻訳に役立ちそうな機能を選んでご紹介しました。Markdown文書の翻訳需要は高まっていますので、Trados Studio 2019でこのファイルタイプを是非お試しいただければと思います。