3.2.5 对齐层面

3.2.5 对齐层面

平行语料库建设的关键在于双语对齐。由于我们的语料是翻译对等的语料,双语对译过程中经常会出现跨句跨段拆分合并的现象,我们决定把对齐设置在段落层面。这样的处理,既能在一定程度上减轻句子切分和对齐过程中遇到的种种困难,又能为提取包含析取关系的句子提供语境参考的便利。

段落对齐时,我们以原文为参照对译文的段落切分进行标注。如果原文是一段,译文中出现两段,则将译文的两段合在一起,段落之间用“||”这个符号隔开,如表13所示。

表13 分译段落对齐示例

如果译文将原文的几段合译,则将译文拆开,拆开处以“><”标识,如表14所示。

表14 合译段落对齐示例