3.3.5 切分对齐的原则

3.3.5 切分对齐的原则

析取关系一般存在于句子层面,有时也存在于几个连续的句子之中。如果按照原始文本中的标明句界的标点,如句号、感叹号、问号等,有时候原文或译文的句子会太长。另外,跨句对译的情况也常常存在。为了缩小考察的范围,我们不拘泥于原文句子的界限,在保证析取关系所表达的意思完整的情况下,尽可能以精简的方式录入。有时为了保证语料平行,也会将其中一种语言的文本稍加扩展输入。如果一条语料可以在几个维度上分别考察,则将这条语料录入多次并加以标注,确保每一条语料均只有一个考察点。