3.3.3 识别程序

3.3.3 识别程序

析取关系英汉平行句对库的建设过程,需要文本搜索和人工认定两方面结合进行。通过简单的搜索来汇集语料是有缺陷的,一方面是因为在研究过程中我们并不知道所要研究的析取关系的全貌,这样做有可能会遗漏重要的语例,另一方面是因为多义词的义项甄别需要人工确定。“还是”等有多种不是讨论范围内的其他用法,其中的一个意思是“仍然”,即使检索到含有“还是”的语例,还是需要手工排除。

语料库检索可以对语言形式进行挖掘,对意义的辨别还需要人工干预。要挖掘英汉语中析取关系的各种表达法,在手工辨认(hand-picked)外,对语料的检索不得不借助析取关系标记。从析取关系标记是否表现于语言形式角度来说,析取关系标记在平行语料库中的存在情况无非是表19所列的四种情况。

表19 英汉语中析取关系标记隐性存在和显性存在的四种组合情况

前三种情况均可以检索析取关系标记,再平行检索。而第四种情况则不能借助析取标记,只能人工手检认定。

所要研究的英汉语析取关系表达法并非事先就已经全部知晓的,所知道的只是一些他人的相关论述或知识,语料中所呈现的实际情形有待发现。所以,按怎样的步骤去识别所要研究的析取关系语例的程序,是至关重要的。这个识别程序的好坏,决定了我们能否真正了解实际语料中析取关系表达的全貌。

为表述简洁起见,我们将英汉双向平行语料库和析取关系英汉平行句对库分别简称为“平行库”和“句对库”。我们提出的发现程序按如下步骤执行:

·第一阶段:

(一)通读汉语原创文本,了解全书

(二)手检确认部分语例

(三)在平行库中搜索“或者”“不是……就是……”等,查漏补缺

(四)语例录入句对库

(五)整理汉语析取关系表达法清单

·第二阶段:

(六)在句对库中搜罗英语翻译文本中的析取关系标记

(七)在平行库中搜索英语译文中的“or”,查漏补缺

·第三阶段:

(八)通读英语原创文本,了解全书

(九)按英语析取关系标记清单搜罗

(十)语例录入句对库

(十一)更新整理英语析取关系标记清单

·第四阶段:

(十二)在句对库中搜集汉语翻译文本中的析取关系标记

(十三)按更新后的汉语析取关系标记清单在平行库中搜索汉语翻译文本