3.2.3 语料库容
2025年10月24日
3.2.3 语料库容
根据统计,表12列出了建成后的平行语料库的容量。
表12 平行语料库中原创文本和翻译文本的容量

根据表12中的数字,我们可以看出英语单词与汉字在对译过程中的合计数量比约是1∶1.50。从英语方面来说,原创语言文本和翻译语言文本加起来,共12万余个单词。从汉语方面来说,原创语言文本和翻译语言文本加起来,共18.1万余个汉字。虽然还会有一些译本列入我们的扩展检索范围,但是就析取关系英汉平行句对库所依赖的这一英汉双向平行语料库的容量而言,这应该说只能算是小型的语料库。毫无疑问,库容越大,所挖掘的语言规律越有说服力,同时也就需要耗费更多的人力和物力。限于精力和时间,我们只能建设这样小规模的语料库,更大规模的语料库建设只能等待将来去做。
不过,正因为所建的语料库容量不是很大,我们可以提高语料的考察仔细程度,更好地理解语言材料,对所要考察的语言现象加以穷尽性的描写。