7.1 描述流基本概念

7.1 描述流基本概念

对于各种实体或事物,可以用描述子(Descriptor)和描述子的取值(Descriptor Value)来描述实体的性质,刻画实体。一个描述子描述实体的一个方面,而一个实体通常需要由若干描述子来描述。领域实体概念的性质可由描述子及其取值来描述。例如,遗址类实体通常是从分布区域、时期、地质时代、地理位置、年代、断代方法等描述子来刻画的。若描述子d1所描述的内容包含描述子d2所描述的内容,则称d1语义包含d2。例如,对于遗址类实体,其描述子“简介”包含描述子“分布区域”和“时期”。因此,在遗址实体的简介中,一般均需介绍遗址的分布区域和时期。本节介绍描述流基本概念[134]

定义(描述流,Descriptive Stream):描述流是一个三元组DS=〈D,⊆,≼>,

D为描述子集合;

“⊆”表示描述子之间的语义包含关系;

“≼”表示描述子之间的出现偏序关系。

定义(描述类,Descriptive Category):描述类指文本描述的个体所属的类。用符号“DC”表示。

例如,对于句子“丁村的文化遗物既具有其他中国旧石器时代文化的共同特点,如以石片石器为主等,又具有独特的打制技术和石器类型。”,描述的个体为丁村的文化遗物,所属的类为“文化遗物”,因此,这句话的描述类为“文化遗物”。

定义(描述子的直接包含关系、间接包含关系):若描述子d1⊆d2,d2⊆d3,则称d2与d1的包含关系为直接包含关系,d3与d1的包含关系为间接包含关系,d1为d2的孩子描述子,d2为d3的孩子描述子。

对于主题为同一类的不同文本,通常会有多个描述流。例如,图7.1为一个主题为考古领域中遗址类的文本的描述流,包括描述子:“简介”“地层与年代”“发现遗迹”“文化遗物”“生态遗物”“研究意义”。描述子“文化遗物”包含“石制品”和“陶器”。

图7.1 遗址类文本的一个描述流

例如,对于文本:“中国东北地区旧石器时代早期洞穴遗址。位于辽宁省本溪县庙后山南坡。该遗址是迄今中国最北的旧石器时代早期遗址。1978年发现,随后至1982年间,由辽宁省博物馆和本溪市博物馆联合进行多次发掘。洞穴堆积由下往上分为8层。上部的第7、8两层的时代为晚更新世,铀系法断代和放射性碳素断代为距今10万至1.7万年。发现人类化石和文化遗物的第4、5、6层,伴出有三门马、中国缟鬣狗、肿骨大角鹿等华北中更新世典型动物,地质时代为中更新世晚期,铀系法断代及古地磁断代为距今40万至14万年(摘自庙后山遗址)”,它的描述流为:

遗址.分布区域,和 遗址.时期,和 遗址.类别

遗址.地理位置

遗址.是一个

遗址.发现时间,和 遗址.发掘时间,和 遗址.发掘者,和 遗址.发掘次数

遗址⇒文化堆积层,和 文化堆积层.分层顺序,和 文化堆积层.层数

文化堆积层.地质时代,和 文化堆积层.年代,和 文化堆积层.年代→断代方法

文化堆积层⇒文化遗物,和 文化堆积层⇒人类化石,和 文化堆积层⇒动物化石⇒子类,和 动物化石.分布区域,和 动物化石.时期,和文化堆积层.地质时代,和 文化堆积层.年代,和 文化堆积层.年代→断代方法

第一项为第一句的描述流,依次类推。第一个句子描述了遗址的三个方面:“中国东北地区”为遗址的分布区域,“旧石器时代早期”为遗址.时期,“洞穴遗址”为个体庙后山遗址所属的类,即,它是一个洞穴遗址。

定义(叶子描述子):给定描述流DS=〈D,⊆,≼>,如果该描述子不含有孩子描述子,则其中存在描述子称为叶子描述子。

为了识别文本的描述流,进一步定义了领域知识获取本体词汇类型,包括类词汇、类的名称词汇、类的语境词汇、类的子类词汇、类的部分类词汇、类的又称词汇、类槽值词汇、槽词汇、槽的名称词汇、槽的语境词汇,槽的同义词词汇、槽的近义词词汇、槽值域词汇、槽值的同义词词汇、槽值的近义词词汇、聚类槽词汇、聚类槽元素词汇。类C的类词汇是指词汇C,类C的子类词汇是指C的所有子类词汇,其他词汇类型的含义依此类推。例如,类“房址”的“类的名称词汇”有“房基,房子,房屋”。槽“制作材料”的“槽的同义词词汇”有“质料,材料,原料,原材料”。

定义(槽词汇场,Slot Vocabulary Field):将与槽S关联的词汇集合称为槽词汇场,包括槽词汇、槽的名称词汇、槽的同义词词汇、槽的近义词词汇、槽的语境词汇、聚类槽词汇、聚类槽元素词汇。记为SVF(S)。

例如,地质时代的槽词汇场为:SVF(地质时代)={地质时代,地质年代},SVF(制作材料)={质料,材料,原料,原材料,制作,制成}。

定义(类词汇场,Category Field):将与类C关联的词汇集合称为类词汇场,包括类词汇、类的名称词汇、类的语境词汇、类的子类词汇、类的部分类词汇、类的又称词汇、类槽值词汇。记为:CF(C)。

定义(槽值词汇场,Slot Value Field):将与槽S的槽值关联的词汇集合称为槽值词汇场,包括槽值域词汇、槽值的同义词词汇、槽值的近义词词汇。

例如,槽值词汇场(地质时代)={早更新世,上更新世,中更新世,下更新世,晚更新世}。

下面给出类石制品的各种词汇类型。

(1)描述子的类型。

根据描述子所刻画的个体、类、槽之间的关系,本节给出五种描述子类型,具体描述如下。

构建描述流的准则有:扩展性和完整性。扩展性通过描述子之间的包含关系来描述。

设文本存在两个描述流DS1=〈D1,⊆,≤>和DS2=〈D2,⊆,≤>。若∀d1∈D1,均存在d2∈D2,并且d1⊆d2,则称DS2比DS1的扩展性强。

例如,对于这个句子“发现人类化石和文化遗物的第4、5、6层,伴出有三门马、中国缟鬣狗、肿骨大角鹿等华北中更新世典型动物,地质时代为中更新世晚期,铀系法断代及古地磁断代为距今40万至14万年(庙后山遗址)。”,可以构建如下所示的两种描述流DS1和DS2

DS1=(文化堆积层⇒文化遗物,文化堆积层⇒人类化石,文化堆积层⇒动物化石,动物化石⇒三门马,文化堆积层⇒中国缟鬃狗,动物化石⇒肿骨大角鹿,动物化石.分布区域,动物化石.时期,文化堆积层.地质时代,文化堆积层.年代,文化堆积层.年代→断代方法)。

DS2=(文化堆积层⇒文化遗物,文化堆积层⇒人类化石,文化堆积层⇒动物化石,动物化石⇒子类,动物化石.分布区域,动物化石.时期,文化堆积层.地质时代,文化堆积层.年代,文化堆积层.年代→断代方法)。

选择DS2,因为DS2的“动物化石⇒子类”比DS1的“动物化石⇒三门马、动物化石⇒中国缟鬣狗、动物化石⇒肿骨大角鹿”具有更强的扩展性。

完整性包括类间关系的完整性和同类描述子的完整性。类间完整性是指文本的描述流是否给出了文本中不同类之间的关联关系。

例如:对于这个句子“遗址中出土有属早期智人阶段的丁村人牙齿化石、以及以三棱大尖状器为突出特征的文化遗物。”,可以构建如下所示的两种描述流DS1和DS2

DS1=(人类化石⇒部分类,人类化石⇒部分类.人种,文化遗物.特征)。

DS2=(遗址⇒人类化石,人类化石⇒部分类.,人类化石⇒部分类.人种,文化遗物.特征)。

选择DS2,因为DS2包含“遗址⇒人类化石”,描述了隐含的类之间的关系,即“遗址”与“人类化石”之间的关系。

(2)描述流的结构。

描述流的结构为二重偏序结构。其中,一种结构是由描述子之间的包含关系构成的偏序结构,而另一种结构是由描述子之间的出现顺序关系所构成的偏序结构。

例如,对于遗址类的描述流DS(遗址),描述子之间的包含关系所构成的偏序结构如下;

DS(遗址)包括描述子:“简介”、“地层与年代”、“发现遗迹”、“文化遗物”、“生态遗物”、“研究意义”。

描述子“简介”包含描述子“分布区域”、“时期”、“类别”、“地理位置”、“地质时代”、“断代方法”、“是否校正”、“年代”、“年代上限”、“年代下限”、“发掘时间”、“发掘次数”、“发掘者”、“面积”、“揭露面积”。

描述子“发现遗迹”包含描述子“墓葬”、“房址”。

描述子“文化遗物”包含描述子“石制品”、“陶器”。

描述子“生态遗物”包含描述子“人类化石”、“动物化石”。

DS(遗址)的描述子的描述顺序关系所构成的偏序结构。DS(遗址)的描述子的描述顺序关系可以为如下三种:

地层与年代≼发现遗迹≼文化遗物≼生态遗物≼研究意义

地层与年代≼文化遗物≼发现遗迹≼生态遗物≼研究意义

地层与年代≼文化遗物≼生态遗物≼发现遗迹≼研究意义

基于描述子的包含关系,描述流的结构可以分为线性结构和树结构。

(3)描述流的表示语言。

下面给出描述流的表示语言。

defcategory描述流 实现 描述流出现概率