1.2.1 数据

1.2.1 数据

什么是数据?通常我们认为如32,19023,-2343.34这种表达形式的数字是数据,但其实数据的表达形式远不止这些。从最一般意义上讲,数据是指客观实体的属性的值,是客观事物的反映。例如,“金华的基本工资是105元”,这里所描述的客观实体是“金华”(一个人),所指的属性是“基本工资”,而“105元”则是该属性的值,这“105”就是一个数据;“这位职工的姓名叫金华”,这里客观实体“这位职工”的“姓名”这一属性的值是“金华”,“金华”同样也是一个数据。再如,“浙江某市的地名叫金华”,这里客观实体是“浙江某市”,属性是“地名”,其值是“金华”,因此“金华”在这里也是一个数据。

从上面所举的三个例子来看,我们可以对数据的一些特征加以概述。

第一,数据的类型。从上面可以看出,数据是可以分类型的。数据的类型表达形式可以有很多种,上面所举的“105”属于数值类型,而如“金华”一类的数据则被称为文字类型,除了数值和文字两种数据表达类型外,还有日期类型、逻辑类型、备注类型,甚至枚举类型、结构类型、图像视频类型等等。其中,日期类型是用来表示日期类数据的,比如“05/24/2005”表示2005年5月24日;逻辑类型是用来表示逻辑类数据的,如正反、是否等判断,通常用.T.,.Y.表示是的、要的、正的等等之类正面判断,而用.F.,.N.表示不是的、不要的、负的等等之类的反面判断;图像视频类型则是用来指向可播放文件的指针值。

尽管数据的类型可以有很多种,但是在实际应用中一般将其分为两大类型:一类为数值型数据;一类为字符型数据,即非数值型数据。数值型数据是指该数据能够被直接用来进行加减统计运算的数据,而在数据处理过程中,不涉及加减统计运算的数据通常被定义为字符型,包括文字型、日期型、逻辑型、图像型数据等都可以被归入字符型数据。比如,工资105元中的“105”是一个数值型数据,因为这个“105”能够直接用来与其他人的工资进行加减运算(如工资合计),而“金华”这个数据则应被定义为字符型数据,因为“金华”无法与其他数据进行加减处理。同样,如“05/24/2005”“已婚” 之类的数据均可被定义为字符型数据。另外,有时会遇到如序号“105”这样的数据,这里的“105”虽然看上去是数值型数据,但其实作为序号的“105”与其他数据是无法进行加减统计运算的,因此在定义序号“105”这样的数据类型时,也应将其定义为字符型数据。

第二,数据的格式、频数和流向。数据除了有类型特征之外,还有格式的特征。就数值型数据来说,数据的格式需要表明小数点的位数,有时还需要表明数据的最大位数,比如工资的数据值,一般保留小数点后两位(以元为单位),其整数部分至少需要四位,那么,连小数点本身在内,工资的最大位数则需要七位,这就是数值型数据格式的表示方法。而对字符型数据来说,则需要表明其字符的最多位数(称为长度或宽度)。比如,姓名一般是按照复姓来考虑的,因此其长度一般需要四个汉字的宽度(通常为8个字符宽),若是企业中有外籍员工或少数民族员工,那么工资册上的姓名一栏所取的宽度就需要根据实际情况取一个更为合理的数了。

数据的频数是指一定时间内数据发生的次数,或者称为数据采集的频率,它的倒数就是数据采集的周期,通常所说的月报、日报,其实就是分别以月或日为数据采集周期而得到的数据。

数据的流向分为来源和去向,分别表明数据采集的出处和数据提供的去处。作为来源的数据通常是由别处提供给本地处理的数据,而作为去向的数据则是由本地提供给别处供别处进一步处理的数据,数据的流向反映了数据从发生到不断被人们所加工利用的过程。

第三,数据具有抽象性与代表性相统一的特征。例如,“105”作为一个数据,具体到底代表什么意义是不明确的,它可以作为任意的客观实体的属性值,但在确切赋予它具体意义之前,“105”又是什么都没有代表、什么都不能代表的,“105”就是“105”,是一个数据,这就是数据的抽象性。

当我们赋予“105”为金华的工资时,“105”便有了具体的意义,即代表工资的一个值;当我们赋予“105”为一段路的长度时,“105”便代表了路程的长短……同样,我们可以赋予“105”无限多样的意义,使得“105”具有无穷的代表性,当然一次只能赋予一个意义,这就是数据的代表性。

不仅数值型数据具有抽象性和代表性的统一,字符型数据同样也存在抽象性与代表性的统一。比如“金华”,既可以代表人的姓名,也可以代表地区的名称,还可以代表商店的名称、产品品牌的名称等等,这些都说明“金华”这个数据在没有被赋予意义时是抽象的,而当被赋予意义时又具有明确的代表性,是抽象性和代表性的有机统一。

第四,数据具有可加工性的特征。我们有时为了某种分析需要,要对一大批数据进行处理,从而得到诸如合计数、平均数、其中数等等的资料。也就是说,数据可以被用来按照人们的需要进行一系列的加工处理,以提供更有用的信息,这就是数据的可加工性。

具体的数据加工方法将在后面有关章节中详细介绍,需要指出的是所谓的加工未必只是对数值型数据进行加加减减,对字符型数据也可以进行加工。以上所说的“赋予意义”也可以视作一种加工方法,即将抽象的数据加工为有意义的信息,如将“105”加工为“金华工资105元”这样一个有意义的信息,将“金华”加工为“这位职工姓名叫金华” 这样一个信息。在这里,我们不妨将“金华”“工资”“105”“元”“这位”“职工”“姓名”“叫” 都看成数据,那么“赋予意义”的加工算法其实就是通过一系列数据连接来实现的。我们将四个数据“金华”“工资”“105”“元”按先后顺序连接在一起,加工成“金华工资105元”这样一个信息;将五个数据“这位”“职工”“姓名”“叫”“金华”连接在一起,加工成“这个职工姓名叫金华”这样一个信息。