1.1.1 数据与信息
1)数据
数据(Data)是反映客观事物属性的记录,是用于表示客观事物的未经加工的原始资料,是信息的载体。对客观事物属性(特征)的记录是用一定的物理符号(如数字、符号、声音、图形、图像、视频等)来表达的,所以说数据是信息的具体表现形式。
数据的概念包括数据形式和数据内容两个方面。数据形式是指数据内容存储在媒体上的具体形式(物理符号形式),即通常所说的数据的“类型”。数据内容是指所描述客观事物的具体属性,即通常所说的数据的“值”。
例如,学生的基本信息“姓名”“性别”等属性用字符型数据形式描述,“年龄”属性用数值型数据形式描述,“照片”属性用二进制型数据形式描述。
而对于一个具体的学生来讲:
其“姓名”的值为“王义”;
“性别”的值为“男”;
“年龄”的值为“19”;
“照片”的值为其照片文件。根据数据管理和数据处理的具体要求,可以选择不同的数据形式来表示。例如,性别这一数据,可以用“男”“女”文字表示,也可用0、1数字表示等。
(1)数据的单位
在计算机中,衡量数据大小的单位是字节(Byte),用大写的英文字母B表示,依次还有KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们之间按照进率1 024(210)来计算:
1 KB=1 024 B=210 B
1 MB=1 024 KB=220 B=1 048 576 B
1 GB=1 024 MB=230 B=1 048 576 KB
1 TB=1 024 GB=240 B=1 048 576 MB
1 PB=1 024 TB=250 B=1 048 576 GB
1 EB=1 024 PB=260 B=1 048 576 TB
…
(2)数据的分类
从结构上来说,数据可以分为3大类。第一类是能够用统一的结构表示,称为结构化数据,如数字、符号等;第二类是无法用统一的结构表示,称为非结构化数据,如文本、图像、声音等;第三类是介于结构化数据和非结构化数据之间的数据,如HTML文档等。
①结构化数据是指数据经过分析后可以分解成多个互相关联的组成部分,各个组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。通常接触的包括生产、业务、交易、客户信息等这类数据都属于结构化数据,可以用二维表结构来表达实现,比如企业ERP、财务系统、医疗HIS数据、教育一卡通、政府行政审批等。
②非结构化数据,所谓的非结构化数据是指数据的变长记录由若干不可重复和可重复的字段组成,不方便使用二维逻辑表结构来表现。简单地说,非结构化数据就是字段可变的数据,支持重复字段、子字段以及变长字段。比如日常生活中的办公文档、图片、音频/视频等数据。
③半结构化数据是介于结构化数据和非结构化数据之间的数据,如HTML文档等。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
表1-1从数据模型、形成过程等方面说明了3类数据的区别。
表1-1 3类数据的区别
2)信息
信息(Information)解释为可通信的事情、知识、消息等。信息是人类的一切生存活动和自然存在所传达出来的消息和知识。实际上,信息是客观事物属性(特征)的反映,所反映的是关于某一客观系统中某一事物的某些方面属性或某一时刻的表现形式,为人类带来客观世界的认识和知识,如姓名、性别、年龄等反映了一个人的基本信息。人类社会之所以如此丰富多彩,都是因为信息和信息技术一直持续进步的必然结果。
由上面定义可知,数据是信息的表达形式,信息是数据所表达的有用含义。信息是通过数据来传播的,不具有知识性和有用性的数据则不能称为信息。
如果说结构化数据产生的信息详细记录了企业的生产交易活动,那么非结构化数据产生的信息则隐性包含了提高企业效益的机会。对大多数企业来说,ERP等业务系统所处理的结构化数据信息只占到企业全部信息的10%左右,其他的90%都是非结构数据信息。