数据管理与分析应用概述

第一章 数据管理与分析应用概述

一、数据管理与分析技术

1.数据的描述

   ● 认识数据:数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象。在计算机科学中,数据是对所有输入计算机并被识别、存储和处理的符号的总称,是联系现实世界和计算机世界的途径。在大数据时代,数据不仅仅是信息的载体,也是人们提取信息做出决策的重要依据,成为人们认识和理解现实世界客观事物的重要资源。

   ● 解释数据:数据是形成信息和知识的源泉,是计算机程序加工的“原料”。一般来说数据包括结构化数据、半结构化数据、非结构化数据。合理解释数据,首先要对数据进行选择或将数据进行结构化,其次要将数据融入相应背景进行解读,对数据做出合理解释,转化为有意义的信息。

   ● 描述数据:在计算机中,为了存储和处理描述世界的数据就要抽出这些数据的特征组成一条记录来描述。

2.数据管理技术及其发展

数据管理是指对数据的采集、分类、组织、编码、存储、查询和维护等活动,从而实现数据的规范化和结构化。

数据管理技术的发展:人工与文件管理→层次与网状数据库→关系数据库→关系模型扩展、对象模型、相关新技术结合→大数据管理技术

3.数据管理方法

   ● 人工管理:没有专门的软件用来管理数据,管理数据需要依赖应用程序本身来处理;数据和程序是紧密联系的,一组数据只能对应一个应用程序,而数据又不能共享;数据通常包含在程序中,不具有独立性,一旦数据的结构发生变化,应用程序就要做相应的修改。

   ● 文件系统管理:在文件系统中,数据可按其内容、结构和用途组织成若干独立的文件,应用程序可以通过操作系统从文件中读写数据,这样文件与程序分离,有利于长期保存。缺点:数据独立性差;数据冗余度大;数据的安全性和完整性难以保障。

   ● 数据库系统管理:数据库(DB)是按照数据结构来组织、存储和管理数据的仓库。数据库系统(DBS)克服了文件系统的缺陷并提供了对数据更高级、更有效的管理,这个阶段的程序和数据的联系通过数据库管理系统(DBMS)来实现。数据库管理系统是对数据库进行管理的通用软件系统,是数据库系统的核心;数据库应用系统则是指针对某个特定目标,建立在数据库管理系统之上的计算机应用系统,它主要由数据库、数据库管理系统、应用程序和用户等组成。因此,数据库、数据库管理系统和数据库应用系统是三个不同的概念,数据库强调的是数据,数据库管理系统强调的是对数据库进行存储与管理的系统软件,而数据库应用系统强调的是面向具体应用的软件。数据库管理系统的优点:数据结构化;数据共享;数据具有高度的独立性;数据的安全性得到保证。

   ● 新一代数据库:数据库技术是不断发展的,在数据模型改进、与相关技术融合及面向应用领域等方面都在不断改进与发展。①数据模型的改进:面向对象数据系统(OODBS)、时态数据库系统(TDBS)、实时数据库系统(RTDBS)、主动数据库系统(ADBS);②数据库与相关技术结合:分布式数据库、Web数据库;③面向领域:非结构化数据库。

   ● 大数据管理技术:结构化数据库的局限性催生大数据诞生。iBase、Hbase都是非结构化数据库,这样的数据库适合管理大数据。

4.数据分析技术与方法

(1)数据分析技术

数据分析是指用适当的统计分析方法对采集来的数据进行分析,将这些大量数据进行汇总,并做成可以被人们认识和理解的资料,从中提取有用和有价值的信息。数据分析主要分为描述性数据分析、探索性数据分析、验证性数据分析。数据分析通常是以数和量的形式展现,通过实验、观察、调查等方式获取结果。数据分析技术是指与数据分析活动有关技术的总和,包括数据对象的描述、采集、处理、统计、分析及呈现等。在常见的数据分析中,我们会使用的工具软件主要有Excel、SPSS、Python、SAS等。在大数据时代,运用数据的批处理、流计算、图计算及查询分析计算等功能模式,可以实现对大数据的批处理、实时分析、图结构分析、查询分析等,常用的工具软件有MapReduce、Storm、GraphX、Dremet等。

(2)数据分析的基本步骤和方法

数据分析的基本步骤:识别需求→采集数据→分析数据→过程改进。

数据分析具有现状分析、原因分析、预测分析三大作用,因此数据分析的基本方法对应这三大作用进行设置。常用的数据分析方法有对比分析法、平均分析法、分组分析法、结构分析法、交叉分析法等。

二、数据管理与分析的重要性及应用价值

1.数据管理与分析的重要性

(1)数据管理技术的重要性

①提高元数据管理的标准化。元数据来源于监测、勘探等数据管理下最原始的基础数据,具有基础性和原始性,因此,在数据管理技术中,要对大量的原始资料进行整理加工,将大量的纸质材料数字化,注重元数据采集中的标准化,依据不同的规则进行分类和提取。元数据是科学发展和基础研究的基本支撑和本源,也是国家的重要基础信息资源,在各行各业发挥着不可替代的作用,加强元数据科学管理有利于各项工作更好地为经济建设、社会发展和人民生活提供高质量、及时周到的服务。

②加强数据管理服务的系统性。在数据管理技术中,既需要对数据进行有效的信息化处理,又要依照各项数据管理技术搭建数据共享平台,增强对数据资料系统的开发能力。

③优化大数据管理技术的准确性。

(2)数据分析的重要性

①确保数据分析的完整性。

②提高数据决策的准确性。

③增强数据创造的价值性。

2.数据管理与分析的应用价值

(1)数据的预测性价值

气象预测、工业预测、商业预测都可以通过数据的整体趋向,预测未来可能从哪个方向发展,从而采取必要措施为生产经营带来一定的经济价值。

(2)数据的挖掘性价值

数据挖掘有三个阶段:把数据变得透明,让大家看到数据;可以提问,可以形成互动做出实时分析;数据要具有某些预测功能。

数据挖掘技术主要有决策树、聚类、时间序列、贝叶期分类、线性回归、关联规则、类神经网络、Logistic回归等。

(3)数据的分析性价值

通过对事物的现状性数据分析、原因性数据分析、发展性数据分析,形成数据分析报告,从而体现数据的应用价值。

 随堂练习

一、单项选择题

1.按照数据的结构类型划分,以下不属于数据类型的是(  )。

A.结构化数据  B.半结构化数据 C.非结构化数据     D.结构型数据

2.以下不属于数据管理技术阶段的是(  )。

A.人工管理      B.文件系统管理     

C.资源管理器管理 D.数据库系统管理

3.一般来说,数据分析主要有以下项目:①采集数据;②识别需求;③过程改进;④分析数据。根据数据分析的基本步骤进行排序,正确的是(  )。

A.①②③④  B.②①④③ C.①②④③     D.②①③④

4.为了实现数据的规范化和结构化,对采集到的数据要进行管理。数据管理不包括(  )。

A.采集 B.分类 C.存储 D.传递

5.数据分析技术就是指与数据分析活动有关的技术总和,不包括(  )。

A.采集 B.统计 C.呈现  D.编码

6.下列不属于数据管理技术重要性的是(  )。

A.提高元数据管理的标准化 B.加强数据管理服务的系统性

C.优化大数据管理技术的准确性  D.使数据更加精简,减少重复性的数据

7.下列关于数据、信息、知识、智慧四者之间的关系,说法不正确的是(  )。

A.数据经过加工、处理,得到信息   

B.知识是从大量的数据中研究、提炼出来的

C.知识是智慧的基础和前提

D.智慧是知识的抽象与升华

二、判断题

8.“小明的腋下体温是38.0 ℃。”这是一个数据。  (  )

9.在某班的学生成绩表中,每一位学生的成绩用一行记录来描述,学生的记录可以完全相同。(  )

10.DBMS是数据库系统的简写。(  )

11.我们可以用Excel、Python、SPSS、Photoshop等软件对数据进行分析。(  )

12.数据库系统包括数据库和数据库管理系统。(  )

13.数据分析产生的分析价值建立在详尽和真实的数据层面,数据采集的完善是完善数据分析技术的一个过程。(  )

14.数据是一种重要的资源,并通过科学管理与分析数据,可以使数据实现其应有的价值。(  )

15.用折线图,可以更好地呈现某一个时间段内天气温度值的数据分析。(  )

三、填空题

16.数据是现实世界客观事物的    ,是    的载体,是计算机加工的对象。

17.数据管理方法有五大类:                    

18.      是按照数据结构来组织、存储和管理数据的仓库,英文简写为      

19.      是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库,英文简写为      

20.      是指针对某个特定目标,建立在数据库管理系统之上的计算机应用系统,如学籍管理系统。

21.      一般是来源于监测、勘探等数据管理技术下最原始的基础数据,具有基础性和原始性。

22.数据管理与分析的应用性价值主要体现在:                  

23.数据的分析性价值,主要包括以下三种:                  

四、应用题

24.简述数据库的特点。

25.简述常用的数据分析方法。