3.1.2 数据类型
结构化数据通常是指能够直接存储在数据库中的数据——遵循预定义的模型或数据结构。几乎每个组织都熟悉这种形式的数据,并且可能已经在有效地使用了。例如,大多数组织至少会在Excel电子表格中存储某种固定格式的数据。来自嵌入式传感器、智能手机、智能手表和物联网设备的读数通常是结构化数据的形式——无论是提供血糖读数、步行步数、燃烧的卡路里、心率还是血压。结构化数据类似于机器语言,结构化数据的格式高度组织,便于简单、直接的搜索和信息检索操作,所以结构化数据通常存储在关系数据库中。
非结构化数据是指其他一切数据形式。非结构化数据没有预定义的模型或模式,非结构化数据没有可识别的结构,这给查询和信息检索带来了问题。电子邮件、短信、Facebook帖子、Twitter推文和其他社交媒体帖子都是非结构化数据。非结构化数据可以发掘出更多的信息,Gartner报告指出,未来5年数据量将增长800%,其中80%的数据将以非结构化数据的形式存在。
非结构化数据呈现的问题之一是难以利用,非结构化数据的原始和无组织形式使得它比结构化数据更难以分析,由于结构的缺乏使得编译和解释非结构化数据成为一项耗费时间和精力的资源密集型任务,但是从非结构化数据分析机制中得到更多的信息所带来的好处,完全可以抵消理解非结构化数据消耗的资源成本。在如何理解非结构化数据的过程中,除非数据本身容易理解,那么就必须要有领域专家的参与。当前非结构化数据集的分析方法正在改进,人们开始使用数据科学和机器学习方法来分析非结构化数据。例如,使用自然语言处理(NLP)就有助于从论坛帖子等非结构化数据里理解和分类情绪。但是将非结构化数据转换为结构化数据模型并不是完全可行的,例如,通过电子邮件或通知传输的信息将发送时间、主题和发件人等数据作为统一字段保存。然而,消息的内容不容易被剖析和分类。
半结构化数据介于结构化和非结构化数据之间。半结构化数据不一定符合与关系数据库或数据表相关联的数据模式的正式结构。然而,半结构化数据可以包含标签或标记来分隔语义元素并强制对数据中的记录和字段进行分组。例如,JSON(JavaScript Object Notation)和XML(可扩展标记语言)等语言都是半结构化数据的形式。
数据是在人工智能系统中学习所需的燃料,是成功AI的最关键组成部分。它来源于以下几个方面:
·网络和社交媒体数据,如点击内容、历史记录、论坛;
·机器和机器数据,如传感器、可穿戴设备;
·生物识别数据,如指纹、遗传学、由可穿戴设备驱动的生物信号;
·人工生成的数据,如电子邮件、纸质文件、电子成绩单等。
常见的描述数据的术语如下。(https://www.daowen.com)
·实例:一行数据或观察值。
·特征:一列数据,这是观察的一部分。
·数据类型:指由特征表示的数据类型(如布尔值、字符串、数字)。
·数据集:用于训练和测试机器学习模型的实例集合。
·训练数据集:用于训练机器学习模型的数据集。
·测试数据集:用于确定机器学习模型的精度/性能的数据集。
·海量数据:适用于包含大量记录的数据集。海量数据集虽然可能是简单的二维关系表,但其所需的资源超过了简单的电子表格分析,并且通常由于在处理过程中要涉及计算庞大的矩阵而需要大量计算能力。
·小数据:小数据与大数据形成直接对比。大数据是分布式的、多样的并且是实时的,而小数据是格式固定、数量少、可访问、信息丰富且可操作的数据。小数据的例子包括患者医疗记录、处方数据、学生成绩单、教师课程表、生物测量、扫描,甚至互联网搜索历史。这些与谷歌和亚马逊等企业和组织提供的服务而产生的数据相比,数据量要小得多。现在已经有很多数据处理的例子表明,一个好的工作最关键的不是数据的多少,重要的是你用数据来做什么。
·元数据:元数据是关于数据的数据——它是关于每个数据资产或单个数据片段的描述性数据。元数据提供有关单个文件的详细信息,是信息共享与交换的基础和前提。元数据提供有关文件来源、日期、时间和格式的信息,也可能包括注释或评论。现代大型企业流行的数据治理工作中有很重要的一点就是要确保数据资产在所有集合中保持一致,这就要求数据能够被正确命名、标记、存储和归档,以确保数据正确并易于查找、检索和分发,元数据在这项工作中的作用就非常重要。现在大数据炒作已经盖过了元数据,然而,伴随大数据而来的是大元数据,大元数据使组织能够产生知识并利用价值。例如,Google和Facebook使用诸如Open Graph之类的分类语言来帮助创建更结构化的Web,从而能够向用户提供更强大和更具描述性的信息。这反过来又为用户提供了人性化的结果,优化了点击率和转化率。元数据在任何以数据为主导的项目中都非常有用,例如,机器学习算法可以使用属于一首音乐的元数据,而不是实际音乐本身,以便能够推荐相关类型的音乐。可以从相关结果的元数据中获得音乐的特征,如流派、艺术家、歌曲名称和发行年份。