4.3.1 引言

4.3.1 引言

网络基础硬件及网络技术的高速发展、网络接入设备的多样化、尤其是网络普及率的大幅提高和移动终端设备的便携化,创造了繁荣的网络世界,产生了海量的Web数据,使得人们快速步入了大数据时代。大数据时代为人们的工作学习、娱乐提供了前所未有的便利,数据海量且充分,可使用户各取所需,满足不同人群的不同需求。然而,海量的数据也同时让人们迷失在数据的海洋中,无法看清隐藏在数据背后深层的知识,即所谓的“数据海量,知识贫乏”。在海量的Web数据中,同时也存在着海量的完全或者近似重复数据,这些重复数据往往通过复制或者稍做修改而成。在某些领域中,重复数据作为噪音数据,会造成存储浪费或者影响用户体验,例如在搜索引擎中,搜索引擎往往会将重复数据作聚类合并呈现,即在搜索结果中往往只会呈现一条,而不会一一呈现在搜索列表中;而在某些领域中,这些重复数据又发挥着重要作用,例如在网络舆情热点发现和网络舆情时间维度的演化分析中,都无法离开重复数据的支撑。重复数据检测是大数据时代不可或缺的一门技术。