大数据时代高校图书馆所要面对的挑战

一、大数据时代高校图书馆所要面对的挑战

随着现在对信息资源的利用需要和信息技术的发展状况,理解什么是“大数据”,所必须掌握的内容之一就是怎样直面当前图书馆各个方面被大数据所带来的冲击及挑战。

(一)数据量的增长对存储能力及计算能力所带来的挑战

在高速发展的数字信息环境中,数据量的急剧增长是由数据成本下降所造成的,数据类型的增多是因为出现了新的数据源和数据采集技术,因为各种非结构化的数据的产生,大数据的复杂性增加了,但同时也从大数据应用中发现了具有极强挑战性的科学问题及社会问题。而这对于以大数据为基准的科学研究是有利的,也推动了图书馆形成新类型的知识服务样式,而现有的数据中心技术难以满足大数据的应用及知识服务需求,所以亟须进行革命性完善的是整个知识服务架构。首先,储存能力的增长远远落后于数据量的增长,信息资源管理及知识服务体系的关键是设计出最合理的分层、分级存储架构;其次,由于移动互联网技术的日臻完善,数据移动相比于过去更加地频繁了,而数据的移动是信息资源管理最耗费资金的地方,这就迫使知识管理进行改变,将传统的数据转变为计算能力围绕着数据转,而不是围绕着计算能力转;最后,还需要解决一些其他技术性的问题,比如计算机通量高、可靠性高、可扩展性广、可用性强的规模、统计、语义及预测性等分析数据的技术、表示新数据的方法等。

(二)传统常规分析向广度、深度分析转变所带来的挑战

图书馆知识服务体系创新与完善需要支撑点,数据分析是其中不可或缺的一个。为了应对图书馆未来所面对的生存危机,在行动上做出主动准备。图书馆除了需要通过数据来了解现在的知识服务过程之外,更要对将要发生的事进行预测和分析,这就需要利用数据科研创新合作过程以及合作交互型知识服务过程。分析操作包含很多方面,如时间序列分析、数据关联关系分析、社会网络分析、大规模图分析及移动平均线分析等广度及深度分析等,除此之外,还包含常规分析,以上这些都是值得补充的。

(三)基础设施挑战

存储及计算规模不得不随之增大是因为数据量及非结构化数据的迅速增加,导致其成本极速增加。考虑到成本问题,对支持非结构化的数据储存及分析的基础设施提出更高的要求,应用由高端服务器被转向了由中低端硬件构成的大规模计算机集群,以服务日渐增多的知识服务机构。第一,为大规模分布式数据密集型应用而设计的基础设施中需要分布存储、计算需求;第二,存储与计算能力是十分经济高效的,并且需要具备足够的能力,包括可以获取、存储和分析那些TB、PB级别的数据,并且还需要拥有智能分析能力,用来减少数据足迹(例如自动数据分层、大数据压缩及重复数据删除等);第三,它还需要拥有另一个网络基础设施,能够快速将分块的大数据集信息复制到集群服务器节点上进行处理;第四,还需要具有可信应用体系的软硬件基础设施来保护高度分布式基础设施和数据;第五,图书馆大数据研究及处理最值得期待的挑战之一是技能熟练的作为人力及智力基础设施的图书馆馆员。