高校图书馆大数据整合系统平台
(一)高校图书馆大数据整合需求
1.图书馆IT基础设施架构优化和系统安全性的运行需求
首先,对于图书馆IT基本构架设备的优化,最重要的是应该涉及一些IT基础设备的组织架构是否对大数据资料和系统硬件设备的有机整理合成,数据整理中心的IT基础设备资源能否使拓展、监管和维持保护变得更加简便,数据中心的监管、运行和维持保护所需要的成本是否足够的低,并且在异构环境中是不是具有比较可靠的安全性和可控制性。其次,当因为数据中心系统的整合导致IT架构复杂程度和设备的数量被减少的时候,对数据的储存和对用户的服务和将被运行在数量较少的单个设备上,数据中心的单点故障率是否低和数据存储安全性是否高。再次,IT基础设备架构合成的中心技术是虚拟化;不能因为数据中心对虚拟化技术运用程度的增加,就因此大幅度地增加系统的安全隐患和降低自身的抗风险能力。最后,为了让图书馆服务于用户的性能以及增强系统的可靠性,多个子数据中心一般都会被图书馆在不同的地方构造,以此来提升其用户服务的效率和可靠性。那些关系到图书馆系统运行安全和IT基础设备构架优化的一个重要的问题是对位于不同领域的子数据中心数据进行有效的分析、挖掘和整合。
2.数据中心异构系统与应用服务整合的需求
首先,关系系统安全、管理效率和用户服务质量的关键应用目前主要被图书馆数据中心分布在大型计算机主机上、UNIX平台上,而一些不太重要的应用则被分布在UNIX或x86等平台上。这就使一些现象被着重地表现了出来,比如IT基本设备应用的多元化、构架结构的多平台化、数据离散、系统不同结构和被孤立的信息等。其次,不同的应用提供的服务、运作系统和虚拟化平台也有不同的安全需要与安全准则,很难统一化和预先合成将大数据流的获得、召集、管制、解析、决策平台的软件与硬件系统。再次,如何在保证不同系统平台效率的前提下,以用户需求和图书馆服务能力建设为指导,提高大数据平台综合效率与大数据服务有效性,其关键是运行无缝整合数据中心原有系统和在大数据层面上的新开发的系统。最后,像是那些运作系统异构、系统运行的环境异构、数据库监管系统的异构、网络协定异构、用户环境异构、认证环节异构、远程实施方案的异构、数据本身的异构等,这几个方面都是图书馆的系统异构,数据整合的难易程度和复杂程度因为这些异构的存在而大幅度地增加了。
3.增强大数据价值密度和可控性的需求
首先,图书馆服务已经有所转变,在大数据时代,应用大数据技术,图书馆已经转变了过去的以消耗资源为主的形式,转变成了现在的这种以大数据资源保障为主要内容的个性化“绿色”服务。因此,图书馆的服务创新能力和市场竞争力被大数据资源的价值密度与可控性所影响。其次,因为读者的阅读需要和图书馆服务过程的复杂度增长了,图书馆将面临非常多的挑战,比如业务繁多杂乱、计算的需求增大、数据存储的成本猛烈增长、需要巨大的成本控制能耗以及要保证服务质量等,而服务的安全、高效率、“绿色”清洁和可控制性的保证则是大数据整合的有效性。最后,大数据的分析、评估和预测价值无法被无规律、单一的碎片信息数据显示出来,因为在大数据环境下,数据通常以碎片信息数据流的形式存在。因此,图书馆对数据碎片进行系统性的细分、搭配、重组与整合,就必须以用户服务需求为中心,这样才能提升数据的可控制性、可利用性和价值密度,最终实现大数据向大服务的转变。
4.图书馆需要的智慧管理与智慧服务
图书馆要实现服务系统的智慧服务与智慧管理,可以利用大数据技术来构造出一个智慧型图书馆。
首先,图书馆想要正确把握图书馆基础设施结构合理性、系统的服务能力与管理能力、服务于市场的竞争环境和读者个性化阅读需求等这些实际问题,就只有通过对历史信息与现在数据价值的发现、数据的整合与测量,来形成对图书馆系统构建重要因素之间的联系、服务内容与服务形式、服务市场、服务对象的现状,进行准确的数据挖掘和感知。其次,图书馆只有整理合成与联系解析所采集的全部的数据、流式数据和离线数据,以及调节控制和判断用户的需求形式与服务效率,才能完成改革未来服务形式与内容、服务环境市场的特点、对于个性化的阅读QoS(Quality of Service,服务质量)和用户要求的判断标准进行准确的判断。再次,智慧服务的保证是图书馆智慧管理的最终目标。因此,图书馆对于大数据资源的整理,想要提升大数据服务的支撑力和大数据资源的价值密度,就要一直秉持着以加强服务系统统一保护能力和服务资料综合使用率为目的的思想。最后,大数据平台处理海量动态、快速变化数据的效率与能力,取决于有效的数据整合和科学的数据结构,同时后者也关系着高速数据在短时间内的即时服务质量和价值有效性。因此,图书馆想要保证信息的发现和解决系统、数据的运算和储存系统、业务决策系统和对用户服务系统的服务达到高效率、安全、质优和实效性,就应该通过大数据平台对实时采集的数据流进行快速整合。
5.大数据资源描述语法和主数据库格式统一的需求
对一个图书馆而言,收集大型数据源主要包括用户服务数据,管理员和管理控制数据,用户行为数据,用户阅读器活动、日志和社交链接,微博、QQ、微信反馈数据等构成。但这些主数据库标准和描述语法不统一,而且存在强烈的冲突和不全面性数据。第一,数据源结构复杂,缺乏规律性,数据不能有效语义互联。第二,数据集成过程的科学性和结构合理性以及实验数据格式的互操作性和可控性是集成大数据的主因。第三,图书馆倾向于使用虚拟化方法进行数据集成,以普及大数据源集成的效率并降低集成成本。而如何摆脱实际存储方法,存储路径的限制,普及虚拟可用性和准确率,是有待研发的问题。
(二)高校图书馆大数据建合机制
图书馆大数据集成平台采用分层多维度架构,确保系统平台具有完整精确性。同时,监控调整、修改和完善数据中的添加、修改和删除突发事件,确保不会降低大数据集成平台的整体机制运行,可用性和控制监督图书馆大数据资源平台的系统中收集的大量庞杂资源临时存储在一个临时数据库中,数据通过预定义规则进行清理和筛查,并在数据集成后导入主数据库中。这个系统架构由数据库操作管理层、数据分布层、集成层、系统贮存结构层组成。数据库操作管理层是图书管理员通过监控开发完成大数据库的构建、管理平台应用程序的用户原始界面,数据分布层基于收集数据错误检查和可用性,依据定义的数据清洗与过滤规则,对数据质量分析,数据过滤和清理,以集成优秀的数据资源、高价值的数据,以确保数据的集成密度和可操作性。数据集成层是数据预筛查和过滤后的一个临时数据库,是为了通过挖掘数据源,分析数据切换解析和下载软件,数据写入到主数据库,一个大的图书馆数据资源库的整合得以最终完成。大数据存储层主要由各个大数据资源、改动数据库、分析数据库以及使用不同终端收集的数据组成。数据同步机制确保应用程序和数据在主数据库中的数据一致性,为图书馆大数据库应用提供安全、高利益、易操作和耐用的数据支持。
(三)高校图书馆数据集成布局
1.完善数据中心IT基础设施架构
根据IDC(International Data Corporation,国际调查和研究公司)进行的调研显示,数据资源连年增长60%。海量的数据、种类繁多、实时性强和低价值密度的大数据蜂拥而至。因此,图书馆必须加强数据库IT基础设施的有效整合和改良,达成图书馆系统的差异化结构和大数据资源方式的一致,使资源迅速高效整合。
首先,图书馆数据中心IT基础架构整合改良,要以产品集成、信息集成和业务集成为目标,不仅与风险控制和成本降低,节能需求和质量保证相对照,还要以计算、存储及网络和数据备份设备的虚拟化集成为核心,因此,IT基础设施的有效整合必须基于计算的虚拟化资源库整合使用,以减少IT基础设备的垃圾量普及利用率。其次,有效整合和优化IT基础设施,确保图书馆可以在规则一致的通透的环境中,有效保质保量地检索完整数据,一定要坚持两个统一,即统一的数据环境和统一的数据体系结构的原则。再次,图书馆虚拟化数据中心集成图书馆终端服务器、硬件存储设备时,要秉承稳定、快捷、可持续、环保的理念,要坚持对数据的收集、分析、利用的每个环节对用户负责。最后,图书馆在数据中心IT基础设施库的优化,可根据未来数据环境特点和整合需求进行灵活的扩展和伸缩,保证IT基础设施架构有一定的调整空间,能对未来市场变化做出相应调整、并让该架构有更广阔的服务渠道与智能化的运行模式。
2.大数据资源整合平台应具有多种用途和便捷化管理
图书馆在制定和实施大数据资源整合平台的过程中,第一,要保证大数据资源整合平台应具有多种用途和便捷化管理,使系统更加便捷并降低成本,用户能够通过平台采用的JAVA、C++等系统在第三方下载程序并在本终端使用,还可以自己研发程序供给他人使用;还要使平台系统功能模块软件具备灵活性和可扩展性,以应对日益高涨的数据组合变动,提升整体性能。第二,采用创新的分布式架构执行工作计划排程,管理复杂的数据整合工作流程。第三,通常大数据整合平台应具备对重要数据和实时数据优先的判定功能,根据数据的时效功能确定分级顺序进行整合。图书馆庞大的数据按照用户服务的时效功能分级,主要整合不同类型数据:一类是由系统运行和用户交互与反馈而产生的大量基础型数据,这类数据往往不具有时效功能;另一类是由学习者在服务层面的差异化需求产生的实时信息、当下的定制需求以及为保障学习者信息安全的监控数据。第四,在整个平台构建过程中要秉承“去芜存菁”的方法,通过关系数据库系统在构建过程中日趋成熟的快捷性,优化平台在非结构数据和流数据的重组,在保持数据重组稳定的情况下减少平台构建过程中的资金投入。第五,智能化的资源整合平台要求有高效的数据互通手段,在平台的输入端及时对信息分类后,将初步处理的数据精确地匹配到相关的处理模块,之后将加工过的数据传输至主数据库进行分析和利用。
3.利用云计算技术确保数据整合的高效和经济
新型服务理念和用户需求必然伴随着数据的激增,单纯地通过购买大型硬件设备、提高数据库的兼容性和加工速度、改良检索和匹配的方式、降低学习者服务QoS标准等措施,早已无法满足大数据信息的增长势头,因此图书馆应通过引入云计算技术为大数据整合找到新的出路,数据的安全等级可根据其重要性和图书馆学习者的反馈情况分级。其中系统运行数据、阅读信息、学习者需求信息、运营模式评估数据、客户反馈数据安全级别较低,而安全监管数据、用户资料及身份信息、用户检索痕迹和隐私数据、针对用户行为的智能评估则更为重要,而大数据资源往往总增长量大,又要求功能高效、快速传播、便于检索,因此云计算技术只有应用于图书馆数据库中,数据整合的快捷与效益才有保障。
第一,图书馆受限于自己的资金、人才储备、技术能力,大多通过私有云和租赁云的方式储存和使用它们的数据,进而减少对IT硬件设备、软件创新、数据管理的依赖,有效地节约资金。第二,将私有云用来存储那些更为重要的高密级数据,当图书馆因资金与技术等客观因素不得不将重要数据存储在公有云中时,要和第三方云服务机构协商以明确数据安全的责任、数据使用的权利,并达成有法律保障的协议。第三,为保障资源整合系统的有序管理、安全监控、节约成本、云服务机构需要向图书馆的用户询问身份和相关权限许可。第四,云数据库应在不涉及改变数据检索、利用、反馈方式的前提下,开发更符合市场需求的数据存储、评估和智能化搭建数据模型的能力。
4.以图书馆大数据服务QoS保障为目标
图书馆的特色服务的受众是广大的学习者,其带有鲜明的、不同的社会属性,所以图书馆数据服务也要相应地具有社会特质,以人为本,达到QoS保障是图书馆大数据整合的宗旨。第一,图书馆应吸取传统IT环境下大数据资源整合的长处,将以数据中心硬件设备运营性能的能力的竞争,转变为向图书馆大数据分析与个性化能力的竞争,也就是说图书馆大数据整合应有效地把图书馆运营从大规模生产向实效个性化服务的转型。用准确、快速和高效的分析,判断学习者个性阅读需求变化,提供量身定制的个性化服务产品。第二,图书馆对不同终端设备采集的大数据资源要科学整合,这就需要在改善服务流程、提高针对服务时效与速度、推广营销管理政策、个性化用户服务数据等方面上台阶上高度,高标准严要求。第三,图书馆大数据库内部数据和服务资源的整合,依据就是最终完成的用户大数据分析结果,高效实现用户服务内容和模式的定制与投放,这就要提升图书馆业务的深挖,提升以人为本理念,提升用户对服务产品的适应性,“打铁还需自身硬”就是这个道理。第四,来图书馆的学习者的阅读习惯、阅读爱好、阅读种类、阅读情志等,都是有价值的数据,图书馆大数据整合要注重提升获取此数据的能力,还要多元化跨界与第三方大数据提供商、移动终端服务商深度合作,扩展数据传输服务的内核,依据数据分析结果来判断所提供给学习者的服务是否准确、受用。
5.协调系统架构和优化数据整合
在图书馆运行的过程中会遇到大数据技术无法做到收集与分析相适应的情况,进而给图书馆在协调系统架构和优化数据整合上带来棘手的问题,产生这样的问题的原因是在图书馆对于原始数据收集和分析时,由系统运行和终端服务器搜集的新数据种类与原始数据之间会产生差异。当大数据作为一个整体体现其利用价值时,一定要制定数据与系统结构统一的模式;另外,当设计人员构建一个大数据平台时,要尽量做到系统的各个部分之间效率的最大化,将大数据的搜集、分类、处理,利用各个流程汇集成一个整体;建立完善的安全管理系统,对数据库的运行有所保障,通过智能的软件防火手段评估和规避风险;大数据平台应用的优势在于简单的系统和管理方式,得益于便捷的系统,大数据平台充分利用信息的时效性,加速信息的流动和数据的交流。而对于平台的操作人员来说,便捷的管理方式和操作流程能为数据的结构管理提供最大的帮助;大数据整合的最终目的是推动图书馆信息化的发展,打造以满足用户需求为主的新型图书馆。新型图书馆应以可持续发展的方式,推动信息的传播与交流,也为建立环保、便捷的大数据平台提供帮助。并且图书馆要为完善数据使用与信息共享方面的法律法规做出贡献,为数据在传播与交流的管理、控制、监督上提供保障。
当前如何运作图书馆架构体系?如何入手管理用户之间关系,为用户带来新内容、新思维?同时使用户享受来自图书馆的服务水准?这就要从数据组成是否具有科学性和使用价值,是否可以平等分享、易检索等方向上深入研发。由此可看出应用高级智能对价值密度不高的杂乱资源、集散资源进行分拣、清洗、转换、整合,使数据平台的资源结构趋于合理化,构建一个高价值高密度、可持续利用的基础IT资源体系是图书馆获得新的市场信息和洞悉能力,高效科学地提供满足个体用户的差异化需求服务的关键。
正因如此,图书馆应该基于学习者的差异化需求和大数据资源的固有价值创建一个庞大的管理平台和数据库集成系统。并且,图书馆应该根据用户的安全需求和差异设定与完善用户服务系统。对图书馆大数据资源的结构、数据格式、状态进行详尽的分析,有效地普及数据相通,减少直至杜绝信息孤岛,从而能普及获取信息的横向与纵向,能将图书馆的用户使用习惯、系统运营、数据管理进行有效的运作。