3.4 教育大数据框架

3.4  教育大数据框架

依据大数据技术的一般流程,同时结合教育的业务特点,教育大数据平台的定位是为教育大数据的汇集融合、海量存储、高效计算、深入分析挖掘以及教育应用的开发与运行提供基础支撑,因此该平台应具有以下通用的功能性需求:

(1)数据采集方面,应提供各种数据适配接口,支持结构化的数据库记录、非结构化的教育教学资源、实时的行为数据流等各种多源、异构数据的汇集;

(2)数据存储方面,面对海量数据的存储需求,应提供高可扩展性、高容错性、高吞吐量、低成本的分布式存储方案,支持文件系统、SQL/NoSQL数据库、数据仓库等存储方式,并提供高效的管理与快速查询功能;

(3)数据计算方面,应提供面向海量数据的并行计算引擎,满足批量计算、实时计算、图式计算等不同应用场景的计算需求;

(4)分析挖掘方面,应提供面向教育领域的分析挖掘模型及其相应的算法,能实现算法的并行化,并支持算法参数的灵活配置。

教育大数据平台覆盖了从数据采集、存储计算、分析挖掘到具体应用的整个生命周期。基于此,我们给出了教育大数据平台的通用架构,如图3-2所示。

图示

图3-2 教育大数据平台的通用架构

1.数据源

教育大数据的来源可分为四种类型:①管理类数据,包括学籍数据、学生成绩、上网数据、一卡通数据等,这些数据多以结构化的形式存储在关系数据库中;②资源类数据,包括媒体素材、试题库、课件、案例等,这类数据多以文本、音视频等非结构化的形式存储在文件系统中;③行为类数据,包括教师教学行为和学生学习行为产生的数据,前者涉及讲解与演示行为、答疑与指导行为、提问与对话行为、评价与激励行为等,后者则分为信息检索类、信息加工类、信息发布类、信息交流类等;④评价类数据,包括学业水平考试类数据和综合素质评价类数据。

2.采集层

教育数据的采集方式可以分为批量采集和实时采集两种。批量采集一般用于导入、同步、复制历史收集的日志数据、数据库记录、资源文件、互联网数据等。实时采集主要实时收集、传输在线行为类数据,而对于线下传统教学环境中的数据可以利用点阵数码笔、图像识别等采集技术进行获取。

3.存储层

对于从数据源采集到的各类教育数据,需要不同的存储方式对其进行保存,存储方式包括文件系统、数据库、数据仓库、消息系统、内存存储系统等。为应对海量教育数据的存储需求,这些存储方式大多采用分布式架构。为支持复杂的分析,挖掘任务存储层会以分布式数据仓库为主要的存储及管理方式,并分为临时存储区、操作性数据仓库、大数据仓库和数据集市四层。

平台关键技术如下:

(1)学习行为大数据采集技术。

心理学角度来说,学习行为有五大基本要素,即主体、客体、上下文、手段、结果。基于这五大基本要素,美国高级分布式学习(Advanced Distributed Learning,ADL)组织发布了Experience API(XAP)规范。从行为发生角度来说,在线学习行为发生在学习者与图形用户界面的交互过程中,并通过事件模型来响应用户的行为动作。

(2)教育大数据的存储与计算技术。

教育大数据与传统中小规模数据相比,在数据来源、结构、体量等方面有本质的区别。这些特征的变化,使得传统数据存储与计算技术难以应对现有教育大数据的需求,故促使数据的存储方式、计算模式和体系结构均发生了变化,存储方式从传统集中式向分布式发展,计算模式从传统单机多线程计算向集群并行运算演进,体系结构从计算、存储相分离向一体化融合方向发展。

(3)教育大数据的分析挖掘技术。

教育大数据的核心是综合运用数理统计、机器学习、数据挖掘、模式识别等技术,在对教育数据进行预处理、探索性分析的基础上,通过分析模型、预测模型的构建,从数据中提取出有价值的信息,以此促进教学过程的优化与教育变革。

教育大数据是学生学习个性化、教师教学精准化的需求,是量化学习过程、深入研究学习内在发生机制的需求,也是精细化管理、利用数据进行决策支持的需求。教育大数据的发展应以教育大数据平台为依托,以破解当前教育面临的实际问题为导向,通过海量教育数据的采集、存储与计算、分析挖掘,驱动教育在个性化学习、精准教学、科学决策、教育研究等多方面的变革与创新,促进大数据与教育教学的深度融合。