5.3.3 大数据的存储技术
2025年09月26日
5.3.3 大数据的存储技术
大数据常用的数据库有以下几类:
•面向文档的数据库——MongoDB;
•基于内存的键值存储数据库——Redis;
•分布式MPP架构/列存储数据库——HBase;
•分布式MPP架构/支持列存/关系型数据库——Greenplum。
以上数据库都属于NoSQL数据库管理系统。NoSQL是一种与关系型数据库管理系统截然不同的数据库管理系统,它的数据存储格式可以是松散的,通常不支持Join操作。
面向文档的数据库——MangoDB
传统数据库只适合存储结构化数据,对于海量非结构化、半结构化数据则显得无能为力;面向文档数据库技术则填补了这一空白,如图5-12所示。MongoDB是一个高性能、开源、无模式的文档型数据库,官方给自己的定义是Key-value存储(高性能和高扩展)和传统关系型数据库(丰富的查询和功能)之间的一座桥梁,MongoDB使用C++开发。Mon-goDB的最小存储单位就是文档对象,对应于关系型数据库的行,数据在MongoDB中以BSON[1]文档的格式存储在磁盘上。每一个文档对象,MongoDB都会为它分配一个唯一的ID,名为“_id”。
图5-12 传统数据库和面向文档的数据库