数据库类型
按照存放数据方式不同,数据库分为关系型数据库和非关系型数据库。
常见的关系型数据库有MySQL、Oracle、DB2、Sybase、PostareSQL、SQLServer、Access等。MySQL是学习Hive大数据技术的基础。
常见的非关系型数据库有BigTable(Google)、Hbase(Apache)、Redis、MongoDB、Cassandra等,其中BigTable、Hbase大数据中用到的数据库
数据库三范式
主导市场的基于关系模型的关系型数据库所采用的关系型数据库所采用的数据结构算法是B+树。
B+树数据结构算法的优点是:在GB级的数据量内可提供毫秒级低时延的数据访问,但当数据体量超过GB级时,数据访问所消耗的时间会急剧增加,访问的时延就会增加。
数据库三范式,用来解决数据的冗余即数据重复存储问题,保证数据库中不出现重复的数据,从而保证数据的体量控制在GB级。
1.第一范式(确保每列保持原子性)
2.第二范式(确保表中的每列都和主键相关)
3.第三范式(确保每列都和主键列直接相关,而不是间接相关)
数据仓库
目的:帮助企业快速有效地从大量资料数据中分析出有价值地信息,以利决策拟定及快速回应外部变化,帮助企业构建商业智能系统应用。
无数据仓库时代
造成地影响:给源系统造成访问压力;下游系统也会面临更严峻地挑战。
数据仓库的发展
数据仓库也叫数据平台、企业数据操控、操作性数据存储,是面向主题的、继承的、可变的、反映当前数据值和详细的数据集合。
数据库从企业BI系统中解耦出来,数据仓库独立完成企业各类前场业务系统源数据库中的数据抽取、清洗、整理和汇总等任务。下游BI从数据仓库中获取经过加工处理的各类前场业务系统所产生的数据。
数据库与数据仓库的不同
1)存放的数据
数据库一般存放的是企业即时业务下产生的数据;
数据仓库一般存放的是企业的历史数据和对历史数据抽取、清洗、加工、汇总和处理后的操作型数据。
2)处理数据的方式
数据库是基于事务处理数据的,企业各个前场业务系统之间的数据存储都是独立的;
数据仓库是面向主题域组织数据的,也就是说仓库会按照某一个或几个主题域进行数据的存储、加工。
分布式数据库
分布式数据库系统是数据库系统和计算机网络技术的结合。
数据库系统的动机之一是集成企业的运营数据,提供集中的、对于数据可控制的存取。
计算机网络技术提倡的是一种反对集中的工作模式。
数据库技术最重要的目标是集成,而不是集中。
分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)。
1、高可扩展性:分布式数据库必须具有高可扩展性,能够动态地增添存储节点以实现存储容器地线性扩展
2、高并发性:分布式数据库必须及时响应大规模用户地读写请求,能对海量数据进行随机读写。
3、高可用性:分布式数据库必须提供容错机制,能够实现对数据地冗余备份,保证数据和服务的高度可靠性。