如何处理大数据

原创

zdx墨涵 2016-02-23 15:09:19 博主文章分类：数据库 ©著作权

©著作权归作者所有：来自51CTO博客作者zdx墨涵的原创作品，谢绝转载，否则将追究法律责任

优化：表分区，索引分区 (优化①粗略的进行表分区，优化②为精确数据分区)

为什么要表分区？

当一个表的数据量太大的时候，我们最想做的一件事是什么？将这个表一分为二或者更多分，但是表还是这个表，只是将其内容存储分开，这样读取就快了N倍了

　　原理：表数据是无法放在文件中的，但是文件组可以放在文件中，表可以放在文件组中，这样就间接实现了表数据存放在不同的文件中。能分区存储的还有：表、索引和大型对象数据。

SQL SERVER 2005中，引入了表分区的概念，当表中的数据量不断增大，查询数据的速度就会变慢，应用程序的性能就会下降，这时就应该考虑对表进行分区,当一个表里的数据很多时，可以将其分拆到多个的表里,因为要扫描的数据变得更少 ,查询可以更快地运行,这样操作大大提高了性能,表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据在物理上存放到多个表空间(物理文件上)，这样查询数据时，不至于每次都扫描整张表

2.1什么时候使用分区表：

　　1、表的大小超过2GB。

　　2、表中包含历史数据，新的数据被增加到新的分区中。

　　2.2表分区的优缺点

　　表分区有以下优点：

　　1、改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索速度。

　　2、增强可用性：如果表的某个分区出现故障，表在其他分区的数据仍然可用;

　　3、维护方便：如果表的某个分区出现故障，需要修复数据，只修复该分区即可;

　　4、均衡I/O：可以把不同的分区映射到磁盘以平衡I/O，改善整个系统性能。

　　缺点：

　　分区表相关：已经存在的表没有方法可以直接转化为分区表。不过 Oracle 提供了在线重定义表的功能。

　　2.3表分区的操作三步走

　　2.31 创建分区函数

　　CREATE PARTITION FUNCTION xx1(int)

　　AS RANGE LEFT FOR VALUES (10000, 20000);

　　注释：创建分区函数：myRangePF2，以INT类型分区，分三个区间，10000以内在A 区，1W-2W在B区，2W以上在C区.

　　2.3.2创建分区架构

　　CREATE PARTITION SCHEME myRangePS2

　　AS PARTITION xx1

　　TO (a, b, c);

　　注释：在分区函数XX1上创建分区架构：myRangePS2，分别为A,B,C三个区间

　　A,B,C分别为三个文件组的名称，而且必须三个NDF隶属于这三个组，文件所属文件组一旦创建就不能修改

　　2.3.3 对表进行分区

　　常用数据规范--数据空间类型修改为：分区方案，然后选择分区方案名称和分区列列表，结果如图所示：

　　也可以用sql语句生成

　　CREATE TABLE [dbo].[AvCache]( [AVNote] [varchar](300) NULL, [bb] [int] IDENTITY(1,1) ) ON [myRangePS2](bb);

　　--注意这里使用[myRangePS2]架构，根据bb分区

　　2.3.4查询表分区

　　SELECT *, $PARTITION.[myRangePF2](bb) FROM dbo.AVCache

　　这样就可以清楚的看到表数据是如何分区的了

　　2.3.5创建索引分区

　　优化③：分布式数据库设计

　　分布式数据库系统是在集中式数据库系统的基础上发展起来的，理解起来也很简单，就是将整体的数据库分开，分布到各个地方，就其本质而言，分布式数据库系统分为两种：1.数据在逻辑上是统一的，而在物理上却是分散的，一个分布式数据库在逻辑上是一个统一的整体，在物理上则是分别存储在不同的物理节点上，我们通常说的分布式数据库都是这种2.逻辑是分布的，物理上也是分布的，这种也成联邦式分布数据库，由于组成联邦的各个子数据库系统是相对“自治”的，这种系统可以容纳多种不同用途的、差异较大的数据库，比较适宜于大范围内数据库的集成。

　　分布式数据库较为复杂，在此不作详细的使用和说明，只是举例说明一下，现在分布式数据库多用于用户分区性较强的系统中，如果一个全国连锁店，一般设计为每个分店都有自己的销售和库存等信息，总部则需要有员工，供应商，分店信息等数据库，这类型的分店数据库可以完全一致，很多系统也可能导致不一致，这样，各个连锁店数据存储在本地，从而提高了影响速度，降低了通信费用，而且数据分布在不同场地，且存有多个副本，即使个别场地发生故障，不致引起整个系统的瘫痪。但是他也带来很多问题，如：数据一致性问题、数据远程传递的实现、通信开销的降低等，这使得分布式数据库系统的开发变得较为复杂，只是让大家明白其原理，具体的使用方式就不做详细的介绍了。

　　优化④：整理数据库碎片

　　如果你的表已经创建好了索引，但性能却仍然不好，那很可能是产生了索引碎片，你需要进行索引碎片整理。

　　什么是索引碎片?

　　由于表上有过度地插入、修改和删除操作，索引页被分成多块就形成了索引碎片，如果索引碎片严重，那扫描索引的时间就会变长，甚至导致索引不可用，因此数据检索操作就慢下来了。

　　如何知道是否发生了索引碎片?

　　在SQLServer数据库，通过DBCC ShowContig或DBCC ShowContig(表名)检查索引碎片情况，指导我们对其进行定时重建整理。

　　通过对扫描密度(过低)，扫描碎片(过高)的结果分析，判定是否需要索引重建，主要看如下两个：

　　Scan Density [Best Count:Actual Count]-扫描密度[最佳值:实际值]：DBCC SHOWCONTIG返回最有用的一个百分比。这是扩展盘区的最佳值和实际值的比率。该百分比应该尽可能靠近100%。低了则说明有外部碎片。

　　Logical Scan Fragmentation-逻辑扫描碎片：无序页的百分比。该百分比应该在0%到10%之间，高了则说明有外部碎片。

　　解决方式：

　　一是利用DBCC INDEXDEFRAG整理索引碎片

　　二是利用DBCC DBREINDEX重建索引。

　　两者区别调用微软的原话如下：

　　DBCC INDEXDEFRAG 命令是联机操作，所以索引只有在该命令正在运行时才可用，而且可以在不丢失已完成工作的情况下中断该操作。这种方法的缺点是在重新组织数据方面没有聚集索引的除去/重新创建操作有效。

　　重新创建聚集索引将对数据进行重新组织，其结果是使数据页填满。填满程度可以使用 FILLFACTOR 选项进行配置。这种方法的缺点是索引在除去/重新创建周期内为脱机状态，并且操作属原子级。如果中断索引创建，则不会重新创建该索引。也就是说，要想获得好的效果，还是得用重建索引，所以决定重建索引。

上一篇：wamp环境单独安装（windows下apache2.4、mysql5.5、php5.5的版本）

下一篇：关于jquery.uploadify.js不兼容IE11

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯