http://aliapp.blog.51cto.com/blog/8192229/1326082上一篇接上,我们继续来探讨数据一致性这个问题。谈到数据完整性和数据可用性问题的第二个方法。简单回溯上一次的异步模式。好处是性能,坏处是丢数据。但其实不会丢很多,所以大部分业务是可以接受一年丢几条记录这种case的。所以这也是大部分业务主要在跑的模型。那么,对于一些对数据丢失case要求较高的业务,有什
原创 2012-04-16 09:54:00
605阅读
http://aliapp.blog.51cto.com/blog/8192229/1327609上一篇在上一个章节,我们阐述了分布式场景下,事务的问题和一些可能的处理方式后,我们来到了下一章节Key-value存储这一章,我们将进入k-v场景,其实,在大部分场景下,如果某个产品宣称自己的写读tps超过其他存储n倍,一般来说都是从k-v这个角度入手进行优化的,主要入手的点是树的数据结构优化和锁的细
原创 2011-12-22 22:41:00
990阅读
上一篇事务原理http://aliapp.blog.51cto.com/blog/8192229/1325423单机事务:其实在上面介绍ACID的时候我们已经提到了一种最简单的实现方式,就是锁的实现方式。从原理来看,事务是个变态而复杂的事情。其实如果是序列化的话呢,那么实现起来一定是非常简单的。但问题就在于,这样性能实在比较低,于是,就有了非常多的方案,为了能哪怕减少一个地方的锁,或者降低一个地方
原创 2011-12-10 12:37:00
501阅读
http://aliapp.blog.51cto.com/blog/8192229/1325407上一章在上一章节,我们一起浏览了如何进行单机事务操作。下面我们来看一下分布式场景中我们碰到的问题吧。需要说明的一点是,这里涉及到的权衡点非常的多。就我短短的工作经验里面,也只是能够简单的涉猎一部分,因为在事务这个领域,目前大家都在尝试提出各种各样的不同的方法,而在taobao,我们目前也没有完美的解决
原创 2011-12-15 19:34:00
818阅读
http://aliapp.blog.51cto.com/blog/8192229/1325406上一篇首先来回答一个问题:为什么在磁盘中要使用b+树来进行文件存储呢?原因还是因为树的高度低得缘故,磁盘本身是一个顺序读写快,随机读写慢的系统,那么如果想高效的从磁盘中找到数据,势必需要满足一个最重要的条件:减少寻道次数。我们以平衡树为例进行对比,就会发现问题所在了:先上个图这是个平衡树,可以看到基本
原创 2011-12-22 22:43:00
1696阅读
今天有人问我有没有数据存储的相关资料,我想了想。。虽然在这个领域内也算有点积累,以前讲课的ppt有200多页,但毕竟ppt的信息量有限。所以在这里将这个系列的部分内容在这里进行重新编排。这个内容会在我的轻博客和这里同步龟速更新。主要将涉及到:1.数据库原理关系代数事务lsqlk-v存储的使用数据存储模型数据写入模式性能和安全性分析2.倒排索引3.分布式kv系统数据的切分数据的管理和扩容数据安全性读
原创 2011-12-07 00:40:00
777阅读
http://aliapp.blog.51cto.com/blog/8192229/1327593上一篇目前,团队blog和sina轻博客的发布进度已经完全相同,后续会全部时间隔了比较久了,因为最近在过年临近,所以都在准备这方面的事情。这里提前祝大家新年快乐。然后还是回到我们的正题儿吧:)本章,我们主要来讨论数据的管理和扩容中最重要的一个部分,数据迁移。数据迁移是数据运维中最为重要的一个部分,在前
原创 2012-01-22 12:52:00
800阅读
http://aliapp.blog.51cto.com/blog/8192229/1327598上一篇ps:最近霸神推了一把,粉丝增加不少,顿时亚历山大。。还是希望大家用轻松一点的心态来看待我的这些科普文。如果想精细推敲,欢迎在后面留言,我一定会与您讨论与分享。上一期我们主要在介绍hash相关的切分方式,那么这次我们来看一下有序结构的切分有序结构的拆分,目前主要就是使用树或类似树的结构进行拆分,
原创 2012-01-22 12:44:00
706阅读
http://aliapp.blog.51cto.com/blog/8192229/1327610上一篇上次我们讲到,单机事务个我们面临的问题,下面我们来说一些我所知的解决的方法。在我开始做淘宝数据层的时候,被问得最多的无非也就是:如何做事务,如何做join.至今仍然如此,我一般都会简单而明确的跟对方说:没有高效的实现方法。虽然没有高效的实现,但实现还是有的。作为引子,我们先来介绍一下这种实现的方
原创 2011-12-19 17:42:00
748阅读
http://aliapp.blog.51cto.com/blog/8192229/1325427上一篇首先是回答上次的问题。假设有这么一组数据,性别有4种,user_id是一对多的关系,如果我想查询select*fromtabwhereuser_idin(?,?,?,?)and性别=’不明’如何进行索引构建能够获得比较好的效果呢?我个人认为,应该建立的是以user_id作为前导列,性别作为辅助列
原创 2011-12-10 12:31:00
756阅读
http://aliapp.blog.51cto.com/blog/8192229/1327592上一篇在上一章中,我们主要介绍了规则引擎中最重要的一个部分,自动扩容,在今天的章节,我们主要还是介绍一下我们在淘宝TDDL中的工程实践吧。首先从原理开始吧。先来一张图这张图以前也出现过,我们在里面着重介绍了规则引擎规则引擎是什么呢?对应在上述例子里面,其实就是DBNum=pk%3这个规则。他的变化可能
原创 2012-02-05 14:26:00
804阅读
http://aliapp.blog.51cto.com/blog/8192229/1327600上一篇上一次,我们介绍了几种常见的kv存储模型,下面我们就正式进入到分布式存储的场景里去看看这套东西在分布式场景下的运作方式吧。在分布式key-value中,很多原来的知识是可以继续复用的。因为k-v解决的问题实在是非常的简单,只不过是根据一个key找到value的过程,所以原来的知识,现在也继续的可
原创 2012-01-06 11:52:00
464阅读
http://aliapp.blog.51cto.com/blog/8192229/1325405上一篇终于来到了COLA树系,这套东西目前来看呢,确实不如LSM火,不过作为可选方案,也是个值得了解的尝试,不过这块因为只有一组MIT的人搞了个东西出来,所以其实真正的方案也语焉不详的。从性能来说,tokuDB的写入性能很高,但更新似乎不是很给力,查询较好,占用较少的内存。http://www.mys
原创 2012-01-06 11:50:00
821阅读
http://aliapp.blog.51cto.com/blog/8192229/1325638海量存储系列之序言那么在走进海量存储与检索的世界之前,我们先看一看目前似乎觉得最落伍的数据库系统。丑话先说。。我也没在这个领域沉浸几年,所以其实里面很多的概念也是有可能模糊的,所以在这里写出来,一是希望我能把以前的积累再次重新的梳理一次,查缺补漏。二也是在这世界留下点记录。。表明我曾经来到过这世界,学
原创 2011-12-07 00:44:00
690阅读
http://aliapp.blog.51cto.com/blog/8192229/1327613上一篇在上一篇里面,我们对数据库的抽象的组成原理进行了简单的描述。在这一篇里面,我们一起来看看,如何能够使用kv这样的工具。来完成关系代数运算。那么,让我们先来热热身:这是一组数据,以pk作为主键,user_id和Name是外key.那么,如果我要运行查询:Select*fromtabwhereid=
原创 2011-12-07 00:45:00
618阅读
http://rdc.taobao.com/team/jm/archives/1387首先来回答一个问题:为什么在磁盘中要使用b+树来进行文件存储呢?原因还是因为树的高度低得缘故,磁盘本身是一个顺序读写快,随机读...
转载 2013-07-23 17:46:00
70阅读
2评论
在大数据处理的诸多环节当中,存储是尤其关键的一环,只有实现了稳固的数据存储,才能为后续的大数据分析、数据可视化等环节提供稳定的地支持,可见大数据存储的重要性。今天我们就来详细聊聊大数据存储技术。进入大数据的学习,我们对于分布式理论都不陌生,正是分布式架构的出现,才使得基于廉价的PC硬件来实施大规模数据处理成为可能。而分布式架构当中,分布式存储和分布式计算,可以说是核心的环节。
目录海量数据的存储海量数据的计算大数据处理的主要应用场景前言:大数据技术诞生之初,就是为了解决海量数据的存储和计算问题。大数据起源于Google。Google是当时世界上(尽管目前也是)最大的搜索引擎公司,由于互联网时代的到来,Google积累了海量的用户,海量用户意味着海量的数据,谷歌需要将这些数据保存下来,传统的保存数据的方式已经满足不了Google的需求了。首先我们需要了解,海量数据的存储
发布于2020-02-04分布式存储分布式存储系统CephCeph是什么?它是一个软件定义的开源分布式对象存储解决方案,面向PB级的海量数据存储平台。最初由Inktank于2012年开发,该公司在2014年被红帽收购。随着近几年大数据的发展,因为在性能、可靠性和可扩展性方面具有优秀表现,Ceph在分布式存储领域获得了大量关注。作为一个企业级开源平台,Ceph可在标准经济型服务器和磁盘上提供统一的软
随着“金盾工程”建设的逐步深入和公安信息化的高速发展,公安计算机应用系统被广泛应用在各警种、各部门。与此同时,应用系统体系的核心、系统数据的存放地――数据库也随着实际应用而急剧膨胀,一些大规模的系统,如人口系统的数据甚至超过了1000万条,可谓海量。那么,如何实现快速地从这些超大容量的数据库中提取数据(查询)、分析、统计以及提取数据后进行数据分页已成为各地系统管理员和数据库管理员亟待解决的难题。
转载 2021-08-10 11:12:38
337阅读
  • 1
  • 2
  • 3
  • 4
  • 5