最近,我们看到许多使用Redis的案例,尤其是大型及先进的系统中应用的更多。事实上,我们正管理着一个新的规模庞大的Redis集群,设计该架构是为了每秒能处理上百万个事务。然而,Redis与Memcache有许多类似的地方,都是基于网络的、运行于内存的、用来储存key value数据的存储器,所以通常被用来缓存许多信息,包括像PHP会话及数据库数据等。但Redis比Memcache要好。
许多客户会问如何选择磁盘驱动之类的问题,典型问题从是否应该使用SSD到如何以及在哪里使用RAID等等不一而足。我们也经常发现,客户花了钱买错了系统,不能够实现预期使用目的,要么花了很多的钱,要么钱花不到点子上。一位客户对自己的服务器展开了讨论,我们受到了启发,所以想借助该博客,阐述一下我们对于磁盘系统原理知识的观点
您可能会留意到最近在Linux内核及某些工具如vmstat中,有一个新的CPU使用率的类别,名字叫stealing。这是什么意思呢?为什么您的CPU会被盗用?难道是外星人在我们的服务器上工作,恶意偷窃了CPU?嗯,还是... CPU被盗用是一个新概念,与虚拟化和云计算有关。指的是当您的虚拟程序需要运行时,系统管理程序却不给您分配CPU周期,所以,您的虚拟 CPU周期被偷走给了别人,通常是给了另一个虚拟程序。
我们看到许多客户的系统因为SQL及数据库设计的很差所以导致许多性能上的问题,这些问题不好解决,但是可以采用一套简单的策略来检查生产系统,发现并纠正一些共性问题。
51CTO博客开发
云络宣布,已经基于最先进的云和DevOps技术,设计、创建了一个新系统,并交付给一家来自硅谷的中国创业公司。云络会一直进行7*24全天候管理、监测并改进该系统。该系统是由云平台Heroku平行迁移过来的,目的是使其拥有PaaS平台的所有优势,并在AWS平台上采用HA-VPC和OpsWorks功能,另外同时增加DevOps、自动创建、自动扩展、HA冗余以及热门的Docker技术。鉴于该技术的先进性,
我们受到非黑客攻击,是Linux内核版本3.5-rc1以及RedHat backport补丁应对swappiness=0。这是一种真实的威胁,我们一名客户受到影响,被利用OOM机制使得MySQL主数据库服务器崩溃。这个对内核的“微小”改变导致系统不能适当进行Swap,直接导致OOM机制杀掉MySQL进程。这就对如下解释产生怀疑:系统已拥有128GB内存,很多内存处于空闲状态,同时拥有128GB的空
Linux 内核有两个重要的设置,对于每秒处理上千个连接的高流量站点而言,是很有用处的,这两个设置就是tcp_tw_recycle 和tcp_tw_reuse。这些内核设置允许我们在有新的客户端连接时重新使用套接字(文件描述符)。尽管这两个设置看起来很相似,其实却是截然不同的,若不进行慎重的管理,内核会很快用完所有套接字并且会丢失相关的用户数据。由于客户端连接和断开有许多方式,所以,正如您所知道的
互联网信息科技和运维一直在不断变化,包括了IT所覆盖的一切新工具、云、基础设施、技术和要求。虽然,现今的在线商务和客户都希望能够得到世界级的全天候24小时线上运维服务,但是由于有这些不断变更的部件,构建、管理并运行线上系统正变得越来越复杂。传统的服务器运维和IT已经有了很好的定义。但是,放在今天就不那么容易了,因为诞生了许多如私有云、公共云、混合云、云存储以及SaaS 和API服务供应商等其他因素
管理大型的、全天候的互联网服务类、支持类以及运营类公司是一件艰苦的工作,需要运用到许多系统、人力以及跟踪和支持服务,并且任务列表每年都在增加。我们使用许多开源工具以及内置系统来完成这些工作。我们不断地改进我们的管理和系统,随着2013年的结束,我们最近增加了下列项目和系统。专家级工程师 - 我们的全天候核心支持团队就是我们的报警和请求(Alert and Request)工程师团队,他们是一线支持
亚马逊AWS宣布了他们会在2014年年初进入中国进行开发员评审活动然后进入常规使用。此后不久,IBM宣布他们也将采取类似行动。2014年将是中国云计算最有趣的一年。自从2008年首次推出公共IaaS以来,不仅亚马逊而且IBM都有计划进入中国,这不仅对科技界而言甚至对于整个中国来说,都是一件大事。虽然听了这个新闻之后,本地云公司可能不会感到兴奋,但是,这项变革所带来的竞争和全球标准将会刺激中国云市场
我们从业于云科技行业,我们的工作及愿景就是运行世界上所有的互联网服务器。这确实是非常多的服务器,但是更重要的是,这包含了在各种环境,各种架构下的各种服务器,包括运行各种你可以想到的各种版本的丰富多样的系统。宽泛一些而言,我们可以大胆地说:“我们能处理所有的事情”。虽然我们实际的支持及服务水平还是取决于特定的环境以及我们对于不同的技术、工具、网络及拓扑结构的熟悉程度。我们努力把所有的事情都做好,尤其
深化。我们在互联网上做最难、最复杂的事情。我们构建新型的、可扩展的大型系统,可供上亿用户使用。我们所做的更好的事情就是:我们从客户的利益出发,接管当前的复杂服务器系统,并对其进行优化、调试及故障排除,然后,再按照世界一流水平对其进行管理。这就需要我们对事情的工作原理有彻底的了解,也要求我们明白如何为真实客户构建真实的系统,因为真实用户在系统上都是做实实在在的事情。这就要求我们提供定制的硬件和软件解
我们很自豪地宣布一个新体系:系统设计体系。您可以想象得到,使用该体系能提供个性化的设计解决方案。我们把它称之为深层配置设计体系,使用该体系可以指定上百种不同的选项及变量,构建最合适的系统。您得记住,至少是在Linux互联网界,我们可以在任何地方构建任何体系。这意味着,我们需要处理各种类型的网络硬件,从普通的服务器,到公共及私云服务器所采用的各类配置。最后,我们所支持的系统数量之多是令人难以想象的,
我最近在The Register网站(www.theregister.co.uk)上阅读到一篇题为“备份神话”的好文章,当时我就想这是一个很好的博客主题,因为,许多人备份做的很差而自己却浑然不知。所以,借鉴于该篇文章( http://www.theregister.co.uk/2013/07/12/storagebod_monomyth/),我发表以下观点(许多内容是经过我修改的)。每个人都知道需
云计算很强大、很灵活也很便宜,嗯,也许并不是非常便宜。事实上,有时候云计算也很贵。但是,这都取决于你的观点、需求及处境。我最近读了一篇关于这个主题的文章,讲的是关于新兴公司停止使用云主机,是因为云主机很贵,而标准的物理服务器性能、内存及存储量都比以前大大增强了。这无疑是事实。云计算服务,尤其是大行的云计算如AWS、Rackspace、SoftLayer及阿里云等是很强大的,除了CPU、RAM及磁盘
最近,OaaS在互联网基础设施领域是一个很流行的术语。您可能听说过IaaS、PaaS、SaaS这些术语,但是OaaS是最近才出现的新术语,在大型互联网网站上,OaaS是一个很热门的话题。OaaS意思就是:运维即服务,其定义是:将服务器运维外包给专业公司,如亚洲的云络科技或美国及香港的Rackspace。这些公司都是早期服务器运维管理的领军企业,它们正排除万难寻找并雇佣优秀员工、构建最佳实践系统、制
当今世界,对所有人而言,网站必须具有一切功能:网站必须有吸引力、速度快、有灵活性及可移动性,甚至必须要能够不断变化。此外,还必须支持频繁的会话、支持各种浏览器、智能手机、平板电脑以及其它用户可能会用到的设备。网站必须能够在复杂的网络环境下运行,比如中国、亚洲、中东等网络连接很差的区域或国家,这些地方不仅地理位置分散,距离遥远而且网络多样化。更不必说,对于移动站点或应用程序而言,不仅有线连接如DSL
从虚拟的角度来看,所有应用程序都会使用某种形式的数据库。今天,大多数系统是运行在PHP及MySQL数据库上的,当然,也有许多新的技术已经存在或正变得越来越流行,尤其是Java及MongoDB, 此外,还有许多数据库,如PostgreSQL、Oracle、Redis、Node.js、 Ruby等等。不幸的是,能把数据库运用的很好的案例并不多。其原因有很多,如RDBMS 及 NoSQL 系统开发员专业
YSlow是一款很好的工具,原先是用于监控雅虎网站性能的。YSlow会使用约75个规则扫描你的网站并提出建议,为每个网站提供一份报告及评分,并且提出为何及如何修复每个问题。大部分问题与图片、java脚本、css及整体页面或网络服务器有关。每个问题的解决方案都是不同的,需要经过慎重考虑,以便做出改进。其它问题可能与CDNs、HTTP请求、压缩、对象过期、cookies、AJAX等有关。总之,若您使用
最近在阅读Percona’s 的高性能的MySQL博客时,我碰到了两个很有用的东西,独立及避免偏见。这是很好的读物,描述了两者的核心价值观,及日常生活中是如何显示这些价值观的。这使我想起,我们在日常业务中是如何处理不同的建议及冲突的呢?客户依赖于云络科技,视我们为忠实的顾问,会问我们所有关于互联网架构的事情,希望我们在硬件、IDC、CDN、技术、架构及所有第三方服务方面提供忠实、准确及毫无偏见的忠
很难相信,自微软发布WindowsXP之后,已经度过了12年。 尽管一直以来,该系统都存在安全问题,还需要每日进行更新,但是该系统仍然算得上是一个好的操作系统。在被新版本,如Vista,Windowws 7, 甚至最新的Windows 8取代之后,微软宣布自2014年4月后将最终停止对WindowsXP的支持。这个消息很重要,因为在中国有72%用户仍然使用XP系统!这主要是因为人们已经很熟悉使用这
我们不断地努力工作,提高我们对服务器、人员及流程的管理能力,以便提高我们的服务和质量水平。以下是我们最近所做的关于管理人员和流程的事情。工程师处于互联网运维即服务的核心位置。他们可以提供各类支持服务,拥有各种技术,我们能否提供高质量的服务,取决于工程师、工程师的培训及管理能力。管理一个大规模的网站、提供24x7的服务,支持网站或运维网站是一项很艰巨的工作,要涉及到许多系统、人员、跟踪及支持工作。我
RAID卡在现今的高性能的互联网服务器中很常见。尽管软件RAID已经有许多年的历史,但是很多新型系统还是偏向于使用硬件RAID来提供更好的系统性能和可靠性。本篇博客将介绍我们所使用的RAID卡以及为什么会使用这些RAID卡。我们现在许多新的服务器都用的是戴尔的R410/R420服务器。我们认为这些服务器性价比最高,小巧并且耗电量低,这可算是增值收益。若使用的是R420的服务器的话,可以购买大型磁盘
在服务器上安装新服务或软件,基本上有两种方法可以实现。老式方法是获得源代码再经过编译,新方法是采用安装包的形式。当客户询问我们采用哪种方法更好时,我们的回答是,尽可能地使用安装包的形式,即使您必须要用源代码编译来生成安装包。人们采用新的源代码进行编译的时候,是因为想要获得更新的软件版本,而不想使用系统当时所分配的版本。若使用的是CentOS,人们更想采用更新的版本。这是因为系统自带版本主要考虑的是
分配合理的数据库权限对于维护系统安全至关重要。尤其是,一定要将网络应用程序和数据库管理功能所需的权限分开,以确保系统安全。我们看到有些客户,误设账号权限或将所有权限分配给一个账号(GRANT ALL in MySQL),这真的是没有见识,原因如下:首先,很明显的一个原因就是,每个账号或用户仅授予其所需的权限,不多授权。这在安全设计中,是一个很关键的因素。这意味着,用户仅在其所用的数据库中,有选、改
检查您的打开文件数量的限制,它们不停地以一种奇怪的方式损害我们的潜在客户。打开文件对于系统操作而言至关重要。因为它们定义了一个进程所能打开的总的文件句柄数量,要记住,在Unix/Linux上,所有的一切都是以文件的形式存在的,包括所有的的实体文件,尤其是TCP/IP 及Unix套接字也算作文件。这意味着像Nginx或MySQL等服务能够耗尽所有文件句柄,包括用户TCP/IP 连接及磁盘上的文件句柄。所以,很轻易地就能够消耗完一台中等负荷系统的所有可用文件量。
经常有人问我们,如何建立分离式网络系统,将一组服务器放置在中国,供中国用户使用;另一组服务器放置在国外,供国际用户使用。从根本上来讲,这是一个很困难的问题,没有最佳选择方案。很多时候,我们唯一的选择就是将一套独立的系统放置在中间地理位置,如香港或东京的AWS,我们的用意在于,可以确保到中国大陆及港澳台地区以及到世界的其它国家和地区的连接基本可靠。
经常有人问我们,日常常见问题有哪些,如何解决?您可想象,我们是全球最大的大型互联网系统外包服务运营商,所以几乎碰到过所有问题。我们运行各类游戏、电商、移动通讯、广告、财经、社交活动、旅游及其它多种网站,所以在各种系统平台上碰到过各种各样的问题。在全球十几个国家有几百万用户,每秒需处理几千个事务,系统问题及系统崩溃常有发生、避之不及。但是,有些共性问题是我们经常碰到,经常处理的,基本上这些问题可以归到一些大的分类,如可靠性问题、系统性能问题、系统扩展问题及系统安全问题。
正如笔者在其它博客中所论述的,本人一直在想,中国及全球的客户在快速增长,我如何才能更好地扩展他们的网站,而又能够保持其原有功能简单易用。我还撰写了另一篇博客,论及如何监控“从复制”的延迟,重点谈论了如何使用缓存来管理标记分配和控制网站负荷。关于如何解决该问题,笔者还有另一想法,基本上就是通过会话实现读/写分离,若用户有所更新,可在某段时间内将其引向主数据库读取数据。用户在进行更新操作时(如,变更密码、上传图片或发布新博客)极其关心系统的读延迟问题。对于此类用户而言,冗长的从库读取延迟确实会带来系统问题。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号