再识ProFTPD

roFTPD对大家来说是非常熟悉的,它对我们来说是FTP服务器,提供文件传输服务。之所以取名为“再识”,就是想向大家介绍它鲜为人知的一面。在介绍之前我们先来看一些事实:任意登录到一台机器进入proftpd的程序目录执行./proftpd --help,可以发现它带-l参数,可以列出所有编译进程序的模块。

原创 点赞0 阅读298 收藏0 评论0 2011-01-28

运维自动化浅谈

一个互联网产品由许多服务组成,而服务内包含多个模块,这些模块部署在成千上万的服务器上。由于互联网产品的特点,产品更新速度非常快,运维人员每天都要进行大量的模块维护操作。模块的运维操作涉及程序更新、配置修改、数据传输以及各种自定义的命令执行。在运维的早期,运维人员大多是通过手工操作或编写脚本的方式,将模块更新到生产环境中,我们称这个阶段为石器时代。

原创 点赞0 阅读767 收藏0 评论0 2011-01-28

文件空洞产生的原因分析

在文件拷贝时候,scp一个占磁盘空间300G大小(du命令的结果)左右的目录到另外一台机器上,du命令发现该目录占用的磁盘空间变大了,约330多G。为什么会多出来这30G呢?

原创 点赞0 阅读4722 收藏0 评论0 2011-01-28

轻量级分布式系统-moosefs介绍

MooseFS是一种分布式文件系统,MooseFS文件系统结构包括以下四种角色: 1 管理服务器(master) 2 元数据日志服务器(Metalogger) 3 数据存储服务器 (chunkservers) 4 客户机挂载使用

原创 点赞0 阅读579 收藏0 评论0 2011-01-28

基于三方架构的网络容灾备份和恢复系统构建

基于备份服务器,客户端和存储设备端三方架构的网络备份系统,三方架构使得备份服务器不用参与数据备份与恢复的数据传输过程,平衡了系统的负载并提高了系统的并发度。并说明网络备份系统的总体架构,备份服务器、备份代理和存储服务器子系统功能,以及通信接口,基于三方架构的网络备份系统可以很好的完成异地冷备份与恢复工作。

原创 点赞0 阅读812 收藏0 评论0 2011-01-28

基于流式的md5计算-多线程下载工具Lwget介绍

在数据传输的时候,我们希望实现以下目标: 1. 使用多线程传输,加速下载速度 2. 数据在传输过程中,进行流式md5计算,避免在传输完毕之后校验大文件 3. 支持断点续传 4. 支持http协议和ftp协议 5. 代码尽可能的简单,利于维护

原创 点赞0 阅读2242 收藏0 评论0 2011-01-28

Varnish+Xcache构建高性能WEB构架初探

本文主要讲述web优化方案和缓存工具的调研及使用。根据目前的测试结果来看,采用varnish+xcache作为 apache和php缓存这种架构具有高并发、高稳定性,易扩展等优点,服务器的动态请求处理能力是之前的7倍之多。 通过分析发现,目前对服务器的负载主要是在cpu使用方面,随着流量的增加瓶颈也将出现在cpu方面,而内存和IO方面都不是问题。针对这样的情况,我们就要研究怎么去降低cpu的负载,消除或降低系统的瓶颈。

原创 点赞0 阅读610 收藏0 评论0 2011-01-28

hadoop状态分析系统chukwa

Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。

原创 推荐 点赞1 阅读2923 收藏0 评论1 2011-01-28

Chukwa在百度的应用实践

从上一篇 chukwa 的简介中,我们知道 chukwa 为日志分析系统提供了一整套的解决方案,其中包含了数据的生成、收集、排序、去重、分析和展示所需要的几乎所有事情,要扩展 chukwa 以实现自己特殊的需求,是很方便的.本文以 chukwa-0.3.0 为例,阐述在 分布式小组内如何以 chukwa 为基础实现"资源状态图"。

原创 点赞2 阅读8706 收藏0 评论1 2011-01-28

企业级监控解决方案随想

对于一个提供实时服务的互联网企业,尽量保证7*24的不间断服务是我们追求的目标之一,尽管我们做了非常多的努力,但是由于某些不可预知的因素产生的异常还是常常发生,为了及时的发现异常,避免问题进一步辐散扩大,我们可能需要一些工具或者方法来发现异常、发现问题。这时候,我们就引入了一个原本和业务可能不太相关的技术--监控。

原创 点赞0 阅读869 收藏0 评论0 2011-01-28

Innodb刷脏页技术深度挖掘

DBA某数据库集群每日17:00左右会出现一个性能陡降的现象,在10~20秒内主库出现大量慢查询。这些查询本身没有性能问题,也没有任何关联,可以认为是由于数据库系统负载较重,由于并发导致的慢查询。通过对全日志的梳理,已经查明每日17:00左右导致主库性能下降的问题原因是该时段在执行某定时任务中的一个Update语句。该update语句一次性会对约70万个row进行更新,引发大量数据库写入,是导致数据库性能下降的直接原因。

原创 点赞0 阅读3829 收藏0 评论0 2011-01-28

四格漫画《MUXing》——请客记

年关将近,聚会增多,请客?还是被请?这是个问题……

原创 点赞0 阅读458 收藏0 评论0 2011-01-27

以求医为例谈搜索引擎排序算法的基础原理

我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,这些结果排序的标准是什么呢?这个看似简单的问题,却是信息检索专家们研究的核心难题之一。

原创 点赞0 阅读553 收藏0 评论0 2011-01-27

智能算法在站点质量评级体系中的应用

互联网的迅速发展,海量Web数据的扑面而来,给搜索引擎技术带来了严峻的挑战,但同时也带来了新的机遇。从网页抓取的角度来看,同一站点往往包含质量相似的资源,对一个优质网站进行爬取,往往可以找到更多的优质资源。因此,我们希望对网站的质量进行评级,来反映资源的质量水平,从而影响spider的调度和收录。在以往的实践中,大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值,来适应变化。这种方式最大的问题在于扩展性不强、维护代价高,而且不利于国际化多语言的支持。因此,我们希望采用更智能的方法,在站点数据中自动发现规律,来完成质量的评级。   我们的站点质量智能评级框架如图1所示。

原创 点赞0 阅读556 收藏0 评论0 2011-01-27

百度无线用户体验部2011年招聘计划

你是在地铁上发呆,茫然失措不知道哪里是终点?还是在公车上微笑,拿起手机查查地图,订个聚会的餐馆? 你是在被窝里胡思乱想,梦回时分发现已艳阳高照?还是在入睡前小憩,拿起手机查查明天的天气今天的热搜词?

原创 点赞0 阅读416 收藏0 评论0 2011-01-26

WPF中如何使用C#创建DataTemplate数据模版

看到博客园有篇文章谈到“使用C#编程的方式创建DataTemplate数据模板”(原文地址), 博主的做法是创建一个FrameworkElementFactory对象,设置好后将其设置为DataTemplate对象的VisualTree属 性。我认为此方法有待商榷,盖因查阅MSDN,发现FrameworkElementFactory类的介绍页面上有一段备注:

原创 点赞1 阅读10000+ 收藏0 评论0 2011-01-25

调研分享:图片文件在各文件系统上的访问性能对比

1 概述   在某产品线的图片服务器,存放了亿级别的图片文件,每个文件的大小在0.5k-100k之间,其中1K以下的文件数量在50%左右,1-4K文件数量在40%左右,4K以上10%,大量的文件存储对文件系统的性能要求非常高,特对目前业界常用系统性能在图片服务的表现进行调研。   因线上flash卡故障率非常高,所以在寻找替代方案,磁盘是否可以满足线上系统需求?是否满足今后可扩展性(容量、文件数量)?是否可以更好的处理数据同步使用时间?

原创 点赞0 阅读610 收藏0 评论0 2011-01-25

浅析视频搜索中的清晰度识别过程

一、综述   随着互联网视频越来越多,人们迫切希望能够快速地从众多的视频中精准定位到一些高质量的视频。视频清晰度是评价视频质量的一个重要指标,特别是对于影视剧和动漫类视频来说,高清晰的视频能大大提升用户的体验。所以如何判断视频清晰度,识别出高清晰的视频对于用户和搜索引擎来说是非常有价值的。   和大多数评价机制一样,视频清晰度分为相对清晰度和绝对清晰度。相对清晰度可以理解为视频之间的清晰度排序,而绝对清晰度可以理解为首先将清晰度划分为不同的级别,然后判断视频属于哪个级别。目前,我们视频搜索的清晰度识别就属于“绝对清晰度”,应用是将视频划分为“高清”和“非高清” 两个级别展现给用户。

原创 点赞0 阅读1711 收藏0 评论0 2011-01-25

调研分享:Flipboard的使用特点和页面信息抽取机制

Flipboard是什么?

原创 点赞0 阅读1335 收藏0 评论0 2011-01-25

语音搜索的基础-语音识别

一直在想,假如有一天我们生活中的机器人像在很多科幻电影里面看到的那样,能够理解人类的语言,并能完成与人类的自然对话,是多爽的事情。语音的研究一直在试图解决这个问题。例如,语音到文字,即通常所说的语音识别,就试图将语音转换为文字,然后交给计算机进行后续的理解;而文字到语音,即语音合成,则试图将文字转换为声音,让人类可以听到。也许通过全世界语音界的科研和工程人员的努力,在不久的将来,我们真的可以和机器进行自由的对话(其实我一直很期待这一天的到来)。

原创 点赞0 阅读786 收藏0 评论0 2011-01-25

动态库的升级方法

在替换so文件时,如果在不停程序的情况下,直接用 cp new.so old.so 的方式替换程序使用的动态库文件会导致正在运行中的程序崩溃。解决的办法是采用“rm+cp” 或“mv+cp” 来替代直接“cp” 的操作方法。linux系统的动态库有两种使用方法:运行时动态链接库,动态加载库并在程序控制之下使用。

原创 点赞0 阅读921 收藏0 评论0 2011-01-24

我们的生活空间

翻开百度的每一天,每一个历史事件,我们会发现这个无时无刻不在创造着奇迹的地方总是在散发着一种神奇的力量,让每一个百度人都将自己的才华与热情挥洒在这片属于他们自己土地上。你,是否已经准备好了,你,是否已经蓄势待发。让我们共同走进百度,了解百度。这里叫百度,也叫家!

原创 点赞0 阅读670 收藏0 评论0 2011-01-24

2011运维热招职位(社会招聘)

以上职位面向社会招聘,可以采用以下任一种方式投递简历: 1、点击“职位申请地址”中的链接进行用户注册及申请。 2、发送邮件投递简历。收件人地址:op-job@baidu.com,邮件标题:{姓名}申请{职位名称}职位

原创 点赞0 阅读445 收藏0 评论0 2011-01-24

“分布式哈希”和“一致性哈希”的概念与算法实现

分布式哈希和一致性哈希是分布式存储和p2p网络中说的比较多的两个概念了。介绍的论文很多,这里做一个入门性质的介绍。

原创 点赞0 阅读2609 收藏0 评论0 2011-01-24

让输入飞起来——百度手机输入法2.0升级交互视觉设计分享

曾经有一个好用的输入法放在我的眼前,可是我没有用,等我被输入搞得焦头烂额的时候才后悔莫及,人世间最痛苦的事莫过于此。你的手机如果还没有装百度手机输入法的话赶紧去装吧!不要再犹豫了!

原创 点赞0 阅读689 收藏0 评论0 2011-01-21

四格漫画《MUXing》——MUX诞生记

MUXING 是谁??!!据说与外星生物有关……是神秘的…… 木星(muxing),为太阳系八大行星之一,距太阳(由近及远)顺序为第五,亦为太阳系体积最大、自转最快的行星。

原创 点赞0 阅读518 收藏0 评论0 2011-01-18

Boosting算法简介

一、Boosting算法的发展历史   Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。

原创 点赞2 阅读10000+ 收藏0 评论3 2011-01-18

百度应用开放平台简介

百度应用开放平台以“框计算”技术和理念为基础,通过与广大优质应用开发者或版权运营者开放对接合作,为用户实现了“即搜即用”的一站式在线应用服务。它的推出,源于用户的搜索需求正呈现出新的发展趋势——分析百度的搜索关键词,我们发现,网民与应用相关的query数量正不断攀升,目前已经占到总搜索数量的30%。因此,推出应用开放平台,推动更多优质的应用资源与用户需求直接对接,是大势所趋,也是百度对“让人们更便捷地获取信息,找到所求”理念、不断提升用户搜索体验的最好诠释。

原创 点赞0 阅读819 收藏0 评论0 2011-01-18

浅谈移动产品的交互效率

交互效率是产品可用性的重要组成部分,也是可用性评估的一个要点。相较传统互联网产品,当前移动产品在软硬界面的协同性以及网络环境方面还有很多差距,用户的交互效率处于比较低的水平。对移动产品交互效率进行一些思考,对我们在局限条件下设计出交互效率更高、用户体验更好的移动产品具有一定的意义。

原创 点赞0 阅读435 收藏0 评论0 2011-01-14

【百度分享】dictmatch及多模算法串讲 -- dictmatch基本数据结构及算法

dictmatch基本数据结构及算法 dictmatch其实是实现了最简单的Trie树的算法,而且并没有进行穿线改进,因此其是需要回朔的。但是其使用2个表来表示Trie树,并对其占用空间大的问题进行了很大的优化,特点是在建树的时候比较慢,但在查询的时候非常快。而且其使用的hash算法也值得一讲。 字典数据结构:

原创 点赞0 阅读1056 收藏0 评论0 2011-01-10