我的友情链接

百度搜索研发部百度泛用户体验百度无线用户体验部百度运维空间百度测试技术空间百度应用开放平台百度开放平台百度技术沙龙微群百度用户体验

原创 点赞0 阅读1854 收藏0 评论0 2017-11-22

论文解读:基于机器学习的知道推荐—Enlister

2012年9月中旬的ACM RecSys 2012大会上,百度发布了论文:Enlister: Baidu's Recommender System For The Biggest Chinese Q&A Website(中国最大问答平台上的百度推荐系统服务)。这份论文受到了国外同行的一致认可,并最终被大会录用。本文是论文作者之一对论文做出的中文解读。

原创 推荐 点赞7 阅读7271 收藏1 评论2 2012-11-08

解析nginx负载均衡

对于一个大型网站来说,负载均衡是永恒的话题。随着硬件技术的迅猛发展,越来越多的负载均衡硬件设备涌现出来,如F5 BIG-IP、Citrix NetScaler、Radware等等,虽然可以解决问题,但其高昂的价格却往往令人望而却步,因此负载均衡软件仍然是大部分公司的不二之选。nginx作为webserver的后起之秀,其优秀的反向代理功能和灵活的负载均衡策略受到了业界广泛的关注。本文将以工业生产为背景,从设计实现和具体应用等方面详细介绍nginx负载均衡策略。

原创 推荐 点赞16 阅读10000+ 收藏3 评论9 2012-10-22

漫谈社区PHP 业务开发

在当前这个互联网业务飞速发展时期,新的产品如雨后春笋般涌出,老产品线新业务也在不断突破和尝试。这就对快速开发迭代提出了更高的要求。

原创 推荐 点赞1 阅读4038 收藏0 评论0 2012-10-22

前端重构实践(二) —— 模块化开发

在上一篇文章中我介绍了我们对N产品性能优化的整个历程,主要偏重优化方法。本篇我将介绍在这一过程中,我们的代码出现了什么样的问题,以及我们是如何通过前端重构来解决掉这些问题,并产生了哪些收益。

原创 点赞0 阅读1651 收藏0 评论0 2012-10-22

Gecko架构浅析之编码检测和转换

Gecko是一套网络排版引擎,由来已久,为当年大名鼎鼎的netscape网络浏览器流传而来,后面也成为了firefox浏览器,thunderbird等等软件的基础。详细的发展历程在这里就不展开做具体介绍了,读者可以自行查阅百度百科,维基百科等资料。

原创 推荐 点赞0 阅读1900 收藏0 评论0 2012-10-22

诡异提交失败问题追查

自四月份以来,贴吧遇到了发帖失败的问题,现象比较诡异。经过追查发现是操作系统刷磁盘时,阻塞write系统调用导致。本文主要分享问题追查过程,希望对大家日常工作中定位问题有一定帮助。

原创 点赞0 阅读2304 收藏0 评论0 2012-10-22

浅析App Engine

在国内外,云计算正在大步的走向商业化的道路,也得到了越来越多公司的重视。其中平台即服务(Platform-as-a-Service PaaS)已经称为业界探讨云计算的热点方式之一,采用PaaS模式来构建应用运行平台App Engine是一种重要的实现方式。本文主要是对App Engine的背景、特点、需求等进行分析整理,并据此对业界主要的App Engine进行了调研分析。最后对一个完善的App Engine进行了需求的细化分解、架构设计,并针对App Engine的部分核心技术问题提出了解决方案。

原创 点赞2 阅读10000+ 收藏1 评论1 2012-10-22

HTML5技术的调研以及贴吧应用总结

贴吧在进行HTML5技术应用的过程中,进行了一系列的技术调研;本文对HTML5的技术调研进行总结,尽可能客观的分析解答对HTML5技术的一些疑问,给出产品、技术上的一些决策建议。

原创 点赞1 阅读2862 收藏0 评论1 2012-10-22

基于hash计算的多层实验流量切分的实现

1.      背景介绍          站点新功能或者是站内新策略开发完毕之后,在全流量上线之前要评估新功能或者新策略的优劣,常用的评估方法是A-B测试,做法是在全量中抽样出两份小流量,分别走新策略分支和旧策略分支,通过对比这两份流量下的各指标的差异,我们可以评估

原创 点赞0 阅读3892 收藏1 评论0 2012-10-22

前端重构实践(一) —— 性能优化

前言: 最近一直在做性能优化和模块化改造的工作,并完成了一次前端重构。在这里总结出一些经验和得失来帮助大家思考。共两篇文章,第一篇讨论性能优化,第二篇讨论模块化框架。而之所以把这两个话题放到一起,是因为这两项工作都涉及到对前端代码进行不同程度的重构,而且模块化改造其实是我们在对性能优化做到一定程度之后发现必须要做的一件事情。本篇是性能优化的部分,下面我把我们的产品简称为N页面。

原创 点赞0 阅读1268 收藏0 评论0 2012-10-22

基于glusterfs和gearman的离线任务运算分布式化方案介绍

web站点服务中,我们除了存在面向用户的服务功能外,往往也存在大量的后台离线的相关计算任务,如对前端的异步操作数据队列进行定期处理,对数据库中的数据进行汇总挖掘,监控,转储,对中间数据的进一步运算处理等等……一个web服务站点的背后,往往存在大量对应的后端处理任务的功能模块,用于支撑正常的业务功能系统。  在一个web站点的初始阶段,我们可能只需要有一台服务

原创 推荐 点赞0 阅读2262 收藏0 评论0 2012-10-22

产品发布过程演进——移动贴吧分级发布实践

摘要 为了达到“在产品发布过程中,通过及时有效的发现和控制新引入线上缺陷的影响范围,保护用户体验,提升上线质量”的目的,我们在吸收和借鉴Facebook灰度发布等技术的基础上,探索出符合产品线现状的“分级发布”方案,并在移动贴吧产品线的实施中验证和改良。本文主要介绍贴吧分级发布的背景、方案、实施过程、实施效果和后续展望。   一、&n

原创 点赞0 阅读2884 收藏0 评论0 2012-10-22

一种基于flex的可视化多层流量切分界面的实现

1.      背景介绍          策略开发人员在完成策略之后,在全流量上线之前要评估新的策略的优劣,常用的评估方法是A-B测试,做法是在全流量中抽样出两份小流量,分别走新策略分支和旧策略分支,通过对比这两份流量下的各指标的差异,我们可以评估出新策略的优劣,进

原创 点赞0 阅读1307 收藏0 评论0 2012-10-22

多IDC环境下的分布式id分配方案

id分配是社区类产品的提交环节中必不可少的一步。任何UGC类内容产生时往往需要分配一个对应的id。 id分配的几种方式  方式一:单点自增分配。全局由一个模块来负责生成id,可保证id从0开始连续递增,数据一般放在本地文件。简洁,但致命的问题是单点故障会导致服务整体不可用。 方式一改进:为该模块提供主从复制的能力,或者干脆将数据放在mysql里,利用mysql的主从复制,都一定程度

原创 推荐 点赞1 阅读4258 收藏0 评论0 2012-10-22

百度账号系统国际化实践

1.      前言 在全球一半以上的国家成为家喻户晓的品牌,是百度重要战略目标之一。作为百度用户产品体系最重要的基础服务,百度账号系统最早开始了国际化步伐。 从产品层面,国际化账号系统需要支持同一个用户在不同的国家登录并使用百度的服务。技术角度则要求用户个人数据全球互通,且包括用户ID和用户名在内的竞争性资源分配全球唯一。而国际链路传输时延以

原创 点赞0 阅读1574 收藏0 评论0 2012-10-22

检索结果聚类展望

摘要 检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。 关键词:搜索引擎,搜索结果,聚类   我们首先来看一个例子:对

原创 点赞0 阅读1736 收藏0 评论0 2012-10-22

同义词反馈机制

1.   介绍 由于搜索算法本身的局限性,对于用户的语义、意图等理解不够,而基于用户行为的点击调权,作为对传统搜索算法的补充,在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果,但是一直只是停留在query-url层面,或者ngram-url层面[1],没有深入反馈到检索算法中的基础策略,比如:同义词、紧密度、省略等,这些策略影响了url与query之间的关系。本

原创 点赞0 阅读3056 收藏0 评论0 2012-10-22

若无云,岂有风——词语语义相似度计算简介

诸多事物都要受到其周边事物的影响,进而改变自身的形态,甚至确立自己的存在——云动,方知风的存在。反映在人的眼中,则是云赋予了风的含义:若无云,岂有风?

原创 点赞0 阅读2318 收藏0 评论0 2012-10-22

自动问答技术简介

无论是苹果公司iPhone上火热的应用Siri,还是去年2月在美国电视竞答节目Jeopardy中打败人类冠军的Watson,都与“自动问答”直接相关。什么是自动问答,自动问答产品能带来什么好处,百度有什么样的自动问答产品,本文将用通俗的语言为您一一道来。

原创 点赞0 阅读2362 收藏0 评论0 2012-10-22

深入理解Linux用户空间的锁机制

随着SMP(Symmetrical Multi-Processing)架构的流行和epoll类系统调用对非阻塞fd监视的支持,高性能服务器端的开发已经能够实现CPU计算和IO的分离。为了充分发挥CPU的计算能力,服务器端的设计必须要尽量减少线程切换。引起线程切换最重要的原因之一就是对mutex和semaphor等锁的使用。本文从计算机体系架构、操作系统的支持和mutex的实现彻底分析Linux用户空间mutex的实现,分析的源码版本是glib-2.3.4和kernel-2.6.8。

原创 点赞0 阅读6855 收藏0 评论0 2012-10-22

语音识别中声学模型得分计算优化方法

  语音是人们沟通交流最直接、最自然的交互方式。自计算机问世以来,人们就一直希望可以通过语音实现人和计算机之间的交互,而语音识别技术,目标就是通过把人类的语音中的词汇内容转换为相应的文本,架起了人机交互的桥梁。对于一个语音识别系统,速度和精度是两个核心指标,直接决定着系统是否可用。其中,识别速度的提升意味着可以降低成本,同时提供更多的语音服务,一直是语音识别技术研究的重点方向。在语音识别系统中,声学模型得分的运算量一般会达到整个系统的40%-70%,因此也是识别速度优化的重点模块。本文就来讲讲如何优化声学模型得分计算。

原创 点赞0 阅读1153 收藏0 评论0 2012-10-22

Linux上Core Dump文件的形成和分析

Core,又称之为Core Dump文件,是Unix/Linux操作系统的一种机制,对于线上服务而言,Core令人闻之色变,因为出Core的过程意味着服务暂时不能正常响应,需要恢复,并且随着吐Core进程的内存空间越大,此过程可能持续很长一段时间(例如当进程占用60G+以上内存时,完整Core文件需要15分钟才能完全写到磁盘上),这期间产生的流量损失,不可估量。

原创 点赞0 阅读1574 收藏0 评论0 2012-10-22

蚂蚁变大象:浅谈常规网站是如何从小变大的

2005年,我开始和朋友们开始拉活儿做网站,当时第一个网站是在linux上用jsp搭建的,到后来逐步的引入了多种框架,如webwork、hibernate等。在到后来,进入公司,开始用c/c++,做分布式计算和存储。(到那时才解开了我的一个疑惑:C语言除了用来写HelloWorld,还能干嘛?^_^)。 总而言之,网站根据不同的需求,不同的请求压力,不同的业务模型,需要不同的架构来给予支持。我从

原创 点赞2 阅读1291 收藏0 评论2 2012-10-22

WPF“动画序列”框架的初步研究与实现(附源码)

相对以往的界面编程框架来说,WPF引入了很多激动人心的特性。对动画的抽象就是这些特性之一。但这并不意味着WPF的动画框架就已经很完美了。WPF利用Storyboard表示动画,通过在Storyboard中动态改变依赖属性的值,从而实现相应的动画效果。但是Storyboard有其本身的局限。其局限之一就是难以表示动画序列。本文对这个问题进行了探讨,在讨论了Storyboard局限的同时,给出了一个动画序列框架的初步实现。实验证明,这个框架在原有的动画基础上引入了序列的机制,可以更好地表示动画。在此基础上,完全可以对该框架进行扩展,使得其成为通用性的框架,在WPF/Silverlight中得到广泛的应用。

原创 点赞0 阅读820 收藏0 评论0 2012-10-22

浅析点对点(End-to-End)的场景文字识别

随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。

原创 点赞0 阅读1070 收藏0 评论0 2012-10-22

浅析Android 4.0的通知系统(附Android 4.0设计指南全文翻译)

通过手机的通知系统,可以将应用程序的一些重要消息告知给用户。流畅、舒适、友好的应用程序离不开精心设计的消息提醒机制。但是并不是所有的通知都是用户想看的,否则只会给用户造成骚扰,所以要谨慎使用通知。 在对《Android Design》进行翻译时发现:Android系统已经提出了一些关于通知消息的设计建议,故在此分享给大家。

原创 推荐 点赞1 阅读2801 收藏0 评论1 2012-06-18

语音识别中声学模型得分计算优化方法

摘要       语音是人们沟通交流最直接、最自然的交互方式。自计算机问世以来,人们就一直希望可以通过语音实现人和计算机之间的交互,而语音识别技术,目标就是通过把人类的语音中的词汇内容转换为相应的文本,架起了人机交互的桥梁。对于一个语音识别系统,速度和精度是两个核心指标,直接决定着系统是否可用。其中,识别速度的提升意味着可以降低成本,同时提供更多的语音服务,一直是语音识别技术研究的重点方向。在语音识别系统中,声学模型得分的运算量一般会达到整个系统的40%-70%,因此也是识别速度优化的重点模块。本文就来讲讲如何优化声学模型得分计算。

原创 点赞0 阅读3497 收藏0 评论0 2012-06-18

Linux上Core Dump文件的形成和分析

Core,又称之为Core Dump文件,是Unix/Linux操作系统的一种机制,对于线上服务而言,Core令人闻之色变,因为出Core的过程意味着服务暂时不能正常响应,需要恢复,并且随着吐Core进程的内存空间越大,此过程可能持续很长一段时间(例如当进程占用60G+以上内存时,完整Core文件需要15分钟才能完全写到磁盘上),这期间产生的流量损失,不可估量。

原创 推荐 点赞3 阅读10000+ 收藏1 评论3 2012-06-18

蚂蚁变大象:浅谈常规网站是如何从小变大的

2005年,我开始和朋友们开始拉活儿做网站,当时第一个网站是在linux上用jsp搭建的,到后来逐步的引入了多种框架,如webwork、hibernate等。在到后来,进入公司,开始用c/c++,做分布式计算和存储。(到那时才解开了我的一个疑惑:C语言除了用来写HelloWorld,还能干嘛?^_^)。 总而言之,网站根据不同的需求,不同的请求压力,不同的业务模型,需要不同的架构来给予支持。我从我的一些经历和感受出发,大体上总结了一下的一些阶段。详情容我慢慢道来。

原创 点赞2 阅读3762 收藏0 评论2 2012-06-13
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8