我个人原来是写了几年的爬虫,对于搜索引擎的原理以及常用的技巧还算了解。最近公司又重提SEO,面对当前公司网站惨淡的SEO效果,确实做得很不够。但目前负责SEO的工作安排也实在缺乏章法,所以我列一下个人认知,希望能对总体的工作规划有所帮助,但具体操作手法上还是要多去看其他网站的技巧。


1. 搜索引擎是什么

如果白盒角度看,无非就是一个爬行模块,再加上索引模块,对外开放检索功能,里面比较精巧的其实是有很多算法来提升效果,最主要的支撑就是依赖map/reduce这些大数据的架构。


如果黑盒角度看,这个事情就非常有意思了,你可以把他理解成一个大脑,他先去不停的看网页,根据网页的呈现规律来发掘那些更为重要,等你问他的时候,他会把你可能更希望看到的信息放在前面。


白盒角度如果不知道具体算法,其实也缺乏指导性意义,所以有一些原来百度员工跑出来给人家做SEO。但黑盒角度可以给我们一个重要启示,现在为了让其更聪明自然就用了很多机器学习的算法在搜索引擎中,所以他真的也会有较为复杂的算法逻辑,或许你把他当做一个人来看,更高程度的抽象反而更容易理解搜索引擎的工作方式。


但说到底他毕竟是一堆程序的集合,他比人更逻辑,所以必须有一定的规则来判别,那SEO其实就是投其所好


2. 网页收录的过程(道)

想提高SEO,先来了解一下网页是如何被爬虫爬取并收录的。这大体分成三个阶段:


1. 找到这个网站

    1) 通过网站的外链

    2) 搜索引擎的站长后台可以提交

2. 爬行这个网站

    1) 根据网页结构爬行:最基础的网页收录方式,一般都是广度搜索,你页面藏比较深那就可能不会爬行到了。

    2) robots协议约束:爬虫首先会查看这个,以确定哪些约束的爬行规则,知名的搜索引擎都会遵守这个约定,如果个人爬虫那很可能不理会的。

    3) 根据sitemap爬行:就是列出网站所有的信息资源,省的爬虫去网页中一个个查了,对爬虫而言是最省力的爬行方式。

    4) 定时回访页面,更新页面的内容

3. 确认有价值的页面并收录

    1) 比较容易找到的页面

    2) 内链比较多的页面

    3) 页面主体内容比较有价值,原创内容且有一定长度

    4) URL比较短,层次比较浅

    5) 做好锚文本,用好a标签和img标签

    6) 网页主题内容清晰,利于检索

    7) 内容不会频繁修改的


以上三步,都有很多值得优化的方法,都非常重要。


3. SEO的优化方法(术)


优化过程针对收录过程,逐一进行,再考虑一下整体。这里只说一下常规的手段。


3.1 提高网站的曝光率

1. 友情链接:不用说了,老手段,越高权重的网页链接了你的网站,你的网站权重也会提升,尽量让别人首页链接,这样效果最好。

2. 主动提交:搜索引擎现在已经不愁找不到网页,反倒是网站怕搜索引擎不来,所以很自然开放了主动提交的入口。

3. 引导用户分享或引用:如果有很多用户引用了你的网页,那会极大增加反链,比人工去添加友链效果高了去了,这个其实有点增长***的意思了。

4. 新闻网页报道链接:这样能去一些权重高的网站,还比较容易被转载。


3.2 优化网站的导航

1. 导航条尽量多例举分类,这样入口更浅

2. 不需要收录的URL,设置好nofollow的标签,以免分散网页权重

3. sitemap网页加入更多页面的链接

4. 增加首页或者子首页的链接数量

5. 关键词做多内链,只要出现关键词就有聚合链接

6. 规划好关键词,把用户容易搜索的词做到内容中去,比如title、标签等

7. 页面内容增加联想的信息,以提高其他页面的呈现次数和入口数量

8. 规划网站结构,让重要的信息看起来URL更短更清晰,不重要的可以藏深点


原则上,尽可能多的入口导向内容页面,呈现次数越多会越重要,网页也越容易找到。可以有更多维度把页面链接在一起,翻页其实并会增加爬行深度的。


3.3 强化页面信息价值

1. url静态化,动态链接不会收录的,这个不用说了

2. tdk优化,特别是title,基本是页面内容权重最高的部分了,做好每个网页的title

3. 关键词的优化,做好长尾词,其实依赖网页中的keyword没太大用,现在看到很多页面中用h2突出的网页信息标签,还是很容易被检索的。

4. 网页内容的重复性,同样内容不能有不同URL,否则会被认为作弊的

5. a标签的title,锚文本,以及img标签的alt,这些都是帮助搜索引擎来认识这个信息是什么的主要来源,特别是锚文本和打开后title完全没关联,这个其实会很让搜索引擎困惑这个内容到底是什么。

6. 原创内容产生机制,比如要有源源不断的原创内容产生

7. 用好h1、h2标签,让搜索引擎清楚知道你这个网页的主要内容是什么,这样更容易被检索。

8. 有一定长度的网页正文,否则页面会认为没有信息量,这个内容其实主要得是文字。


3.4 整站权重

1. 高权重的外链,这样可以传递权重

2. 有足够多的网页被收录,内容越多的网站越有价值

3. 大量原创内容,一定要不断的产生内容,而且最好用UGC来产生

4. 网站的打开速度

5. 网站的稳定性


4. 道与术的均衡

SEO是个细致活,最为蛋疼的是优化后不会立刻看到效果,每个优化会有一定的影响,但又很难评估到底每个改动会有多大影响。所以现在搞得SEO都快成了玄学,这确实是黑盒上做优化的必然现状。


但这一切,你只要有条理的去做,把搜索引擎的每个阶段需要考量的问题做好,自然排名靠前。例如我的blog,只要发的文章推送到51CTO的首页,必然会被Google收录到第一页,甚至第一条,百度有点搞不懂为什么收录效果比较差。


所以,SEO整体上看是一个“道”的问题,只要你按它的逻辑去优化就会有效果,但效果差异取决于“术”,高明的术会事半功倍。SEO这件事比较有意思的地方,就是怎么想办法去骗搜索引擎,让他觉得你的东西是最值得收录并呈现给用户的。术的方面可以做的方法手段非常多,其实这个东西在网上也是完全可以看到,SEO的推论就是给搜索引擎看到的东西人必然也能看到,所以只要用心去学习和观察,再自己能多想想,方法应该非常多。


最后,SEO是一个需要有推进、有跟踪、有效果的事情,做就把他做好!