前言

    最近做了不少有关SEO的相关工作,以前是自己写爬虫去抓取其他网页,现在写网页让爬虫去抓,感觉这种角色调换还是挺奇妙的。经过这段时间的工作发现我写爬虫的为了获取特定信息,但是搜索引擎爬虫是为了获取互联网上的信息,这种目标性的不一样导致其数据抓取的机制和权重设定上有着完全不一样的设定。


    这里还是重点说说怎么提高自己网站的权重。这个我也是在和一些资深人士沟通后再加上自己总结的一点经验,肯定不完善,可以当做一些网站SEO的优化建议。


SEO网站优化的方法

基本技巧篇(一些重要但也很基础的方法)

  1. html head中的title, keywords, description每个网页都要写入这些相应的内容,这个非常有利于爬虫的收录,这里的信息应该仅可能体现网页的内容。这里的文本书写也有一定的技巧,可以多去参考一些SEO做的好的网站。字段长度也有一定的要求,这些都是需要注意的地方。

  2. 网站外链:这个很久之前就有了,起因就是google的page rank算法,提高反链的数量可以有效提高权重,但是还要注意反链的网站本身权重也要高,这样效果会更好。

  3. 原创内容:这个东西我之前还真不知道,但是仔细想想确实非常有道理,因为网站每天不停的新内容产生,自然爬虫需要提高爬行的频率,权重也相应的会有提高。具体就是可以弄出来用户的社区,让用户每天活跃在网站上去产生新的内容提交。

  4. 静态URL:那种带有?的动态链接是对seo非常不友好的,爬虫一般来说直接不收录,所以需要把这种查询都改成动态的链接。具体做法可以参考Restful,也可以简单的把提交的参数直接放到URL中。


细节调优篇(在这次调优过程中积累的一些经验)

  1. 访问速度:这个很容易理解,就是网站打开速度快的权重更高,慢的要死的网站自然不是大家想看的,这里除了提高网站的配置、带宽,还可以从技术层面去做网页静态化,目的都是为了加快访问速度、减轻后端压力。

    1. h标签:这个可以让爬虫更清楚这个网页中的标题信息,会有效提高内容的收录质量。

    2. a标签的title:这个写清楚肯定是可以提高质量的,当然锚文本的内容也很重要。

    3. img标签的alt:这个会给图片增加一个标题,图片搜索就可以根据文字搜到这些图片了。

  2. 去除无用的网页以提高整站的内容质量:除了需要收录的网页,我们还要做一些排除的办法,把网站里面的“关于我们”这种无用的网页不让爬虫收录,最终会让收录的页面都是非常有价值的页面,整站也会有权重提升。这个就是在a标签中加上rel="nofollow"即可。

  3. 访问速度:这个很容易理解,就是网站打开速度快的权重更高,慢的要死的网站自然不是大家想看的,这里除了提高网站的配置、带宽,还可以从技术层面去做网页静态化,目的都是为了加快访问速度、减轻后端压力。


高级技巧篇(这个真的是很巧妙的方式,在此之前我都不知道...)

  1. 利用URL的规则来生成更多网页:一个网站拥有搜录网页的总数量也是对网站权重一个很重要的指标,一个个静态页面写累死也写不了几个,但是看看人家网站动不动就几百万页面,那个是怎么弄出来的?这个简单来说就是把动态页面改成了静态的url,但是这个可能数据还是不够多。这里有一个非常高级的技巧,就是在搜索上做文章,让不同的搜索条件进行组合去形成一个url,其实每个搜索结果也会形成不同的网页内容,这样最后出现的就是进行排列组合的数量,自然总数就大的惊人。

  2. url规则:爬虫收录url对目录的深度以及url的长度都是敏感的,但是也不能一味的都用浅深度的url,还要有目录层次结构,这样会认为网站的结构更清晰,网站的权重也更高。

  3. 网站内容结构:除了url要有层的结构以外,网站的内容也要有层次,具体是体现在title、keywords、description这些内容在不同层次结构的页面,也要不同的内容,到详情页面要有对应网页的内容,目标是让爬虫始终爬行的内容都是不同的。

  4. Sitemap:也通俗叫做网站地图,这个东西其实压根不是给人看的,而是给爬虫看的。目前看到有两种,一种是写成网页结构的,里面有大量的本站链接,可以把网页比较深的都拿出来,更有甚者直接按拼音首字母把网页列出来;还有一种就是基于sitemap书写规则去写xml,把网站所有网页都列出来,方便爬虫快速的收录,网上也有一些工具帮忙一键生成这个文件。除此以外,我发现百度等搜索引擎都有一个可以主动提交网站Sitemap的地方,可以更快让搜索引擎知道自己的网站。这个可以每天用个脚本自动生成一个新的sitemap文件,在robots.txt中还可以增加以下内容:

    Sitemap: http://www.hunlimao.com/sitemap.xml

  5. robot.txt:这个主要用来约束爬虫对本站的爬行规则,可以避免爬行了一些不应该收录的内容。


写在最后

    暂时就想到这么多,有些东西还是比较容易做的,但是有些是一个长期的过程,如果真的想做好SEO也是个长期的过程。最后说一下,如果急于提高网站的曝光率,感觉SEM还是更靠谱的方式,但是那个又有一些特定的技巧,这部分最近也刚开始在做,等过些日子有更多的感想再补一篇。