相信和我一样想学习SEO技术的友友们,肯定都希望能都接触一些这方面的知识点,那么我就给大家分享一些SEO的相关知识技巧。这篇文章是关于SEO中的HTML代码规范问题,让朋友们能直观地了解一个符合SEO规则的HTML页面对SEO是如何进行布局的。

目录

一、页面级优化

二、sitemap设置

三、robots设置


一、页面级优化

一个符合SEO规则的HTML代码展现大致如下:

<!--–页面注释解–-->
<html>
 <head> 
  <title>网页标题</title> 
  <meta http-equiv="Content-Language" content="zh-cn" /> 
  <meta http-equiv="”Content-Type”" content="”text/html;" charset="gb2312″" /> 
  <meta name="”keywords”" content="”关键词”" /> 
  <meta name="”description”" content="”网站描述”" /> 
  <link href="”style/css.css”" type="”text/css”" rel="”stylesheet”" /> 
 </head> 
 <body> 
  <div> 
   <h1>页面内容标题</h1> 
   <h2>页面相关性标题</h2> 
   <h3>标题系列</h3> 
   <h4>标题系列</h4> 
   <h5>标题系列</h5> 
   <h6>标题系列</h6> 
   <img src="”xxx.jpg”" alt="”图片说明”" /> 
   <a href="”/”" title="”链接说明”">链接词</a> 
   <strong>重点关键词强调</strong> 
   <b>关键词强调</b>
   <u>关键词强调</u>
   <i>关键词强调</i> 
  </div> 
  <div>
    版权部分关键词强调 
  </div>  
 </body>
</html>

注:在<body>..</body>标签区中的罗列,都是一些基础的HTML标签,这些标签出现的次序是可以变化的。

第1行

这个标签是用来做HTML代码注解的,很多站在这里会写上关键词,这种形式的注解在浏览器中是不会显示的,而搜索引擎可以读到。所以这个标签有的时候会成为作弊的一种形式,不要过多的用这种标签到来注明你的关键词,否则如果搜索引擎认为你是作弊的话,就惨了。

第4行

这是相当重要的!这里字字值千金!对于做百度SEO的朋友,一定要记得这个标签可能是你是否真正能够做到排名靠前的重点,而且这个重点绝对不容忽视。标题主要注意你的用词,如果你做垃圾站,堆关键词也无所谓,如果你要做正规站点,请你正确对待,写得标准一点,不要堆关键字,保持你的主要词在这里出现三次就行,太多对你没有好处,对排名也不会有好处。GG并不喜欢太长的标题,百度也偶尔提到只希望在标题的前20个字里出现你的关键词。明确这些以后,还要注意的是,你的主要关键词应该在标题里越靠前越好!对于网页标题TITLE的优化技巧也可以参考以前的文章。

第7行

<meta name=”keywords” content=”关键词”>

这个的用途现在权重越来越低,但是再低都是有权重的,只要认真对待,这里的词是有效果的。这里注意两点:
第一、大部分人都会选择在这里写关键词不会超过三个,有的人直接只写一个,这是有好处的,每一处标签都有权重,你强调的内容越少,那么它的权重会相对更高的,所以不要写太多,否则不如不写,而让搜索引擎自己去判断你的页面关键词。
第二、几乎所有的SEO专业人员都会跟你说尽量在每一个页面写不同的关键词,避免被认为是重复页面的危险。

第8行

<meta name=”description” content=”网站描述”>

这个是主要为了在搜索结果里出现的索引结果的,索引结果就是在百度搜索你的站的时候标题下面的摘要内容。这是一个页面的导读,用来说明网页的主要内容,当然现在的权重不高,跟keywords标签一样,不太受重视。而且现在由于搜索引擎机器人的越来越智能化,基本上已经实现整个页面的摘要内容随意出现它的索引结果里了,搜索引擎会根据你搜索的内容不同显示不同的索引。你如果要写description,就认真去写,很多人是用这里来控制搜索引擎的索引显示的,因为网站描述写得越具体,就越有可能在索引的时候出现这个标签中的内容。

第13行

<h1>页面内容标题</h1>

这个标签是一个页面最重要的标签,也是搜索引擎定位这个页面的主要依据,如果你的<h1>标签里没有出现你的页面关键字,那真是的一种很大的损失,这里的权重相对于其它的在<body>区的标签来说更加重要。在HTML代码中,它的重要性仅次于<title>。很多人放弃写这个标签,对于搜索引擎是很不友好的,你可以不出现其它的强调关键词的标签,但是这个标签一定要出现,这是告诉搜索引擎你的页面用一句话应该如何表达,如果这一行字都没有,再智能化的机器人可能都会以你的<title>来决定是否用来作为一个词的排名,很多时候一个网站的页面标题都是完全一样的,因为他们程序的原因,但是如果你没有办法修改title,已经损失很大了,而如果你的页面这个<h1>标签也没有出现的话,我不知道搜索引擎会怎么样去理解一个页面,对于SEO来说,那真很糟糕的一件事情。所以,认真对待你的页面<h1>,这是很重要的,要强调的是,这个标签一个页面不要出现太多,一次就行了,道理很简单,太多会让别人无法确定你页面中哪一个才是最重要的,无法确定重点跟没有这个标签我觉得没有太大的分别。所以,最好只出现1次,以达到明确说明的目的。

第14行

<h2>页面相关性标题</h2>

这个标签与<h1>是一样和道理,但是权重相对来说较低,如果你的页面没有<h1>,那么这个标签对于页面来说基本上就相当于<h1>的重要性了。这里面你包含的是长尾关键词相关的内容,比如你的页面做几个关键词,主词应该出现在<h1>里,那么其它的词以及你想发展的词就可以出现在<h2>里,这样来说是一种合理的安排。
而<h3>~<h6>这些标签,重要性是依次递减的,在一个页面的权重越来越低。

第19行

<img src=”xxx.jpg” alt=”图片说明”>

我想这个标签很多人都知道,它的作用很明确,就是指定一张图片的说明文字,让搜索引擎知道这张图片是关于什么的。比如你的图片是”刘亦菲”,那么你的alt=”图片说明”中的”图片说明”就应该是与”刘亦菲”相关的词或者句子。这样写当然也有利于你在图片搜索的结果里显示排名更前面一点,不过现在百度基本上是以页面标题作为一张图片排名的要素,当然,你的alt标记做得好,将会增加你的图片匹配度。关于图片说明的研究,以后我也许会写一篇分析性的文章,因为有<a>链接的图片里,还会有一个title标签,title与alt这两个谁重要,是有必要研究一下的。

第20行

<a href=”/” title=”链接说明”>链接词</a>

这是链接说明,同时也是一个页面链接的SEO重点,这里的”链接词”相当的重要,如果你跟别人交换链接,你这个词的写法是起着外链好坏与否的决定性因素的。”链接词”建议你最好写成自己的关键词,如果觉得实在不行或者怎么样,你一定要在”链接说明”里出现你的关键词。否则对于排名,你的链接做得没有太大的好处。这在SEO专业术语里还有一种叫法,叫做”google炸弹”,就是用很多站点,同时做链接到一个网站,然后所有的”链接词”都写一个词-”刘亦菲”,不久以后google就会将这个站当做”刘亦菲”这个词最权威的站点,即使被那些站点链接的这个页面没有任何与”刘亦菲”相关的内容,这个网站在”刘亦菲”这个词的排名情况也会很好。不过google已经调整了算法,但是这样做链接肯定是有用的,一定要认真对待你的链接。还有一个重点,就是对方的链接,如果是JS调用的,你就别想在他那里得到任何权重,因为搜索引擎不会去读取JS里的内容,所以,建议大家好好做链接,不要做了链接你的站却跟没做一样。像百度空间的友情链接就是JS文件调用的,所以百度空间里的友情链接你是没有权重的。具体可以查看HTML代码,正常情况下一个页面你找不到你的网站地址在<a>..</a>标签内出现,基本上这就是属于无效链接。

第21行

<strong>重点关键词强调</strong>

这个标签基实重要性仅次于<h1>,很多人都这样跟我讲,我也基本上认同。很确定的是它比<b>、<u>、<i>等标签要权重高。所以如果你的页面有很重要的词,而你想强调它,首先选这个<strong>标签吧,接下来相对不重要的词强调请你选<b>、<u>、<i>等标签。当然,不要用得太多了,用得太多没有重点就等于没有用了。

第26行

版权部分关键词强调,我为什么要写这个?因为这个权重越来越高了,在底部版权部分,及很接近版权部分出现关键词,是一种手法。在这里强调你的关键词,是让你的关键词布局更加合理,而不是头部出现关键词,中部强调很多次,而底部却没有什么相关联的内容,这个词在这个页面是否值得怀疑呢?

以上代码只是为了讲解才这样列出来的,不一定全要用上,要根据自己网站的情况而定,如上面5,6两行就要根据自己网站情况进行定义的,希望对大家有所帮助。

二、sitemap设置

什么是siemap

  Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

  网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。

  Sitemap 0.90 是依据创意公用授权-相同方式共享 (Attribution-ShareAlike Creative Commons License) 的条款提供的,并被广泛采用,受 Google、Yahoo! 和 Microsoft 在内的众多厂商的支持。

Google SiteMap文件生成后格式如下:

<urlset xmlns=http://www.google.com/schemas/sitemap/0.9>
  <url>
  <loc>http://www.seotest.cn</loc>
  <lastmod>2005-06-03T04:20-08:00</lastmod>
  <changefreq>always</changefreq>
  <priority>1.0</priority>
  </url>
  <url>
  <loc>http://www.seotest.cn/blog/google-sitemap-xiangjie.html</loc>
  <lastmod>2005-06-02T20:20:36Z</lastmod>
  <changefreq>daily</changefreq>
  <priority>0.8</priority>
  </url>
</urlset>

sitemap的在线生成

  1.打开浏览器输入在线生成Sitemap网站的网址 http://www.alichaxun.com/sitemap/

  2.在表单里面填入要生成sitemap的网页的网址,然后点击提交

  3.打开了生成的数据结果页面,复制文本框里面的代码。

  4.新建一个本文文件把代码粘贴进去,然后另存为utf-8格式的文件,文件名为sitemap.xml,然后把这个文件上传到自己网站的对应的根目录下面。

Sitemap的使用和登陆google

  5.打开浏览器输入网址http://www.google.cn ,点击右上角的登陆,用自己的google帐户登陆,还没有 Google 帐户? 现在就创建一个帐户 ,注册帐户以后然后登陆帐户

  6.登陆成功以后,点击进入用户管理中心,然后点击:网站管理员工具

  7.首先添加你的网址例如http://www.alichaxun.com ,添加成功以后,在网址的对应项后面点击添加,打开sitemap的添加页面,选择下拉菜单,选择普通网站地图,下面出现文本表单,在空白表单后面添加sitemap.xml,然后点击提交。

  8.好了!sitemap提交成功,等待5个小时之内google收录你的网站!

  使用Google sitemap能提高网站/网页在SERP中的排名(或提高SEO效果) Sitemaps只是在一定程度上提高网站页面被收录、索引的效率,从这个意义上说,对网站的整体SEO效果当然是有所助益的。

  但是,Sitemaps与网站/网页最终出现在SERP中的排名则没有任何直接意义上的联系,这是两个虽有联系但实现过程中交叉部分很少的两个机制。——当然,如果非要强辩说,随着网站内页面收录数量增加,站内的交叉链接权值会相应提高,而这会对最终的排名产生影响,倒也能在某种程度上说得过去,不过,影响多大就难说了。

三、robots设置

禁止搜索引擎收录的方法


1. 什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。


2. robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

网站 URL

相应的 robots.txt的 URL

http://www.w3.org/

http://www.w3.org/robots.txt

http://www.w3.org:80/

http://www.w3.org:80/robots.txt

http://www.w3.org:1234/

http://www.w3.org:1234/robots.txt

http://w3.org/

http://w3.org/robots.txt


3. 我在robots.txt中设置了禁止百度收录我网站的内容为何还出现在百度搜索结果中?

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。


4. 禁止搜索引擎跟踪网页的链接,而只对网页建索引

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:
<meta name="robots" content="nofollow">
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
<a href="signin.php" rel="nofollow">sign in</a>
要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:
<meta name="Baiduspider" content="nofollow">


5. 禁止搜索引擎在搜索结果中显示网页快照,而只对网页建索引

要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:
<meta name="robots" content="noarchive">
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="Baiduspider" content="noarchive">
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。

6. 我想禁止百度图片搜索收录某些图片,该如何设置?

禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现,请参考“robots.txt文件用法举例”中的例10、11、12。


7. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:"<field>:<optional space><value><optional space>"
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent

该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受 到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效, 在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User- agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一 条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow

该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页 同时禁止访问其它所有URL的功能。

使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url,"$" 匹配行结束符,"*" 匹配0或多个任意字符。
注:我们会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,我们会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。


8. URL匹配举例

Allow或Disallow的值

URL

匹配结果

/tmp

/tmp

yes

/tmp

/tmp.html

yes

/tmp

/tmp/a.html

yes

/tmp

/tmphoho

no

/Hello*

/Hello.html

yes

/He*lo

/Hello,lolo

yes

/Heap*lo

/Hello,lolo

no

html$

/tmpa.html

yes

/a.html$

/a.html

yes

htm$

/a.html

no


9. robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

下载该robots.txt文件

User-agent: *

Disallow: /

例2. 允许所有的robot访问

(或者也可以建一个空文件 "/robots.txt")

User-agent: *

Allow: /

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Allow: /

User-agent: *

Disallow: /

例5. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider

Allow: /

User-agent: Googlebot

Allow: /

User-agent: *

Disallow: /

例6. 禁止spider访问特定目录 

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例7. 允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例8. 使用"*"限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

例9. 使用"$"限制访问url

仅允许访问以".htm"为后缀的URL。

User-agent: *

Allow: /*.htm$

Disallow: /

例10. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

例11. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

例12. 仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider

Allow: /*.gif$

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.png$

Disallow: /*.bmp$

例13. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: /*.jpg$