R语言爬虫的html基础_html

 

网页是构成网站的基本元素,网页又是由一些更基本的元素构成。想要网络爬虫或多或少还是需要一点简单的html网页基础,尤其是网页布局,因为我们一般需要逐步定位我们需要内容所属标签,最终获得所需要的内容。

 

各种标签

 

  1. 标题标签:<h1></h1>、<h2></h2>、<h3></h3>、<h4></h4>、<h5></h5>、<h6></h6>

  2. 段落标签p:<p></p>这种形式,网页中经常用来放大量文字。

  3. 链接标签a:<a href = "链接地址">链接文本</a>,这是普通文本链接格式。

    链接文本就是引导我们点击的位置,链接地址就是点击这个链接后将要跳转(进入)的新的页面。我们一般做网络爬虫时,比如招聘网站,就需要爬取链接文本(职位名称),和链接地址(职位详细描述页面地址),当然了,一般还要爬取职位发布时间,工资、地域等。

  4. 列表标签

  5. 表格标签: <table>、<tbody>、<tr>、<th>和<td>

 

 

 

属性class和id

网页制作中的对象属性class和id有什么区别,id = "value_1",相当于给一个对象起了一个名字、贴了一个标记,好比一个人对应一个身份证号码;class = "value_2",是把一类对象起一个名字,比如男人(短发),这是一个很多对象的集合,那么看到男人,我们就会自然想到短发。

 

  • id:比如我们要定位:<h2 id ="title">这是一个标题</h2>,我们要从一张网页中的各种标签中定位到这个标题,需要这样表示“#title”就表示这个二级标题。

  • class:比如我们要定位:<span class ="title">这是一个"span"区域</span>,就需要写“.title”就表示这个“span”区域。

 

 

一般,爬虫时都要根据“class”和“id”属性值定位相应标签位置,在R语言中就是:"class"用“.”;"id"用“#”,即".+class值","#+id值",其它编程语言具体爬虫格式根据语言而定。

 

容器

网页中最常用的容器就是"div",可以把文字、标签(比如:链接、段落、标题等)放在里面,爬虫时一般第一步就需要定位到元素所在"div",然后逐步定位,具体会在下一节介绍。

如下图所示:R语言爬虫的html基础_html_02        我们以新浪网内地新闻第二条为例,这条新闻在"class"属性值为"news-item"的"div"里面,标题标签"h2"里面又放了一个"a"标签即链接,里面有链接地址和文本(新闻标题),接着又是一个"class"属性值为"info clearfix"的"div",它们都在"class"属性值为"news-item"的"div"里面。