在上一篇文章中我们已经介绍了selenium,以及如何去安装selenium,这一章我们首先介绍一下一个网页的结构,以及如何去爬取和解析一个网页。

网页组成结构介绍

一个网页主要由导航栏、栏目、以及正文这三个部分组成,而一般我们所说的爬虫,主要是针对正文来提取对于我们有价值的消息。正文其实就是一个HTML格式的文件,我们主要是通过分析HTML的组成元素来提取信息。下面我介绍一下,两种分析HTML方法。

第一种,通过Google浏览器进行分析,打开网页之后,鼠标右击,点击检查,然后会弹出如下图的窗口,右上角的div标签就是HTML的组成元素之一

python 爬取finereport页面 python爬取页面文档_Google

第二种,通过firefox浏览器,不过需要安装一个插件firebug,这是一个很强大的网页分析插件,安装firebug的步骤,点击右上角的按钮,然后点击附加组件,然后在搜索栏中输入firebug点击安装之后,重启火狐浏览器即可。打开想要分析的网页,鼠标右键点击“使用firebug查看元素”,即可出现像上图那样的界面,这里就不展示了。

python 爬取finereport页面 python爬取页面文档_Google_02

在介绍了两种常用分析网页的方法之后,下面说一下HTML的组成,HTML主要是由标签组成,常见的标签有div、span、table、h标签等,这里我就不详细说明了,其实我们爬取网页不需要去深究。只需要知道是,我们如何去定位一个标签,定位一个标签的方法有五种,ID、class、name、tagname、Xpath,下面我会介绍如何去使用这些方法进行定位一个标签。


<div class="mysign">
                <div class="col-lg-11 text-center text-info">
                    <h2 style="color: white;">请登录</h2>
                </div>
                <div class="col-lg-10">
                    <input type="text" class="form-control" name="username" placeholder="请输入账户名" required autofocus/>
                </div>
                <div class="col-lg-10"></div>
                <div class="col-lg-10">
                    <input type="password" class="form-control" name="password" placeholder="请输入密码" required autofocus/>
                </div>
                <div class="col-lg-10"></div>
                <!--
                <div class="col-lg-10 mycheckbox checkbox">
                    <input type="checkbox" class="col-lg-1"><span style="color: white;">记住密码</span></input>
                </div>
                 -->
                <div class="col-lg-10"></div>
                <div class="col-lg-10">
                    <button type="button" class="btn btn-success col-lg-12" id="login">登录</button>
                </div>
            </div>

<div class="mysign">...</div>这里的mysign便是div的一个类名,主要注意的是一个标签的类名不唯一可以重复,像<button type="button" class="btn btn-success col-lg-12" id="login">登录</button>这个button标签的ID名就是login,标签的ID名是唯一的,这里的div便是tagname,Xpath是逐层解析介绍有点复杂,这里告诉大家一个好方法来获取xpath,使用Google和火狐都可以,鼠标右键点击检查之后

1、用鼠标点击箭头

2、点击箭头之后,选择你想定位的位置,如图中的2所示会有一块阴影区域,遮盖你选的位置

3、选中之后,在HTML会选中相应的位置,然后将鼠标停放在阴影区域,鼠标右键点击选择copy-->copy xpath即可获取xpath

python 爬取finereport页面 python爬取页面文档_Google_03

下一章,我将会介绍如何使用selenium来爬取一个我们输入词语点击搜索之后的文章名称和文章的链接。