python 爬取finereport页面 python爬取页面文档

转载

boyboy 2024-02-25 12:05:23

文章标签 HTML 右键 Google 文章分类 Python 后端开发

在上一篇文章中我们已经介绍了selenium，以及如何去安装selenium，这一章我们首先介绍一下一个网页的结构，以及如何去爬取和解析一个网页。

网页组成结构介绍

一个网页主要由导航栏、栏目、以及正文这三个部分组成，而一般我们所说的爬虫，主要是针对正文来提取对于我们有价值的消息。正文其实就是一个HTML格式的文件，我们主要是通过分析HTML的组成元素来提取信息。下面我介绍一下，两种分析HTML方法。

第一种，通过Google浏览器进行分析，打开网页之后，鼠标右击，点击检查，然后会弹出如下图的窗口，右上角的div标签就是HTML的组成元素之一

python 爬取finereport页面 python爬取页面文档_Google

第二种，通过firefox浏览器，不过需要安装一个插件firebug，这是一个很强大的网页分析插件，安装firebug的步骤，点击右上角的按钮，然后点击附加组件，然后在搜索栏中输入firebug点击安装之后，重启火狐浏览器即可。打开想要分析的网页，鼠标右键点击“使用firebug查看元素”，即可出现像上图那样的界面，这里就不展示了。

python 爬取finereport页面 python爬取页面文档_Google_02

在介绍了两种常用分析网页的方法之后，下面说一下HTML的组成，HTML主要是由标签组成，常见的标签有div、span、table、h标签等，这里我就不详细说明了，其实我们爬取网页不需要去深究。只需要知道是，我们如何去定位一个标签，定位一个标签的方法有五种，ID、class、name、tagname、Xpath,下面我会介绍如何去使用这些方法进行定位一个标签。

<div class="mysign">
                <div class="col-lg-11 text-center text-info">
                    <h2 style="color: white;">请登录</h2>
                </div>
                <div class="col-lg-10">
                    <input type="text" class="form-control" name="username" placeholder="请输入账户名" required autofocus/>
                </div>
                <div class="col-lg-10"></div>
                <div class="col-lg-10">
                    <input type="password" class="form-control" name="password" placeholder="请输入密码" required autofocus/>
                </div>
                <div class="col-lg-10"></div>
                <!--
                <div class="col-lg-10 mycheckbox checkbox">
                    <input type="checkbox" class="col-lg-1"><span style="color: white;">记住密码</span></input>
                </div>
                 -->
                <div class="col-lg-10"></div>
                <div class="col-lg-10">
                    <button type="button" class="btn btn-success col-lg-12" id="login">登录</button>
                </div>
            </div>

<div class="mysign">...</div>这里的mysign便是div的一个类名，主要注意的是一个标签的类名不唯一可以重复，像<button type="button" class="btn btn-success col-lg-12" id="login">登录</button>这个button标签的ID名就是login，标签的ID名是唯一的，这里的div便是tagname，Xpath是逐层解析介绍有点复杂，这里告诉大家一个好方法来获取xpath，使用Google和火狐都可以，鼠标右键点击检查之后

1、用鼠标点击箭头

2、点击箭头之后，选择你想定位的位置，如图中的2所示会有一块阴影区域，遮盖你选的位置

3、选中之后，在HTML会选中相应的位置，然后将鼠标停放在阴影区域，鼠标右键点击选择copy-->copy xpath即可获取xpath

python 爬取finereport页面 python爬取页面文档_Google_03