一、bs4解析介绍

        1bs4解析:BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

       2HTML:用来描述网页的一种语言。

       1)HTML指的是超文本标记语言 (Hyper Text Markup Language)

       2)HTML 不是一种编程语言,而是一种标记语言 (markup language)

       3)标记语言是一套标记标签 (markup tag)

       4)HTML 使用标记标签来描述网页

       3. HTML常见标签:

        h1:一级标签

        h2:二级标签

        p:段落

        body:主体

二、使用bs4解析实战爬取优美图库图片

       1. 获取主页面源代码。

python获取p标签 python爬虫怎么取标签的文字_xpath

python获取p标签 python爬虫怎么取标签的文字_爬虫_02

       2.定位标签,找到主页面源代码中子页面的链接位置。

python获取p标签 python爬虫怎么取标签的文字_html_03

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_04

       3. 获取子页面下载链接,得到“href”。

python获取p标签 python爬虫怎么取标签的文字_python_05

python获取p标签 python爬虫怎么取标签的文字_html_06

       4.子页面下载地址不全,进行子页面下载了解拼接补全。,得到完整下载链接。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_07

python获取p标签 python爬虫怎么取标签的文字_python_08

       5. 获取子页面源代码。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_09

       6. 从子页面获取图片下载路径。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_10

python获取p标签 python爬虫怎么取标签的文字_html_11

       7. 下载图片,创建文件夹img,将下载图片存入img文件夹中,取名为下载链接最后一部分(唯一)。 

python获取p标签 python爬虫怎么取标签的文字_爬虫_12

python获取p标签 python爬虫怎么取标签的文字_python_13

python获取p标签 python爬虫怎么取标签的文字_html_14

 三、xpath解析介绍 

       XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。基于XML的树状结构,提供在数据结构树中找寻节点的能力。

       1)XML 指可扩展标记语言(EXtensible Markup Language)

       2)XML 是一种标记语言,很类似 HTML

       3)XML 的设计宗旨是传输数据,而非显示数据

       4)XML 标签没有被预定义。您需要自行定义标签。

       5)XML 被设计为具有自我描述性。

       1.xpath入门,准备一个节点示例。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_15

       2. 从节点示例中找到book节点。

python获取p标签 python爬虫怎么取标签的文字_xpath_16

python获取p标签 python爬虫怎么取标签的文字_xpath_17

       3. 获取节点实例中name节点下文本。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_18

python获取p标签 python爬虫怎么取标签的文字_python_19

       4. 获取author节点下所有的nick节点的文本,示例中存在author节点下的nick节点以及author节点下div中的nick节点,下面将全部内容进行输出。

python获取p标签 python爬虫怎么取标签的文字_xpath_20

python获取p标签 python爬虫怎么取标签的文字_python_21

python获取p标签 python爬虫怎么取标签的文字_html_22

       5.常见的命令

       //:当前目录中后面所有节点

       *:通配符

      @:属性

       []:表示索引

       [1]:第一条(xpath顺序是从1开始计算)

       [@xx=’xxx’] :表示属性的筛选

       ./:表示当前节点,相对查找

四、使用xpath实战爬取猪八戒网信息

       获取如图中四个信息:店铺、位置、价格、标题

python获取p标签 python爬虫怎么取标签的文字_html_23

        1.获取页面源代码。

python获取p标签 python爬虫怎么取标签的文字_python_24

        2.使用xpath解析,找到整体源代码位置。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_25

       3.寻找所需信息位置进行爬取。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_26

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_27

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_28

        4.对输出结果进行整理,输出适合格式,完成猪八戒网信息获取。

python获取p标签 python爬虫怎么取标签的文字_python_29

python获取p标签 python爬虫怎么取标签的文字_爬虫_30