python中apply函数提取数据用python提取数据

转载

mob6454cc749e02 2024-08-12 13:54:11

文章标签 python中apply函数提取数据 python 爬虫 xpath jsonpath 文章分类 Python 后端开发

一、概述

1、响应内容的分类

结构化的响应内容

json 字符串：可以使用 re、json、jsonpath 等模块来提取特定数据
xml 字符串：可以使用 re、lxml 等模块来提取特定数据

非结构化的响应内容

html 字符串：可以使用 re、lxml、Beautiful Soup、pyquery 等模块来提取特定数据

注意：re 模块需要掌握正则语法，lxml 模块需要掌握 xpath 语法。

2、xml 与 html 的区别

数据格式	描述	设计目标
XML	EXtensible Markup Language（可扩展标记语言）	被设计为传输和存储数据，其焦点是数据的结构
HTML	HyperText Markup Language（超文本标记语言）	显示数据以及如何更好显示数据

二、jsonpath 模块【了解】

1、介绍

场景：多层嵌套的复杂字典直接提取数据
安装：pip install jsonpath
使用：

from jsonpath import jsonpath
ret = jsonpath(data, 'jsonpath语法规则字符串')

注意：data 类型是字典，ret 类型是列表

2、jsonpath 语法规则

常用核心语法

JSONPath	描述
$	根节点
. or []	取子节点
…	内部任意位置，取子孙节点

完整语法说明：https://kubernetes.io/zh/docs/reference/kubectl/jsonpath/

from jsonpath import jsonpath

data = {'key1': {'key2': {'key3': {'key4': {'key5': {'key6': 'lqr'}}}}}}

# print(data['key1']['key2']['key3']['key4']['key5']['key6'])

# jsonpath的结果为列表，获取数据需要索引
print(jsonpath(data, '$.key1.key2.key3.key4.key5.key6')[0])
print(jsonpath(data, '$..key6')[0])

三、lxml 模块【重点】

1、介绍

lxml 模块：可以利用 XPath 规则语法，快速定位 HTML/XML 文档中的元素以及获取节点信息（文本内容、属性值）
XPath：是一门对 HTML/XML 文档中查找信息的语言，可用来在 HTML/XML 文档中对元素和属性进行遍历
关系：提取 xml、html 中的数据需要 lxml 模块和 xpath 语法配合使用

2、xpath 语法

完整语法说明：https://www.w3school.com.cn/xpath/index.asp

1）xpath 定位节点以及提取属性或文本内容语法

nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性。
text()	选取文本。

举例：

<!-------选取title标签-------->
html/head/title	绝对路径
html//title		相对路径
//title			相对于整个html文档
//title/.		当前节点
//title/./../..	父节点

<!-------从开闭标签之间取文本内容-------->
//title/text()

<!-------从选中的节点标签中获取指定属性的值-------->
//link/@href

2）xpath 选取特定节点语法

路径表达式	结果
//title[@lang=“eng”]	选择 lang 属性值为 eng 的所有 title 元素
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素
/bookstore/book[last]	选取属于 bookstore 子元素的最后一个 book 元素
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素
/bookstore/book[position()>1]	选择 bookstore 下面的 book 元素，从第二个开始选择
//book/title[text()=‘Harry Potter’]	选择所有 book 下的 title 元素，仅仅选择文本为 Harry Potter 的 title 元素
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 子元素的值须大于 35.00

注意：在 xpath 中，第一个元素的位置是 1；最后一个元素的位置是 last()；倒数第二个是 last()-1。

举例：

<!-------通过索引修饰节点-------->
/html/body/div[3]/div/div[1]/div
/html/body/div[3]/div/div[1]/div[3]
/html/body/div[3]/div/div[1]/div[last()]		选中最后一个
/html/body/div[3]/div/div[1]/div[last()-1]		选中倒数第二个
/html/body/div[3]/div/div[1]/div[position()>=10] 范围选择

<!-------通过属性修饰节点-------->
//div[@id="content-left"]/div/@id	出现在[]中的@是使用标签属性名和属性值修饰节点，出现在结尾的/@是取属性值

<!-------通过子节点修饰节点-------->
//span[i>2000]
//div[span[2]>=9.4]

<!-------通过包含修饰节点-------->
//div[contains(@id, "qiushi_tag_")]

3）xpath 选取未知节点语法

可以通过通配符来选取未知的 html、xml 的元素

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

补充：通过在路径表达式中使用"|"运算符，可以选取若干个路径。

举例：

/bookstore/*	选取 bookstore 元素的所有子元素。
//*				选取文档中的所有元素。
//title[@*]		选取所有带有属性的 title 元素

//h2/a|//td/a	xpath复合使用语法

3、lxml 模块的使用

1）导入 lxml 的 etree 库

from lxml import etree

# 如果上面导入代码报错，可以改用下面的导入代码
from lxml import html
etree = html.etree

注意：from lxml import etree 提示报错的话，其实不会影响代码的运行，只是看着有点别扭。

2）使用 `etree.HTML` 转化 Element 对象

利用 etree.HTML 将 html 字符串（bytes 类型或 str 类型）转化为 Element 对象，Element 对象具有 xpath 方法，返回结果的列表：

html = etree.HTML(text)
ret_list = html.xpath('xpath语法规则字符串')

3）xpath 方法返回列表的三种情况

空列表：没有定位到任何元素
字符串列表：匹配到了文本内容或某属性的值
Element 列表：匹配到符合条件的标签，列表中的 Element 对象可以继续进行 xpath

举例：

from lxml import etree

text = """
<div>
    <ul>
        <li class="item-1"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
</div>
"""

html = etree.HTML(text)
#print(html)

print(html.xpath('//a[@href="link1.html"]/text()'))
print(html.xpath('//a[@href="link1.html"]/text()')[0])

# 字符串列表
text_list = html.xpath('//a/text()')
link_list = html.xpath('//a/@href')
# for text in text_list:
#     myindex = text_list.index(text)
#     link = link_list[myindex]
#     print(text, link)
for text, link in zip(text_list, link_list):
    print(text, link)

# Element列表
el_list = html.xpath('//a')
for el in el_list:
    print(el.xpath('//text()'))  # ×：//开头是相对整个文档的
    print(el.xpath('./text()'))  # √
    print(el.xpath('.//text()'))  # √
    print(el.xpath('text()'))  # √

4）`etree.tostring` 函数的使用

etree.tostring 函数可以将 Element 对象转化回 html 字符串：

from lxml import etree

text = """
<div>
    <ul>
        <li class="item-1"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
</div>
"""

html = etree.HTML(text)

html_str = etree.tostring(html).decode()
print(html_str)

注意：转化后，可能会多出来一些标签，比如原本没有的<body>、<html>，这是因为 etree.HTML(text) 会自动补全原 html 中的语法错误。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：k8s修改cri类型为docker k8s crd controller

下一篇：java实现先锋语音盒子网络呼叫的方法先锋录音盒怎么设置

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python中apply函数提取数据 用python提取数据

python中apply函数提取数据 用python提取数据

一、概述

1、响应内容的分类

2、xml 与 html 的区别

二、jsonpath 模块【了解】

1、介绍

2、jsonpath 语法规则

三、lxml 模块【重点】

1、介绍

2、xpath 语法

1）xpath 定位节点以及提取属性或文本内容语法

2）xpath 选取特定节点语法

3）xpath 选取未知节点语法

3、lxml 模块的使用

1）导入 lxml 的 etree 库

2）使用 etree.HTML 转化 Element 对象

3）xpath 方法返回列表的三种情况

4）etree.tostring 函数的使用

51CTO博客

python中apply函数提取数据用python提取数据

python中apply函数提取数据用python提取数据

2）使用 `etree.HTML` 转化 Element 对象

4）`etree.tostring` 函数的使用