python 解析html中的JavaScript python解析html的库

转载

幸福的地图 2023-08-16 16:04:11

Lxml库

Lxml库是基于libxm12的XML解析库的Python封装，该模块使用C语言编写，解析的速度比Beautiful Soup更快。Lxml库使用Xpath语法解析定位网页数据。

pip install lxml

python 解析html中的JavaScript python解析html的库_开发语言

1、修正HTML代码

Lxml为XML解析库，但也很好地支持了HTML文档地解析功能，这为使用Lxml库爬取网络信息提供了支持条件。

python 解析html中的JavaScript python解析html的库_开发语言_02

首先需要导入Lxml库中地etree库，利用etree.HTML进行初始化，返回解析后的Element对象，这里可以看到，Lxml有一个非常实用的功能，就是自动修正了HTML代码（比如标签对漏掉的情况也会自动补齐）。

2、读取HTML文件

将上面的HTML文件拷贝到Sublime中保存为HTML文件。

python 解析html中的JavaScript python解析html的库_python_03

然后通过Lxml库读取HTML文件中的内容。

python 解析html中的JavaScript python解析html的库_Beautiful Soup_04

3、解析HTML文件

经过上面的步骤，便可以使用requests库获取HTML文件，然后用Lxml库来解析HTML文件。

python 解析html中的JavaScript python解析html的库_Lxml_05

Xpath是一门在XML文档中查找信息的语言，对HTML文档又很好的支持。

<user_databaser> <user> <name> Jack </name> <sex> Male </sex> <id> 10001 </id> <goal> 100 </goal> </user> </user_databaser>

【基本概念】

Xpath使用路径表达式在XML文档中选取节点，节点是通过沿着路径或者step来选取的。

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

根据上例举例说明：

路径表达式	结果
user_databaser	选取元素user_databaser的所有子节点
/user_databaser	选取根元素user_databaser
user_databaser/user	选取属于user_databaser的子元素的所有user元素
//user	选取所有user子元素，不考虑他们在文档中位置
user_databaser//user	选取属于user_databaser元素的后代所有user元素，不管位置
//@attribute	选取名为attribute的所有属性

Xpath中也可以使用通配符来选取位置的元素，常用的就是“*”通配符，它可以匹配任何元素节点。

Xpath语法中的谓语用来查找某个特定的节点或者包含某个指定值的节点，谓语被嵌在方括号中。

路径表达式	结果
/user_databaser/user[1]	选取属于user_databaser子元素的第一个user元素
//li{[@attribute]	选取所有拥有名为attribute属性的li元素
//li{[@attribute=’red’]	选取所有li元素，且这些元素拥有值为red的attribute属性

python 解析html中的JavaScript python解析html的库_Lxml_06