学习xpath看这一篇就够了

原创

thginWalker 2021-12-28 16:16:24 博主文章分类：网络爬虫 ©著作权

文章标签 xpath scrapy ide xml 子节点 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者thginWalker的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

偶然看见python的scrapy框架，由于兴趣的吸引，最近如入门式的学习，在学习过程中遇到了xpath的相关知识，在此进行总结方面日后查询和记忆。

参考:

菜鸟教程

理解

XPath是一门在 XML 文档中查找信息的语言。当然也可以运用于HTML。在scrapy中用来查找页面需要的内容。

实例

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>
<h1>Example</h1>
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

选取节点

节点名：选取此节点的所有子节点
/：从根节点选取
//：从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置(理解)
.：选取当前节点
..：选取当前节点的父节点
@：选取属性

注：这些语法可以混合使用。

表达式	说明
article	选取所有article元素的所有子节点
/article	选取根元素article
article/a	选取所有属于article的子元素的a元素(不考虑位置)
/div	选取所有div元素
article//div	选取所有article元素的后代div元素
//@class	选取所有名为class的属性

选取多个class

<div class = "h-entry toc-sidebar">...</div>

要注意的是匹配这样的div通过xpath('//div[@class="h-entry"]')或xpath('//div[@class="toc-sidebar"]')是无法获取的，可通过xpath('//div[contains(@class,"h-entry")]')或 xpath('//div[contains(@class,"toc-sidebar")]')进行匹配到，最好的是xpath('//div[contains(@class,"h-entry") and contains(@class,"toc-sidebar")]')