爬虫入门（5）学习使用xpath

原创

MinionPy 2024-03-12 22:18:19 ©著作权

文章标签 xpath 爬虫 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者MinionPy的原创作品，请联系作者获取转载授权，否则将追究法律责任

1.XPATH是啥

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。

所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取。

2.怎样使用xpath

基于python环境开工（继续使用pycharm），在终端区输入安装指令：

pip install lxml

安装success后，py文件顶部添加引用，然后就可以使用啦：

from lxml import etree

3.xpath的基本语法

前置准备：

#加载准备解析的数据
f = open("testData.html",mode='r',encoding='utf-8')
pageSource = f.read()

#加载数据，返回element对象
et = etree.HTML(pageSource)

result = et.xpath("/html")

/html表示根节点

result = et.xpath("/html/body")

表达式中间的/表示一层html节点

result = et.xpath("/html/body/span/text()")

可以使用text（）来提取标签中的文本信息

result = et.xpath("/html/body/*/li/a/text()")

*代指任意的，通配符

result = et.xpath("/html/body/*/li/a/@href")

@表示属性

result = et.xpath("//a/@href")

//表示任意位置，前文中的/html等等内容就都可以省略掉

result = et.xpath("//div[@class='job']/text()")

[@xx=xxx]表示属性限定，上句指找到class=‘job’的<a>标签里的文字

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯