1.XPATH是啥

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。

所以在做爬虫时,我们完全可以使用 XPath 来做相应的信息抽取。

2.怎样使用xpath

基于python环境开工(继续使用pycharm),在终端区输入安装指令:

pip install lxml

安装success后,py文件顶部添加引用,然后就可以使用啦:

from lxml import etree

3.xpath的基本语法

前置准备:

#加载准备解析的数据
f = open("testData.html",mode='r',encoding='utf-8')
pageSource = f.read()

#加载数据,返回element对象
et = etree.HTML(pageSource)

result = et.xpath("/html") 

/html表示根节点


result = et.xpath("/html/body")

表达式中间的/表示一层html节点


result = et.xpath("/html/body/span/text()")

可以使用text()来提取标签中的文本信息


 result = et.xpath("/html/body/*/li/a/text()") 

*代指任意的,通配符


result = et.xpath("/html/body/*/li/a/@href")

@表示属性


result = et.xpath("//a/@href")

//表示任意位置,前文中的/html等等内容就都可以省略掉


result = et.xpath("//div[@class='job']/text()")

[@xx=xxx]表示属性限定,上句指找到class=‘job’的<a>标签里的文字