1.XPATH是啥
XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。
所以在做爬虫时,我们完全可以使用 XPath 来做相应的信息抽取。
2.怎样使用xpath
基于python环境开工(继续使用pycharm),在终端区输入安装指令:
pip install lxml
安装success后,py文件顶部添加引用,然后就可以使用啦:
from lxml import etree
3.xpath的基本语法
前置准备:
#加载准备解析的数据
f = open("testData.html",mode='r',encoding='utf-8')
pageSource = f.read()
#加载数据,返回element对象
et = etree.HTML(pageSource)
result = et.xpath("/html")
/html表示根节点
result = et.xpath("/html/body")
表达式中间的/表示一层html节点
result = et.xpath("/html/body/span/text()")
可以使用text()来提取标签中的文本信息
result = et.xpath("/html/body/*/li/a/text()")
*代指任意的,通配符
result = et.xpath("/html/body/*/li/a/@href")
@表示属性
result = et.xpath("//a/@href")
//表示任意位置,前文中的/html等等内容就都可以省略掉
result = et.xpath("//div[@class='job']/text()")
[@xx=xxx]表示属性限定,上句指找到class=‘job’的<a>标签里的文字