Python 爬虫年报 python爬虫分析

转载

技术极客侠 2023-08-30 08:44:31

文章标签 Python 爬虫年报 html HTML xml 文章分类 Python 后端开发

Python 爬虫年报 python爬虫分析_xml

文章目录

爬虫的价值
正则表达式
requests-html
BeautifulSoup
lxml的XPath

爬虫的价值

常见的数据获取方式就三种：自有数据、购买数据、爬取数据。用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上扒一点资料下来，用于数据分析或者干点别的事情，我们知道，爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场合下使用

Python 爬虫年报 python爬虫分析_HTML_02

正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等

正则的好处是编写麻烦，理解不容易，但是匹配效率很高，不过时至今日有太多现成的HTMl内容解析库之后，我个人不太建议再手动用正则来对内容进行匹配了，费时费力

requests-html

这个库其实是我个人最喜欢的库，作则是编写requests库的网红程序员 Kenneth Reitz，他在requests的基础上加上了对html内容的解析，就变成了requests-html这个库了

我喜欢用requests-html来解析内容的原因是因为作者依据帮我高度封装过了，连请求返回内容的编码格式转换也自动做了，完全可以让我的代码逻辑简单直接，更专注于解析工作本身。

安装与使用： pip install requests-html

links = response.html.find('table.olt', first=True).find('a')

BeautifulSoup

大名鼎鼎的 BeautifulSoup库，出来有些年头了，在Pyhton的HTML解析库里属于重量级的库，其实我评价它的重量是指比较臃肿，大而全，而且依赖Python，适用场景受到了局限性

BeautifulSoup解析内容同样需要将请求和解析分开，从代码清晰程度来讲还将就，不过在做复杂的解析时代码略显繁琐，总体来讲可以用，看个人喜好吧。

安装与使用： pip install beautifulsoup4

soup = BeautifulSoup(response, 'html.parser')links = soup.findAll("table", {"class": "olt"})[0].findAll('a')

lxml的XPath

lxml这个库同时支持HTML和XML的解析，支持XPath解析方式，解析效率挺高，不过我们需要熟悉它的一些规则语法才能使用，例如下图这些规则。

安装与使用： pip install lxml

content = doc.xpath("//table[@class='olt']/tr/td/a")

Python 爬虫年报 python爬虫分析_html_03

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java用类作为参数 java方法做参数

下一篇：java 使用redis每天接口次数 redis的接口

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯