python实现简易爬虫

原创

阳某 2021-09-02 11:13:00 博主文章分类：Python ©著作权

文章标签 python 数据 html python实现 xml 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者阳某的原创作品，请联系作者获取转载授权，否则将追究法律责任

python实现简易爬虫

话不多说先上代码

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
print(result)

爬取效果
python实现简易爬虫_python实现

实现原理：

首先我们用到了一个python的一个请求库，requests库，这是第三方库，需要cmd下载

pip install requests
下载好导入就能用了
今天爬取的是豆瓣电影网的一周口碑榜：https://movie.douban.com/
python实现简易爬虫_xml_02
前面几行代码容易理解，主要最后一行不好理解，获取我们需要爬取的内容

result=tree.xpath('//td[@class="title"]//a/text()')

首先我们F12打开控制台，点击左上角的鼠标，然后点击我们要查看的标签，这样就能找到我们所需要的信息
python实现简易爬虫_python_03
然后我们根据它显示出来的标签填写条件

1、//td ：这个相当于指定是大目录；
2、[@class=”title”]：这个相当于指定的小目录；
3、//a ：这个相当于最小的目录；
4、/text()：这个是提取其中的数据。

这样就能完成简易的爬虫了

end…

上一篇：Vuex传值运用

下一篇：vue+elementUI点击菜单添加tab

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯