python实现简易爬虫
话不多说先上代码
import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
print(result)
爬取效果
实现原理:
首先我们用到了一个python的一个请求库,requests库,这是第三方库,需要cmd下载
pip install requests
下载好导入就能用了
今天爬取的是豆瓣电影网的一周口碑榜:https://movie.douban.com/
前面几行代码容易理解,主要最后一行不好理解,获取我们需要爬取的内容
result=tree.xpath('//td[@class="title"]//a/text()')
首先我们F12打开控制台,点击左上角的鼠标,然后点击我们要查看的标签,这样就能找到我们所需要的信息
然后我们根据它显示出来的标签填写条件
1、//td :这个相当于指定是大目录;
2、[@class=”title”]:这个相当于指定的小目录;
3、//a :这个相当于最小的目录;
4、/text():这个是提取其中的数据。
这样就能完成简易的爬虫了
end…