python实现简易爬虫

话不多说先上代码

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
print(result)

爬取效果
python实现简易爬虫_python实现

实现原理:

首先我们用到了一个python的一个请求库,requests库,这是第三方库,需要cmd下载

pip install requests
下载好导入就能用了
今天爬取的是豆瓣电影网的一周口碑榜:https://movie.douban.com/
python实现简易爬虫_xml_02
前面几行代码容易理解,主要最后一行不好理解,获取我们需要爬取的内容

result=tree.xpath('//td[@class="title"]//a/text()')

首先我们F12打开控制台,点击左上角的鼠标,然后点击我们要查看的标签,这样就能找到我们所需要的信息
python实现简易爬虫_python_03
然后我们根据它显示出来的标签填写条件

1、//td :这个相当于指定是大目录;
2、[@class=”title”]:这个相当于指定的小目录;
3、//a :这个相当于最小的目录;
4、/text():这个是提取其中的数据。

这样就能完成简易的爬虫了

end…