简单几步教你如何写爬虫

原创

华科云商小徐 2022-11-14 15:33:52 ©著作权

文章标签 爬虫代理大数据分析 python爬虫爬虫技术 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者华科云商小徐的原创作品，请联系作者获取转载授权，否则将追究法律责任

对于初入爬虫行业的新手小白来说，如何简单快速的实现爬虫对于自身经验提升也是大有裨益的。

为了节约时间，我就不浪费大家的时间了，直接就开始案例讲解吧。

import requests

from lxml import html

url='https://movie.douban.com/' #需要爬数据的网址

page=requests.Session().get(url)

tree=html.fromstring(page.text)

result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据

需要请求时添加header了

url = "https://movie.douban.com/"
    header = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
    }
    page = requests.Session().get(url, headers=header)
    tree = html.fromstring(page.text)
    result = tree.xpath('//td[@class="title"]//a/text()')
    print(result)

我们来看下获取的数据

print(result)
['看不见的客人',
 '斯隆女士',
 '美女与野兽',
 '契克',
 '分裂',
 '莎士比亚外传',
 '八月',
 '休斯顿，我们有麻烦了！',
 '古城一线牵',
 '被操纵的城市']

爬虫结束~~~有木有满满成就感！！！

以上代码爬取的是这个页面，红色框框里面的数据，也就是豆瓣电影本周口碑榜。

简单几步教你如何写爬虫_大数据分析

下面开始简单介绍如何写爬虫

爬虫前，我们首先简单明确两点：

1. 爬虫的网址；

2. 需要爬取的内容（数据）

第一步，爬虫的网址，这个…那就豆瓣吧，我也不知道为啥爬虫教程都要拿豆瓣开刀–！

第二部，需要爬取的内容（数据）。

这也正是上面6行代码中的最后一行，也可能是新手觉得最难的地方了。代码的这个部分就是获取数据。

'//td[@class="title"]//a/text()'

下面来一步一步操作如何写出上面的那行代码

1. 打开网址https://movie.douban.com/，然后按一下F12。

2. 鼠标点击图中的按钮。

简单几步教你如何写爬虫_爬虫代理_02

1.鼠标点击需要爬取的数据，这里我们点“看不见的客人”，如图所示。

简单几步教你如何写爬虫_爬虫技术_03

看到大红色框框里的东西，是不是和我们最“重要”的代码有很多相似的地方。

再看来最后一行代码中最“重要”的部分。

‘//td[@class=”title”]//a/text()’

//td ：这个相当于指定是大目录；

[@class=”title”]：这个相当于指定的小目录；

//a ：这个相当于最小的目录；

/text()：这个是提取其中的数据。

爬虫介绍结束，看完你也该试试手了。

试试爬“即将上映”

简单几步教你如何写爬虫_爬虫代理_04

这个只需将最后一行代码改成

result=tree.xpath('//li[@class="title"]//a/text()')

如图所示“即将上映”的电影就被你爬下来了。

上一篇：利用爬虫技术如何爬取小说

下一篇：一个简单的网络爬虫教程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯