python爬取外网 python爬国外网站

转载

mob64ca141275de 2023-11-04 23:04:17

文章标签 python爬取外网 python 开发语言 .net 登陆界面 文章分类 Python 后端开发

终于想开始爬自己想爬的网站了。于是就试着爬P站试试手。

我爬的图的目标网址是：http://www.pixiv.net/search.php?word=%E5%9B%9B%E6%9C%88%E3%81%AF%E5%90%9B%E3%81%AE%E5%98%98，目标是将每一页的图片都爬下来。

一开始以为不用登陆，就直接去爬图片了。

后来发现是需要登录的，但是不会只好去学模拟登陆。

这里是登陆网站https://accounts.pixiv.net/login?lang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index的headers，

python爬取外网 python爬国外网站_开发语言

然后还要去获取我们登陆时候需要的data。点住上面的presevelog，找到登陆的网址，点开查看Form Data就可以知道我们post的时候的data需要什么了。这里可以看到有个postkey，多试几次可以发现这个是变化的，即我们要去捕获它，而不能直接输入。

python爬取外网 python爬国外网站_登陆界面_02

于是退回到登陆界面，F12查看源码，发现有一个postkey，那么我们就可以写一个东西去捕获它，然后把它放到我们post的data里面。

python爬取外网 python爬国外网站_登陆界面_03

这里给出登陆界面需要的代码：

python爬取外网 python爬国外网站_登陆界面_04

愉快地解决完登陆问题之后，就可以开始爬图片啦。

进入target_url：上面的目标网址。

点击目标的位置

python爬取外网 python爬国外网站_.net_05

点开ul这个标签，发现图片全部都是在<li class="image-item">这里面的，因为我们要爬大一点的图（爬个小图有什么用啊！），所以还要进入一层第一个链接的网址去获取大图，我们可以发现我们只要在main_url（(http://www.pixiv.net)），再加上第一个href，就可以跑到图片所在的网址了，于是我们先跳转到图片网址看看怎么提取图片。

python爬取外网 python爬国外网站_python爬取外网_06