一、页面分析

今天就说一些开场白了,直接进入主题。

首先,打开目标网址:P站
(未成年人禁止入内嗷(手动滑稽))

 

怎么进docker linux 怎么进p站_数据挖掘

结构和贴吧差不多呀,肯定要分两步。
第一步:通过主详情页,拿到各个子详情页的链接。

 

怎么进docker linux 怎么进p站_怎么进docker linux_02

右击 页面进行检查,发现了每个子页面对应的article节点,点开一个article节点进行观察,很容易发现,里面有一个跳转链接。

怎么进docker linux 怎么进p站_编程语言_03

目标一,get!

第二步,拿到每个图片的下载链接。
右击检查,也很容易发现,它们的下载链接,但同时也发现了,“干扰项”

怎么进docker linux 怎么进p站_怎么进docker linux_04

在获取链接的时候,首先要找到p节点,但是,p节点存在同名的干扰项,这时候就需要使用一些手法进行处理了。具体看代码。

二、完整代码

三、结果展示

怎么进docker linux 怎么进p站_python_05

怎么进docker linux 怎么进p站_编程语言_06

怎么进docker linux 怎么进p站_数据挖掘_07

图片名字含义:num1_num2_num3分别代表,主页面第几页_页面中第几个子页面_子页面中第几张图片。

四、Blogger’s speech

学废了咩,还不赶紧尝试尝试!