王豪

1.知识点要求

如果你对相关知识有些遗忘,可以点上面的接,熟悉一下相关知识点。

2.爬取CSND博客首页信息实战

目的:爬取博客首页上的所有新闻连接,并下载到本地文件夹中。

(1)进入博客首页(),点击鼠标右键,点击查看网页源代码,然后,在源代码网页中按ctrl + f键,会出现搜索框。

python 爬取加密数据_正则表达式

在这里插入图片描述

(3)换了几个标题之后你会发现大多数的连接的局部地方,都只是红色部分的连接不一样,其余部分一样。那这样我们可以设置正则表达式 <a.*?href="(.*?)" target="_blank"

python 爬取加密数据_python 爬取加密数据_02


python 爬取加密数据_字符串_03

(4)对首页的信息进行爬取

#首先导入模块
import re
import urllib.request
import urllib.error

#要爬取的网页的网站
url = ""
#获得网页当前信息
page = urllib.request.urlopen(url).read().decode('utf-8', 'ignore') #参数'ignore'表示解码遇到异常时忽略异常,继续解码
#设置正则表达式
pat = '<a.*?href="(.*?)" target="_blank"'
#从网页信息中匹配出我们要的信息
links = re.compile(pat).findall(page)
print(links[:12])
#存放爬取的新闻网址信息
for i in range(0, len(links)):
    #防止出现异常,而停止信息爬取,采用异常处理措施
    try:
        urllib.request.urlretrieve(links[i], "D:\\python\\news\\"+str(i)+".html")
    except urllib.error.HTTPError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)
print('爬取成功!')

(5)运行上面的代码我们会发现错误,爬取信息爬到了一半就中断了,分析错误原因,发现是出现了非网址的字符串

python 爬取加密数据_python 爬取加密数据_04

(6)所以,我要用语句 links = [link for link in links if link[:4]=='http']将不是网址的字符串过滤掉,所以, 最终代码如下:

#首先导入模块
import re
import urllib.request
import urllib.error

#要爬取的网页的网站
url = ""
#获得网页当前信息
page = urllib.request.urlopen(url).read().decode('utf-8', 'ignore') #参数'ignore'表示解码遇到异常时忽略异常,继续解码
#设置正则表达式
pat = '<a.*?href="(.*?)" target="_blank"'
#从网页信息中匹配出我们要的信息
links = re.compile(pat).findall(page)
print(len(links))
#爬取的过程中发现了异常,存在:<a href="/nav/ai" target="_blank">这样的代码,获取的不是网址,所有要进行过滤
links = [link for link in links if link[:4]=='http']
print(len(links))
#存放爬取的新闻网址信息
for i in range(0, len(links)):
    #防止出现异常,而停止信息爬取,采用异常处理措施
    try:
        urllib.request.urlretrieve(links[i], "D:\\python\\news\\"+str(i)+".html")
    except urllib.error.HTTPError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)
print('爬取成功!')

(7)运行程序,可以看见我们过滤掉了21个非网址字符串,我这里是从0开始一直爬到122,说明我获取到的网页信息全部爬取成功!

python 爬取加密数据_python 爬取加密数据_05