【四二学堂】网络爬虫实践-爬取百度首页_html
网络爬虫实践-爬取百度首页

一、详细步骤
1)打开Python编辑器IDLE。
2)导入要使用的库。
import urllib.request
3)获取目的网页响应的对象。使用urlopen方法打开目的网页,并返回网页响应对象fh。
fh=urllib.request.urlopen(“http://www.baidu.com”)
4)获取对象fh的内容data。采用read方法读取fh对象的内容。因为网页有编码,采用decode方法进行解码,解码方式用utf-8,参数ignore表示忽略当前解码的细节错误。
data=fh.read()
data=data.decode(“utf-8”,“ignore”)
5)将data写入本地test.html文件进行保存。在系统中创建HTML格式的文件test。以写入的方式打开文件,并设置文件编码格式为utf-8。然后调用write方法将data写入fh2中,最后关闭文件并保存。
fh2=open(“D:/网课系列/大数据系列/Python网络爬虫/1/test.html”,“w”,encoding=“utf-8”)
fh2.write(data)
fh2.close()

open函数中“w”参数的含义

【四二学堂】网络爬虫实践-爬取百度首页_Python_02