【四二学堂】网络爬虫实践-爬取百度首页

原创

wx622c0209dfb71 2020-04-22 21:00:47 ©著作权

文章标签 python html Python 大数据 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者wx622c0209dfb71的原创作品，请联系作者获取转载授权，否则将追究法律责任

【四二学堂】网络爬虫实践-爬取百度首页_html
网络爬虫实践-爬取百度首页

一、详细步骤
1)打开Python编辑器IDLE。
2)导入要使用的库。
import urllib.request
3)获取目的网页响应的对象。使用urlopen方法打开目的网页，并返回网页响应对象fh。
fh=urllib.request.urlopen(“http://www.baidu.com”)
4)获取对象fh的内容data。采用read方法读取fh对象的内容。因为网页有编码，采用decode方法进行解码，解码方式用utf-8，参数ignore表示忽略当前解码的细节错误。
data=fh.read()
data=data.decode(“utf-8”,“ignore”)
5)将data写入本地test.html文件进行保存。在系统中创建HTML格式的文件test。以写入的方式打开文件，并设置文件编码格式为utf-8。然后调用write方法将data写入fh2中，最后关闭文件并保存。
fh2=open(“D:/网课系列/大数据系列/Python网络爬虫/1/test.html”,“w”,encoding=“utf-8”)
fh2.write(data)
fh2.close()

open函数中“w”参数的含义

【四二学堂】网络爬虫实践-爬取百度首页_Python_02