初学人,尝试爬取百度引擎。
打开百度
谷歌浏览器下点击右键打开检查工具
点击第三行的ALL
可以看到右边的状态栏发生了变化,向上划,找到第一个文件,点击查看。
查看之后可以看到我们想要的数据。
所需的url以及request method方式为get方式。
以及得知content-type为text:
翻到最底,获知user-agent(这个可以逮住一个使劲薅)
需要的数据差不多都齐了,接下来开始怼代码:
首先导入requests包。
import requests
第一步
指定好URL:
if __name__ == '__main__':
#step1:指定url
url = 'https://www.baidu.com/'
第二步
发起请求
#step2:发起请求
response = requests.get(url=url)
第三步
获取到相应数据
#step3:获取相应数据,text返回的是以字符串形式地响应数据
wenben = response.text
print(wenben)
第四步
持久化存储
#step4:持久化存储
with open('./baidu.html','w',encoding='utf-8') as fp:
fp.write(wenben)
print("爬取结束")
源代码:
import requests
if __name__ == '__main__':
#step1:指定url
url = 'https://www.baidu.com/'
#step2:发起请求
response = requests.get(url=url)
#step3:获取相应数据,text返回的是以字符串形式地响应数据
wenben = response.text
print(wenben)
#step4:持久化存储
with open('./baidu.html','w',encoding='utf-8') as fp:
fp.write(wenben)
print("爬取结束")
本地运行代码,会发现同目录下出现一个名为baidu.html的文件。
点开运行。
勉强算是成功了吧。。。