爬虫requests请求网页js动态加载 python 爬虫动态加载

转载

mob6454cc6dac54 2024-08-29 20:38:28

文章标签 python爬虫动态加载数据 json 动态加载 文章分类 架构后端开发

requests

"""

基于网络请求的模块。

环境的安装：pip install requests

作用：模拟浏览器发起请求

分析requests的编码流程：

1.指定url

2.发起了请求

3.获取响应数据

4.持久化存储

"""

处理数据量级的问题：

遇到了对应的反爬机制

反爬机制：UA检测

反反爬策略：UA伪装

UA伪装的实现：

1.定义一个字典

2.在字典中进行相关请求头信息的伪装

3.将该字典作用到get方法的headers参数中即可

UA检测被作用到了大量的网站中，因此日后，爬虫程序编写中一定要直接加上UA的操作

"""

简单案例一

"""
url = ''
response = requests.get(url)
page_text = response.text
page_text.encode('utf-8')
print(page_text)
"""

简单案例二豆瓣 ajax

"""

需求：爬取豆瓣电影的详情数据

分析：

更多的电影数据是通过将滚轮滑动到底部后发起了ajax请求请求到的电影数据

对ajax请求的url进行捕获

对ajax请求的url进行请求发送

"""
"""
url= 'https://movie.douban.com/j/chart/top_list'
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
for i in range(0,10):
param = {
'type': '13',
'interval_id': '100:90',
'action':'',
'start': str(i*20),
'limit': '20',
}
response = requests.get(url=url,params=param,headers=headers)
mov_list = response.json()
for mov in mov_list:
name = mov['title']
sor = mov['score']
print(name+':'+sor)
"""

简单案例三肯德基+动态加载

"""

分析：

动态加载数据

概念：通过其他/另一个请求请求到的数据

特性：可见非可得

判定相关的页面数据是否为动态加载的数据？

基于抓包工具定位到浏览器地址栏url对应的请求数据包，进行局部搜索：

搜索到：这组被搜索的数据不是动态加载的，可以直接爬取

没有搜到：这组数据是动态加载的，不可以直接爬取。

如何捕获动态加载的数据？

基于抓包工具进行全局搜索，最终可以定位到动态加载数据对应的数据包。

"""
"""
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
data = {
'cname': '',
'pid': '',
'keyword': '北京',
'pageIndex': '1',
'pageSize': '10',
}
response = requests.post(url=url,headers=headers,data=data)
pos_data = response.json()
# print(pos_data)
data_list = pos_data['Table1']
for i in data_list:
storeName=i.get('storeName')
addressDetail=i.get('addressDetail')
pro=i.get('pro')
provinceName=i.get('provinceName')
s = "{}:{}:{}:{}".format(storeName,addressDetail,pro,provinceName)
print(s)
"""

简单案例四药监总局+动态加载

"""

药监总局数据爬取，爬取的是每一家企业的详情数据

分析：

打开了某一家企业的详情页面，看到了企业的详情数据

判定改家企业的详情数据是否为动态加载的？

进行局部搜索

没有搜索到，说明数据是动态加载出来的

捕获动态加载的数据？

全局搜索，定位到了动态加载数据对应的数据包，提取出了url和请求参数

成功的捕获到了一家企业对应的详情数据

通过上述方式继续分析第二家企业，发现：

每一家企业对应动态加载数据的url都一样：http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById，只要请求参数id的值不一样！说明id值标识的就是每一家企业的唯一标识。

捕获每一家企业的id

在首页中，通过抓包工具对企业名称进行搜索，对应的数据包中发现了企业名称和id

url：http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList
"""
"""
# 获取企业id
ids = [] # 所有企业id 爬取多个数据
url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList"
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
for page in range(1,6):
data = {
"on": "true",
"page": str(page),
"pageSize": "15",
"productName":"",
"conditionType": "1",
"applyname":"",
"applysn":"",
}
company_datas_json = requests.post(url=url, headers=headers, data=data).json()
# print(company_datas_json)
for dic in company_datas_json['list']:
_id = dic['ID']
ids.append(_id)
detail_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
for _id in ids:
data = {
'id': _id
}
company_json = requests.post(url=detail_url, headers=headers,data=data).json()
print(company_json['epsName'],company_json['epsProductAddress'])
"""
"""
#爬取单个数据
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
data = {
'id': 'ff83aff95c5541cdab5ca6e847514f88'
}
response = requests.post(url=url,headers=headers,data=data).json()
print(response)
"""

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。