HTTP使用六个方法(Get、Post、Head、Put、Patch、Delete)对URL位置主的资源进行管理。

  1. Get:获取URL位置上的全部资源
  2. Post:在请求URL位置后附加新的资源
  3. Head:获取URL位置上的资源的头信息,如果资源比较大就可以通过获取它的头信息来作分析
  4. Put:用我的数据覆盖掉URL位置上的资源。
  5. Patch:修改URL位置上的资源。
  6. Delete:删除URL位置上的资源。

接下来我们看看requests对应的这六个方法的使用:

GET

import requests


# 抓取网页
def get_html_text(url):
try:
r = requests.get(url, timeout=30)
# 如果状态不是200,引发HTTPError异常
r.raise_for_status()
r.encoding = r.apparent_encoding
# 拿回所有的网页信息
return r.text
except:
return "产生异常"


if __name__ == "__main__":
url = "http://www.baidu.com"
print(get_html_text(url))

POST

import requests


# 抓取网页
def get_html_text(url):
try:
payload = {"key1": "value1", "key2": "value2"}
r = requests.post(url, data=payload)
# 如果状态不是200,引发HTTPError异常
r.raise_for_status()
r.encoding = r.apparent_encoding
# 拿回所有的网页信息
return r.text
except:
return "产生异常"


if __name__ == "__main__":
url = "http://www.baidu.com"
print(get_html_text(url))

注:
如果我们用post提交键值对或字典,这些参数会自动编码为form(表单),如上面的键值对,会被 编码成:

{...
"form":{
"key1": "value1",
"key2": "value2"
},
}

如果不是传键值对或字典,而只是传字符串,那么就会被自动编码到data字段下,如
r = requests.post(url, data=“ABC”)对应的:

{...
"data":"ABC",
"form":{},
}

HEAD

可以用较少的流量获取网络资源的概要信息

import requests


# 抓取网页
def get_html_text(url):
try:
r = requests.head(url)
# 如果状态不是200,引发HTTPError异常
r.raise_for_status()
r.encoding = r.apparent_encoding
# 拿回所有的网页信息
return r.headers
except:
return "产生异常"


if __name__ == "__main__":
url = "http://www.baidu.com"
print(get_html_text(url))

获得的头信息如下:

{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Mon, 15 Jul 2019 13:33:58 GMT', 'Last-Modified': 'Mon, 13 Jun 2016 02:50:26 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18'}

其他三个方法如此类推,实际中也比较少用到这三个方法。

谢谢阅读!