python 写入到csv pythoncsv文件写入

转载

编程艺术之光 2023-08-28 21:14:56

文章标签 python 写入到csv python3.6.5写入csv文件 request怎么添加不使用持久连接 umi request 地址参数 HTTP 文章分类 Python 后端开发

精简修改自官方文档：

urllib - URL handling modules - Python 3.8.5 documentationdocs.python.org

urllib.request模块定义了有助于在复杂环境中打开URL（主要是HTTP）的函数和类-基本身份验证和摘要身份验证，重定向，Cookie等。

另请参见对于更高级别的HTTP客户端界面，建议使用Requests包。

urllib.request.urlopen（URL，data = None，[timeout，] *，cafile = None，capath = None，cadefault = False，context = None）

打开URL，它可以是字符串或Request对象。

data必须是一个指定要发送到服务器的其他数据的对象，如果不需要，则为None。有关详细信息，请参见请求。

urllib.request模块使用HTTP / 1.1，并在其HTTP请求中包含Connection：close标头。

可选的timeout参数以秒为单位指定用于阻止连接尝试之类的操作的超时（如果未指定，将使用全局默认超时设置）。这实际上仅适用于HTTP，HTTPS和FTP连接。

该函数总是返回一个可以用作上下文管理器的对象，并具有诸如

geturl（）—返回所获取资源的URL，通常用于确定是否遵循了重定向

info（）—以email.message_from_string（）实例的形式返回页面的元信息，例如标头（请参阅HTTP标头快速参考）

getcode（）–返回响应的HTTP状态代码。

对于HTTP和HTTPS URL，此函数返回一个经过稍微修改的http.client.HTTPResponse对象。除了上面的三个新方法外，msg属性还包含与原因属性（服务器返回的原因短语）相同的信息，而不是HTTPResponse文档中指定的响应头。

对于由旧版URLopener和FancyURLopener类显式处理的FTP，文件和数据URL和请求，此函数返回urllib.response.addinfourl对象。

在协议错误时引发URLError。

请注意，如果没有处理程序处理该请求，则可能不会返回None（尽管默认安装的全局OpenerDirector使用UnknownHandler来确保永远不会发生）。

另外，如果检测到代理设置（例如，当设置了* _proxy环境变量（例如http_proxy）时），则默认安装ProxyHandler并确保通过代理处理请求。

Python 2.6和更早版本的旧版urllib.urlopen函数已停止使用； urllib.request.urlopen（）对应于旧的urllib2.urlopen。可以通过使用ProxyHandler对象来获得代理处理，该处理是通过将字典参数传递给urllib.urlopen来完成的。

默认的打开程序将引发审核事件urllib.Request，其参数为fullURL，数据，标头，从请求对象获取的方法。

转载一个教程：

https://zhuanlan.zhihu.com/p/53638189zhuanlan.zhihu.com

request模块的urlopen函数，我们来看一下其参数的介绍：

urllib.request.urlopen(url, data=None, [timeout, ])

传入的url就是你想抓取的地址；

data是指向服务器提交信息时传递的字典形式的信息，通常来说就是爬去需要登录的网址时传入的用户名和密码，可省略。

timeout参数指的是超时时间，也可省略。

下面我们试举一例，来抓取新浪首页,并保存到本地：

import urllib.request as eq
url='https://www.sina.com.cn/'#抓取的网址
file=eq.urlopen(url).read()#读取信息
path=open('D:/python36/pachong/网页/sina.html','wb')#已写入二进制的方式创建文件
path.write(file)#写入爬下的信息
path.close()#关闭文件

运行之后，我们在对应路径下的文件结果如下：

python 写入到csv pythoncsv文件写入_python3.6.5写入csv文件

打开爬下来的名为sina的文件：

python 写入到csv pythoncsv文件写入_python3.6.5写入csv文件_02

此时，新浪网首页被我们抓取下来。

2、添加头信息。

在抓取网页的时候，我们会遇到一些反爬虫的设置，比如说服务器读取到请求为爬虫时会出现403错误，这是我们就需要伪装成为浏览器来访问，此时要添加头信息。在network（网络）的选项中选取user-agent选项，复制下来。

python 写入到csv pythoncsv文件写入_umi request 地址参数_03

我的头信息是这样的：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134

有了头信息，上述代码我们可以修改一下：

import urllib.request as eq
url='https://www.sina.com.cn/'#抓取的网址
req=eq.Request(url)#创建Request对象
req.add_header('User-Agent'，'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134')#添加头信息
file=eq.urlopen(url).read()#读取信息
path=open('D:/python36/pachong/网页/sina.html','wb')#已写入二进制的方式创建文件
path.write(file)#写入爬下的信息
path.close()#关闭文件

此时我们已经伪装成了浏览器。

3、代理服务器设置。

现在我们已经学会了伪装成浏览器去抓取网页，那么如果遇到更厉害的反扒手段，发现某一个IP频繁访问网址，会被服务器屏蔽，那么该怎么办呢？这是就需要代理服务器上场了。

首先代理服务器在百度上搜索一下，有很多，我们随便点进去一个：

python 写入到csv pythoncsv文件写入_umi request 地址参数_04

我们选取第一个：218.22.65.606：0088即IP：端口号

接下来，我们上述代码可以修改成如下：

import urllib.request as eq
url='https://www.sina.com.cn/'#抓取的网址
req=eq.Request(url)#创建Request对象
req.add_header('User-Agent'，'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134')#添加头信息
IP=eq.ProxyHandler({'http':218.22.65.606：0088})#设置代理服务器信息
opener=eq.build_opener(IP,eq.HTTPHandler)#自定义打开方式，传入代理服务器信息和HTTPHandler类
file=opener.open(req).read()#读取信息
path=open('D:/python36/pachong/网页/sina.html','wb')#已写入二进制的方式创建文件
path.write(file)#写入爬下的信息
path.close()#关闭文件

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。