最近几年以来,Python的热度一直处于上升阶段,到目前为止,Python已经成为和Java一样备受编程爱好者追捧的编程语言。因此越来越多的人都选择学习Python,只是很多人由于缺乏编程基础,不知道怎么开始学习Python,也不知道应该购买哪些书籍,下面我将为大家推荐一些比较好的经典学习书籍,各种难易程度都有,大家可以选择适合自己的进行阅读学习

这些书籍分别是《Python编程:从入门到实践》、《Python基础教程》、《流畅的Python》、《Python编程快速上手。如果大家对这些书是否真的值得购买学习使用,那么我们可以通过当当上关于这些书的购买评价来评判,刚好这里我们也可以使用python技术展示下,如何使用python去采集当当网上的书籍评论数据。那么接下来我们就使用 requests 来写一个爬虫,目标网站为​​http://bang.dangdang.com​​,根据以上书籍名为关键信息进行数据采集。爬虫代码如下所示:

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}


# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

在爬虫代码中小编为了防止网站封IP行为,还特别的加上了代理IP。爬虫代理在爬取数据过程中是必不可少的辅助。特别是电商网站的反爬机制更严,对IP质量的要求会更高。