简单的数据采集
简单的运用爬虫的实例(python2.7)
1.python安装
首先安装python是第一步,登录python的官网下载对应的安装包,默认安装即可;
2.安装python第三方包
我们需要的第三方库文件requests;
通过官网下载,或者pip安装即可,具体pip的安装方式,请点击here
3.运行爬虫实例
import requests
try:
r=requests.get('http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html')
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text)
except:
print ("")
运行代码即可打印2016年最好大学排名页面的HTML内容。
4.运行结果
5.拓展
为了更好处理HTML文件,获取你所需要的信息,可以安装BeautifulSoup库,调用find或者findall,协同re库,更准确的获取。