进行完网络爬虫的前期环境配置之后,我们就正式开始进行实践的操作,今天我们先来撰写一只最简单的网络爬虫。

首先,我们进入自己的编译环境,新建一个文件,进行代码的输入:
在这里,我们将要运用到python当中 requests 的调用,因此我们首先要导入requests包:
(关于调用和其他有关于python的基础语法,请自行学习,我只是在基础语法的基础上向想研究一下爬虫,因此基础的东西就不写了)

import requests

然后我们调用requests的get方法,进行网页的信息获取,这里我们以百度首页为例:

res = requests.get('https://www.baidu.com/')

然后我们输出获取的文本内容:

print(res.text)

然后运行文件,我们会得到以下内容:

python编写爬虫程序 python编写爬虫的步骤_编码格式


我们会发现,其中有乱码的情况,这是因为python在获取的时候使用的编码方式不是汉字的编码格式,如果想看具体的编码方式的话,可以使用:

将print(res.text)换成print(res.encoding) ,运行即可


这里我们主要讲的是将编码格式修改,我们就需要在print的前面对编码格式进行修改:

res.encoding = 'utf-8'

然后运行,这个时候我们得到的网页信息就是汉字编码的了。

python编写爬虫程序 python编写爬虫的步骤_python编写爬虫程序_02


这就是第一个最为简单的网络爬虫的撰写了,可能有人觉得会太简单,但是像是搜索引擎这种大型的网络爬虫工程并不是一个人能够完成的,我们现在在开始阶段,所以实践的都比较简单,随着学习的跟进,我们的实践内容会更加丰富!

最后,附上完整的代码(我也受不了一句一句的代码……):

import requests
res = requests.get('https://www.baidu.com/')
res.encoding='utf-8'
print (res.text)