python3爬虫程序 python 爬虫

转载

mob6454cc769a22 2023-12-04 15:12:44

文章标签 python3爬虫程序 python 爬虫学习服务器 文章分类 Python 后端开发

01 爬虫简介

爬虫：通过编写程序模拟浏览器上网，让其去互联网上抓取数据的过程。
技术中立，正当的爬虫：法律合法
遵守robots协议；优化代码，避免干扰被访问网站的正常运行；审查抓取的内容，如发现个人信息隐私或商业秘密等，应停止并删除
可实现爬虫的语言：php，c，c++，java，python

爬虫的分类：

通用爬虫：

通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

聚焦爬虫：

聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。

增量式爬虫：

增量式是用来检测网站数据更新的情况，且可以将网站更新的数据进行爬取。

反爬机制

门户网站通过制定相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。如：robots协议、UA检测等

反反爬策略

爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据

robots协议

robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取，哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息，又可以被搜索引擎收录、增加流量。

HTTP协议是什么

概念：HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。
HTTP协议就是服务器（Server）和客户端（Client）之间进行数据交互（相互传输数据）的一种形式。（就像交流用的黑化）

HTTP工作原理

HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后，向客户端发送响应信息。

常见的请求头信息

accept	浏览器通过这个头告诉服务器，它所支持的数据类型
Accept-Charset	浏览器通过这个头告诉服务器，它支持哪种字符集
Accept-Encoding	浏览器通过这个头告诉服务器，支持的压缩格式
Accept-Language	浏览器通过这个头告诉服务器，它的语言环境
Host	浏览器通过这个头告诉服务器，想访问哪台主机
If-Modified-Since	浏览器通过这个头告诉服务器，缓存数据的时间
Referer	浏览器通过这个头告诉服务器，客户机是哪个页面来的防盗链
Connection	浏览器通过这个头告诉服务器，请求完后是断开链接还是何持链接
X-Requested-With:	XMLHttpRequest 代表通过ajax方式进行访问
User-Agent	请求载体的身份标识

常见的响应头信息

Location	服务器通过这个头，来告诉浏览器跳到哪里
Server	服务器通过这个头，告诉浏览器服务器的型号
Content-Encoding	服务器通过这个头，告诉浏览器，数据的压缩格式
Content-Length	服务器通过这个头，告诉浏览器回送数据的长度
Content-Language	服务器通过这个头，告诉浏览器语言环境
Content-Type	服务器通过这个头，告诉浏览器回送数据的类型
Refresh	服务器通过这个头，告诉浏览器定时刷新
Content-Disposition	服务器通过这个头，告诉浏览器以下载方式打数据
Transfer-Encoding	服务器通过这个头，告诉浏览器数据是以分块方式回送的
Expires	-1 控制浏览器不要缓存
Cache-Control	no-cache
Pragma	no-cache

HTTPS协议

HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议，HTTPS是在HTTP上建立SSL加密层，并对传输数据进行加密，是HTTP协议的安全版。

https加密算法

对称秘钥加密：共享秘钥加密
非对称秘钥加密：私有密钥+公开密钥
证书秘钥加密：第三方机构——数字证书认证机构

02 requests模块

Python实现爬虫的网络请求发送的模块：urlib requests
requests模块是什么

requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。
功能强大，用法简洁，应用广泛

requests模块的使用

环境安装：pip install requests
使用流程：

指定url
基于requests模块发送请求
获取响应对象中的数据值
持久化存储（非必须）

基于requests模块的get请求

需求：爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）
requests.get(url , params , headers).text

# 爬取搜狗页面首页的页面数据
import requests
if __name__ == '__main__':
    # 1.指定url（网址）
    url = 'https://www.sogou.com/'
    # 2.发起request请求
    response = requests.get(url=url)
    # 3.获取响应数据.text(str)
    page_text = response.text
    print(page_text)
    # 4.持久化存储
    with open('./sogou.html', 'w', encoding="utf-8") as fp:

        fp.write(page_text)
    print("OVER!")

反爬机制

User-Agent：请求载体的身份标识，使用浏览器发起的请求，请求载体的身份标识为浏览器，使用爬虫程序发起的请求，请求载体为爬虫程序。
UA检测：相关的门户网站通过检测请求该网站的载体身份来辨别该请求是否为爬虫程序，如果是，则网站数据请求失败。因为正常用户对网站发起的请求的载体一定是基于某一款浏览器，如果网站检测到某一请求载体身份标识不是基于浏览器的，则让其请求失败。因此，UA检测是我们整个课程中遇到的第二种反爬机制，第一种是robots协议。
UA伪装：通过修改/伪装爬虫请求的User-Agent来破解UA检测这种反爬机制

基于requests模块的post请求

import json

import requests

if __name__ == '__main__':
    # UA伪装：将对应的User-Agent封装到一个字典中,伪装成一个浏览器
    my_headers = {'User-Agent': '一个浏览器的user-agent'}
    my_url = "https://fanyi.baidu.com/sug"
    # 处理url携带的参数：封装到字典中
    kw_word = input('enter a word:')
    my_data = {'kw': kw_word}
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.post(url=my_url, data=my_data, headers=my_headers)

    dic_obj = response.json()  # 返回的是字典对象

    filename = kw_word + '.json'

    fp = open(filename, 'w', encoding='utf-8')
    json.dump(dic_obj, fp=fp, ensure_ascii=False)
    print(filename, "保存成功")
    print(dic_obj)

requests.post():其中三个参数：url data headers

基于requests模块ajax的get请求

requests.get(url, params, headers).json()

import json

import requests
if __name__ == '__main__':
    # UA伪装：将对应的User-Agent封装到一个字典中,伪装成一个浏览器
    headers = {'User-Agent': '一个浏览器的user-agent'}
    my_url = "https://movie.douban.com/j/new_search_subjects"
    # 处理url携带的参数：封装到字典中
    my_param = {"sort": 'U', 'range': "0,10", 'tags': '', 'start': '20', 'genres': "动画"}
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=my_url, params=my_param, headers=headers)
    dict_obj = response.json()

    filename = "douban.动画" + '.json'
    fp = open(filename, 'w', encoding='utf-8')
    json.dump(dict_obj, fp, ensure_ascii=False)
    print(filename, "保存成功")
    data_list = dict_obj['data']
    data_new_list = []
    for item_dict in data_list:
        item_title = item_dict['title']
        item_rate = item_dict['rate']
        data_new_list.append((item_title, item_rate))

    data_new_list.sort()
    for item in data_new_list:
        print(item)

requests.get（“url params headers”）.json（）

基于requests模块ajax的post请

requests.post(url, data, headers).json()

import json
import requests
if __name__ == '__main__':
    # UA伪装：将对应的User-Agent封装到一个字典中,伪装成一个浏览器
    my_headers = {'User-Agent': ''}
    my_url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
    """对于一些post请求，url中“？”后面的不能省略。否则会不成功，且返回-1000"""
    # 处理url携带的参数：封装到字典中
    my_data = {'cname': '', 'pid': '', 'keyword': "哈尔滨", 'pageIndex': '1', 'pageSize': '20'}
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.post(url=my_url, data=my_data, headers=my_headers)
    dict_obj = response.json()

    filename = my_data['keyword'] + "地肯德基餐厅查询" + '.json'
    fp = open(filename, 'w', encoding='utf-8')
    json.dump(dict_obj, fp, ensure_ascii=False)
    print(filename, "保存成功")
    data_list = dict_obj['Table1']

    for item_dict in data_list:
        item_storeName = item_dict['storeName']
        item_addressDetail = item_dict['addressDetail']
        print(item_storeName, item_addressDetail)

03 数据解析

数据爬取流程

指定url
发起请求
获取响应数据
数据解析
持久化存储

python中如何实现数据解析

正则表达式
bs4解析
xpath解析

数据解析原理概述：

解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储

进行制定标签的定位
标签或者标签对应属性中存储数据的提取（解析）

数据解析——正则表达式

常用正则表达式：
爬取煎蛋百科中图片

import requests
import re
import os
if __name__ == '__main__':
    url = 'http://jandan.net/ooxx'
    headers = {
        #定制请求头中的User-Agent参数，当然也可以定制请求头中其他的参数
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
    }
    #创建文件
    if not os.path.exists('./pics'):
        os.mkdir('./pics')

    #使用通用爬虫爬取整张页面
    page_text=requests.get(url=url,headers=headers).text

    #使用聚焦爬虫
    ex = '<img src="(.*?)".*?>'
    img_src_list = re.findall(ex,page_text,re.S)
    for img_src in img_src_list:
        img_src_url = 'https:'+img_src

        pic_bytes=requests.get(url=img_src_url,headers=headers).content
        pic_name = img_src_url.split('/')[-1]
        pic_path = './pics/'+ pic_name
        with open(pic_path,'wb') as f:
            f.write(pic_bytes)
            print(pic_name,'ok!')

问题：（tbc）

数据解析——bs4

安装：

终端中输入：pip install bs4
终端中输入：pip install lxml

使用流程：

导包：from bs4 import BeautifulSoup
使用方式：可以将一个html文档，转化为BeautifulSoup对象，然后通过对象的方法或者属性去查找指定的节点内容

（1）转化本地文件： soup = BeautifulSoup(open('本地文件'), 'lxml')
（2）转化网络文件：soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')
（3）打印soup对象显示内容为html文件中的内容

基础巩固

（1）根据标签名查找

soup.a 只能找到第一个符合要求的标签

（2）获取属性

soup.a.attrs 获取a所有的属性和属性值，返回一个字典
soup.a.attrs['href'] 获取href属性
soup.a['href'] 也可简写为这种形式

（3）获取内容

soup.a.string
soup.a.text
soup.a.get_text()
【注意】如果标签还有标签，那么string获取到的结果为None，而其它两个，可以获取文本内容

（4）find：找到第一个符合要求的标签 - soup.find('a') 找到第一个符合要求的

soup.find('a', title="xxx")
soup.find('a', alt="xxx")
soup.find('a', class_="xxx") - soup.find('a', id="xxx")

（5）find_all：找到所有符合要求的标签

soup.find_all('a') - soup.find_all(['a','b']) 找到所有的a和b标签
soup.find_all('a', limit=2) 限制前两个

（6）根据选择器选择指定的内容 select:soup.select('#feng')

常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器
层级选择器： div .dudu #lala .meme .xixi 下面好多级
div > p > a > .lala 只能是下面一级
【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

项目巩固：

使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储
代码实现
tbc

04 验证码识别

05 requests高级操作

06 高性能异步爬虫

07 selenium模块基本使用

08 crapy框架

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：力软架构力软框架教程

下一篇：obspy支持python obspy读取seed

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python3爬虫程序 python 爬虫

python3爬虫程序 python 爬虫

01 爬虫简介

爬虫的分类：

通用爬虫：

聚焦爬虫：

增量式爬虫：

02 requests模块

03 数据解析

数据爬取流程

python中如何实现数据解析

数据解析原理概述：

数据解析——正则表达式

数据解析——bs4

安装：

使用流程：

基础巩固

项目巩固：

04 验证码识别

05 requests高级操作

06 高性能异步爬虫

07 selenium模块基本使用

08 crapy框架

51CTO博客