深度学习入门2 自制框架斋藤康毅如何自制框架

转载

archangle 2024-01-10 18:55:51

文章标签 深度学习入门2 自制框架斋藤康毅 scrapy框架封装数据 ide 文章分类 深度学习人工智能

#一、了解框架 ##1、首先明确一下，什么是框架：

框架是为了为解决一类问题而开发的程序，框架两个字可以分开理解，框：表示指定解决问题的边界，明确要解决的问题；架：表达的是能够提供一定的支撑性和可扩展性；从而实现解决这类问题达到快速开发的目的。

##2、实现框架的好处是什么

2.1现成开源第三方框架的局限性

现成开源第三方框架是为了尽可能满足大部分的需求，不可能做到面面俱到，以及第三方框架的调试相对复杂

2.2解决特定的工作需求

工作中会有很多特殊的需求，会经常使用某种套路去实现这些需求，那么为了提高效率可以专门把这种套路封装成一个框架

比如专门针对电商网站、新闻资讯写一个爬虫框架；再比如针对断点续爬、增量抓取等需求写一个框架

2.3提高自己的技术能力

不一定需要亲自造轮子，但是应该知道如何造轮子

#二、框架设计思路

##1、正常爬虫的流程

（1）构建请求信息(url、method、headers、params、data)

（2）发起HTTP/HTTPS请求，获取HTTP/HTTPS响应

（3）解析响应，分析响应数据的数据结构或者页面结构

提取数据

提取请求的地址

（4）对数据进行存储/对新的请求地址重复前面的步骤

##2、scrapy爬虫的流程

深度学习入门2 自制框架斋藤康毅如何自制框架_封装

从上图可以看出，scrapy分为：

（1）三个内置对象

请求对象(Request)

响应对象(Response)

数据对象(Item)

（2）五个核心组件

爬虫组件

构建请求信息(初始的)，也就是生成请求对象(Request)

解析响应对象，返回数据对象(Item)或者新的请求对象(Request)

调度器组件

缓存请求对象(Request)，并为下载器提供请求对象，实现请求的调度

对请求对象进行去重判断

下载器组件

根据请求对象(Request)，发起HTTP、HTTPS网络请求，

拿到HTTP、HTTPS响应，构建响应对象(Response)并返回

管道组件

负责处理数据对象(Item)

引擎组件

负责驱动各大组件，通过调用各自对外提供的API接口，实现它们之间的交互和协作

提供整个框架的启动入口

（3）两个中间件

爬虫中间件

对请求对象和数据对象进行预处理

下载器中间件

对请求对象和响应对象进行预处理

#三、代码实现分析 ##1、明确模块之间的逻辑关系
五个核心模块和三个内置的对象是关键模块，需要优先实现，先抛开中间件，分析下它们之间的逻辑关系是：
构造spider中start_urls中的请求
传递给调取器进行保存，之后从中取出
取出的request对象交给下载的进行下载，返回response
response交给爬虫模块进行解析，提取结果
如果结果是request对象，重新交给调度器，如果结果是item对象，交给管道处理
##2、设计代码结构
框架名字起名为scrapy_plus
继续对模块进行解耦和分类：
把核心模块放置在一起
请求对象模块和响应对象模块统一作为http模块
数据对象单独作为一个分类
暂定代码结构为

sequenceDiagram
participant scrapy_plus
scrapy_plus->>__init__.py:
scrapy_plus->>core:
scrapy_plus->>http:
scrapy_plus->>item.py:
core->>end:__init__.py
core->>end:spider.py
core->>end:scheduler.py
core->>end:download.py
core->>end:pipeline
core->>end:engine.py
http->>end:__init__.py
http->>end:request.py
http->>end:response.py

markdown最近才开始使用，画的不是太好请见谅
#四、框架雏形 ##1、实现http模块和item模块
创建http模块包
（1）request模块的封装
对HTTP基本的请求属性进行简单封装，实现一个Request对象

# scrapy/http/request.py
'''封装Request对象'''

class Request(object):
    '''框架内置请求对象，设置请求信息'''

    def __init__(self, url, method='GET',\
              headers=None, params=None, data=None):
        self.url = url    # 请求地址
        self.method = method    # 请求方法
        self.headers = headers    # 请求头
        self.params = params    # 请求参数
        self.data = data    # 请求体

（2）response对象的封装
对HTTP基本的响应属性进行简单封装，实现一个Response对象

# scrapy/http/response.py
'''封装Response对象'''

class Response(object):
    '''框架内置Response对象'''
    def __init__(self, url, status_code, headers, body):
        self.url = url    # 响应url
        self.status_code = status_code    # 响应状态码
        self.headers = headers    # 响应头
        self.body = body    # 响应体

（3）item对象的封装
对数据进行简单封装，实现Item对象

# scrapy/item.py
'''item对象'''

class Item(object):
    '''框架内置Item对象'''
    def __init__(self, data):
        # data表示传入的数据
        self._data = data    # 设置为简单的私有属性

    @property
    def data(self):
      '''对外提供data进行访问，一定程度达到保护的作用'''
      return self._data

property 能够让调用一个方法和调用一个属性一样容易，即不用打括号

property 能够让这个属性的值是只读的，即不能够对其进行重新赋值，达到一定的保护的目的

##2、核心模块的实现

（1）spider模块的封装

1.1 爬虫组件功能：

构建请求信息(初始的)，也就是生成请求对象(Request)

解析响应对象，返回数据对象(Item)或者新的请求对象(Request)

1.2 实现方案：

实现start_requests方法，返回请求对象

实现parse方法，返回Item对象或者新的请求对象

具体实现

创建core模块包

# scrapy_plus/core/spider.py
'''爬虫组件封装'''
from scrapy_plus.item import Item    # 导入Item对象
from scrapy_plus.http.request import Request    # 导入Request对象

class Spider(object):
    '''
    1. 构建请求信息(初始的)，也就是生成请求对象(Request)
    2. 解析响应对象，返回数据对象(Item)或者新的请求对象(Request)
    '''

    start_url = 'http://www.baidu.com'    # 默认初始请求地址   

    def start_requests(self):
        '''构建初始请求对象并返回'''
        return Request(self.start_url)

    def parse(self, response):
        '''解析请求
        并返回新的请求对象、或者数据对象
        '''
        return Item(response.body)   # 返回item对象

(2) 调度器模块的封装
2.1 调度器功能：
缓存请求对象(Request)，并为下载器提供请求对象，实现请求的调度：
对请求对象进行去重判断：实现去重方法_filter_request，该方法对内提供，因此设置为私有方法
2.2 实现方案：
利用队列FIFO存储请求；
实现add_request方法添加请求，接收请求对象作为参数；
实现get_request方法对外提供从队列取出的请求对象

# scrapy_plus/core/scheduler.py
'''调度器模块封住'''
# 利用six模块实现py2和py3兼容
from six.moves.queue import Queue


class Scheduler(object):
    '''
    1. 缓存请求对象(Request)，并为下载器提供请求对象，实现请求的调度
    2. 对请求对象进行去重判断
    '''
    def __init__(self):
        self.queue = Queue()

    def add_request(self, request):
        '''添加请求对象'''
        self.queue.put(request)

    def get_request(self):
        '''获取一个请求对象并返回'''
        request = self.queue.get()
        return request

    def _filter_request(self):
        '''请求去重'''
        # 暂时不实现
        pass

这里queue的导入在pycharm中会报错，不用管它，这是pycharm的问题，代码的OK的

(3)下载器模块的封装
3.1 下载器功能：
根据请求对象(Request)，发起HTTP、HTTPS网络请求，拿到HTTP、HTTPS响应，构建响应对象(Response)并返回
3.1 实现方案：
利用requests、urllib2等模块发请求，这里使用requests模块
实现get_response方法，接收request请求对象作为参数，发起请求，获取响应

# scrapy_plus/core/downloader.py
'''下载器组件'''
import requests
from scrapy_plus.http.response import Response

class Downloader(object):
    '''根据请求对象(Request)，发起HTTP、HTTPS网络请求，拿到HTTP、HTTPS响应，构建响应对象(Response)并返回'''

    def get_response(self, request):
        '''发起请求获取响应的方法'''
        # 1. 根据请求对象，发起请求，获取响应
        #    判断请求方法：
        if request.method.upper() == 'GET':
            resp = requests.get(request.url, headers=request.headers,\
                          params=request.params)
        elif request.method.upper() == 'POST':
            resp = requests.post(request.url,headers=request.headers,\
                      params=request.params,data=request.data)
        else:
            # 如果方法不是get或者post，抛出一个异常
            raise Exception("不支持的请求方法")
        # 2. 构建响应对象,并返回
        return Response(resp.url, resp.status_code, resp.headers, resp.content)

(4)管道模块的封装
4.1 管道组件功能：
负责处理数据对象
4.2 实现方案：
实现process_item方法，接收数据对象作为参数

# scrapy_plus/core/pipeline.py
'''管道组件封装'''


class Pipeline(object):
    '''负责处理数据对象(Item)'''

    def process_item(self, item):
        '''处理item对象'''
        print("item: ", item)

(5)引擎模块的封装
5.1 引擎组件功能：
对外提供整个的程序的入口
依次调用其他组件对外提供的接口，实现整个框架的运作(驱动)
5.2 实现方案：
利用init方法初始化其他组件对象，在内部使用
实现start方法，由外部调用，启动引擎
实现_start_engine方法，完成整个框架的运行逻辑
具体参考上一小节中雏形结构引擎的逻辑

# scrapy_plus/core/engine.py
'''引擎组件'''
from scrapy_plus.http.request import Request    # 导入Request对象

from .scheduler import Scheduler
from .downloader import Downloader
from .pipeline import Pipeline
from .spider import Spider


class Engine(object):
    '''
    a. 对外提供整个的程序的入口
    b. 依次调用其他组件对外提供的接口，实现整个框架的运作(驱动)
    '''

    def __init__(self):
        self.spider = Spider()    # 接收爬虫对象
        self.scheduler = Scheduler()    # 初始化调度器对象
        self.downloader = Downloader()    # 初始化下载器对象
        self.pipeline = Pipeline()    # 初始化管道对象

    def start(self):
        '''启动整个引擎'''
        self._start_engine()

    def _start_engine(self):
        '''依次调用其他组件对外提供的接口，实现整个框架的运作(驱动)'''
        # 1. 爬虫模块发出初始请求
        start_request = self.spider.start_requests()
        # 2. 把初始请求添加给调度器
        self.scheduler.add_request(start_request)
        # 3. 从调度器获取请求对象，交给下载器发起请求，获取一个响应对象
        request = self.scheduler.get_request()
        # 4. 利用下载器发起请求
        response = self.downloader.get_response(request)
        # 5. 利用爬虫的解析响应的方法，处理响应，得到结果
        result = self.spider.parse(response)
        # 6. 判断结果对象
        # 6.1 如果是请求对象，那么就再交给调度器
        if isinstance(result, Request):
            self.scheduler.add_request(result)
        # 6.2 否则，就交给管道处理
        else:
            self.pipeline.process_item(result)

#五、框架安装 ##1 安装框架的目的
利用setup.py将框架安装到python环境中，在编写爬虫时候，作为第三方模块来调用
##2 框架安装第一步：完成setup.py的编写
以下代码相当于一个模板，只用更改name字段出，改为对应的需要安装的模块名称就可以，比如这里是：scrapy_plus
将setup.py文件放到scrapy_plus的同级目录下

from os.path import dirname, join
# from pip.req import parse_requirements

from setuptools import (
    find_packages,
    setup,
)

def parse_requirements(filename):
    """ load requirements from a pip requirements file """
    lineiter = (line.strip() for line in open(filename))
    return [line for line in lineiter if line and not line.startswith("#")]

with open(join(dirname(__file__), './VERSION.txt'), 'rb') as f:
    version = f.read().decode('ascii').strip()

setup(
    name='scrapy-plus',  # 模块名称
    version=version,
    description='A mini spider framework, like Scrapy',  # 描述
    packages=find_packages(exclude=[]),
    author='itcast',
    author_email='your@email.com',
    license='Apache License v2',
    package_data={'': ['*.*']},
    url='#',
    install_requires=parse_requirements("requirements.txt"),  # 所需的运行环境
    zip_safe=False,
    classifiers=[
        'Programming Language :: Python',
        'Operating System :: Microsoft :: Windows',
        'Operating System :: Unix',
        'Programming Language :: Python :: 2.7',
        'Programming Language :: Python :: 3.4',
        'Programming Language :: Python :: 3.5',
        'Programming Language :: Python :: 3.6',
    ],
)

注意：上面代码中可能会报错需要额外安装packaging模块，更新setuptools

pip install packaging
pip install --upgrade setuptools

pip.req可能不存在，对应的可以：

def parse_requirements(filename):
    """ load requirements from a pip requirements file """
    lineiter = (line.strip() for line in open(filename))
    return [line for line in lineiter if line and not line.startswith("#")]

##3、框架安装第二步：完成requirements.txt的编写
功能：
写明依赖环境所支持的模块及其版本
使用：
在setup.py中使用
放置在setup.py同级目录下

requests>=2.18.4
six>=1.11.0

##4 框架安装第三步：完成VERSION.txt的编写
功能：
标明当前版本，一个合格的模块，应当具备相应的版本号
使用：
在setup.py中使用
放置在setup.py同级目录下

1.0

##5 框架安装第四步：执行安装命令
步骤：
切换到setup.py所在目录
切换到对应需要python虚拟环境下
在终端执行python setup.py install
显示结果：

Adding chardet 3.0.4 to easy-install.pth file
Installing chardetect-script.py script to C:\Users\Star Platinum\AppData\Local\Programs\Python\Python35\Scripts
Installing chardetect.exe script to C:\Users\Star Platinum\AppData\Local\Programs\Python\Python35\Scripts

Using c:\users\star platinum\appdata\local\programs\python\python35\lib\site-packages
Finished processing dependencies for scrapy-plus==1.0

#六、框架运行 ##1 编写main.py 在其他路径下创建一个项目文件夹 project_dir

# project_dir/main.py

from scrapy_plus.core.engine import Engine    # 导入引擎

if __name__ == '__main__':
    engine = Engine()    # 创建引擎对象
    engine.start()    # 启动引擎

运行结果：管道中打印的item对象
报错：

File "C:\Users\Star Platinum\AppData\Local\Programs\Python\Python35\lib\site-packages\urllib3\packages\six.py", line 82, in _import_module
    __import__(name)
ImportError: No module named 'http.client'

这里的问题是window下导入包的时候路径优先找本项目下的http包，所以没有找到client，解决方法是：
修改http文件夹的名字，改为htttp（自定义），同时路径也跟着修改

再不行就看看这些库是否下载，版本不对也无所谓，不要低就好
requests2.11.1
gcloud0.17.0
oauth2client3.0.0
requests-toolbelt0.7.0
python-jwt2.0.1
pycrypto2.6.1
运行成功之后显示结果：

item对象:<scrapy_plus.item.Item object at 0x10759eef0>

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：axios根据输入的字查询 access根据输入的内容查询

下一篇：Java k线rsi计算 rsi kdj

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

深度学习入门2 自制框架 斋藤康毅 如何自制框架

深度学习入门2 自制框架 斋藤康毅 如何自制框架

51CTO博客

深度学习入门2 自制框架斋藤康毅如何自制框架

深度学习入门2 自制框架斋藤康毅如何自制框架