什么是分布式

  分布式系统是有一组通过网络进行通信、为了完成共同的任务而协调工作的计算及节点组成的系统。分布式系统的出现,是为了用廉价的、普通的计算机完成单个计算机无法完成的计算、存储任务,其目的是利用更多的机器,处理更多的数据

  分布式系统是建立在网络之上的软件系统。首先需要明确,只有当单个节点的处理能力无法满足日益增长的计算,存储任务的时候,且硬件的提升高昂得不偿失的时候,应用程序也不能进一步优化的时候,才会去考虑分布式系统。

  

  随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构是在必行,急需一个治理系统确保架构有条不紊的演进

lars 分布式机器学习 分布式理论基础_RPC


  

单一架构

  当网站流量很小,只需要一个应用,将所有功能都能部署在一起,以减少部署节点和成本。此时,用于简化增删查改工作量的数据访问框架是关键,适用于小型网站,小型管理系统,将所有的功能部署到一个服务里面,简单易用

缺点

1. 性能扩展比较难

2. 协同开发问题

3. 不利于维护升级

lars 分布式机器学习 分布式理论基础_分布式_02

  

垂直应用架构

  当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆分成互不相干的几个应用,以提升效率,此时,用于加速前端页面开发的web框架是关键。通过切分业务来实现各个模块独立部署,降低了维护和部署的难度,团队各司其职,更易管理,性能扩展也更加方便,更有针对性;但是公共模块无法重复利用,开发性浪费

lars 分布式机器学习 分布式理论基础_分布式_03

分布式服务架构

  当垂直应用越来越多,应用之间交互不可避免,将核心业务抽取出来,作为独立的服务,逐渐形成稳定的服务中心,使前端应用能更加快速的响应多变的市场需求。此时,用于提高业务复用和整合的分布式服务框架是关键

lars 分布式机器学习 分布式理论基础_服务器_04

流动计算架构

  当服务越来越多,容量的评估、小服务资源的浪费等问题逐渐显现,此时需增加一个调度中心基于访问压力时实时管理集群容量,提高集群的利用率,此时,用于提高机器利用率的资源调度和治理中心是关键

lars 分布式机器学习 分布式理论基础_服务器_05

RPC
什么是RPC

  RPC Remote Procedure Call ,是指远程过程调用,是一种进程间的通信方式,它是一种思想而不是规范。它允许程序调用另一个地址空间的过程或函数,而不用程序员显式编码这个远程调用的细节。即程序员无论是调用本地的还是远程的函数,本质编写的调用代码基本相同
  简单的说RPC,两台服务器A和B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。那为什么要用RPC呢?就是无法在一个进程内,甚至一个计算机内通过本地调用的方式完成的需求,比如在不同的系统间的通讯,甚至不同的组织间通讯,由于计算能力需要横向扩张,需要在多台机器组成的集群部署应用,RPC就是要像调用本地的函数一样去调用远程函数。

RPC原理

lars 分布式机器学习 分布式理论基础_RPC_06

Dubbo
什么是Dubbo

  Apache Dubbo 是一款高性能、轻量级的开源的Java RPC框架,它提供三大核心能力:面向接口的远程方法调用、智能容错和负载均衡、服务自动注册和发现

lars 分布式机器学习 分布式理论基础_分布式系统_07


服务提供者(Provide) :暴露服务的服务提供放,服务提供者在启动时,向注册中心注册自己提供的服务

服务消费者(Consumer):调用远程服务的服务消费方,服务消费者在启动时,向注册中心订阅自己需要的服务,服务消费者从提供者地址列表中,基于软负载均衡算法,选一台提供者进行调用,如果调用失败,再选另一台

注册中心(Registry):注册中心返回服务提供者地址列表给消费者,如有变更,注册中心将基于长连接推送变更数据给消费者

监控中心(Monitor):服务消费者和提供者,在内存中累计调用次数和调用时间,定时每分钟发送一次统计数据到监控中心