(1)Kubernetes各个组件 Kubernetes是一个集群,集群的角色不是对等的,有主节点master和工作节点node之分,而主节点之上有三个组件运行守护进程,分别是API Server,Scheduler,Controller-Manager。而在node之上,有kubelet主要是和API Server进行交互的核心组件,而docker作为容器引擎来运行Pod中的容器而创建的。为了能够统一管理同一个集群中大量的资源,所以我们需要给元数据添加一个Label,它是一个key、value类型的数据,定义完Label标签后我们就可以使用Lable Selector标签选择器来根据条件挑选出符合的Pod资源。 Pod本身是需要由控制器来管理,而不是由人手工来管理的,事实上在K8S上Pod有两类,(1)第一种是自主式Pod,是指自我管理的,由API Server接收以后借助于调度器将其调度至指定的node节点,由node启动此Pod,如果Pod中的容器出现了故障需要重启容器,那是由kubelet来完成,但是节点故障了,这个Pod也就消失了,无法实现全局调度;(2)所以我们建议使用第二种即控制器管理的Pod,这样会使Pod成为有生命周期的对象,由调度器将其调度至集群中的某节点运行以后,任务一终止它也就停了,但是有一些任务,比如nginx或者tomcat这一类服务如果运行为容器的话它是需要随时处于运行状态,一旦出现故障需要立刻反应到或进行重启或进行重建,这样就需要K8S平台提供的Pod控制器。 对于控制器管理的Pod来说,Pod有很多种,最早的一种名为ReplicationController即副本控制器,当我们启动一个控制器后,ReplicationController可以控制同一类Pod对象的各种副本,一旦副本的数量少了就会加一个补够,ReplicationController还能够实现其它任务滚动更新,例如更新当前管理的2个Pod控制器,它先创建一个新版本的Pod,并允许在更新过程中临时超出2个Pod的限制,此时会有3个Pod同时运行,更新完第3个Pod后,此时再删除第1个Pod,这样就实现了保证最终是控制器要求的2个Pod的目标,这就是滚动更新概念,而且它也支持滚动更新的逆转即回滚操作。早期的时候只有ReplicationController一种版本的控制器,到了K8S的新版本后,又有了新的控制器ReplicaSet,但是这个控制器不直接使用,它有一个声明式更新的控制器Deployment来做管理,但是Deployment只能管理无状态的应用,如果是有状态的应用需要使用StatefulSet有状态副本集,如果需要在每一个node上运行一个副本而不是随影运行还需要一个DaemonSet,如果已经作业则需要Job,周期性的任务计划作业Cronjob,这些控制器的类型是分别用于确保不同类型的Pod资源,来用符合用户所期望的方式进行运行。另外Deployment控制器还支持二级控制器HPA(HorizontalPodAutoscaler)水平Pod自动伸缩控制器。 Pod是有生命周期的,随时都会有Pod离去,随时都会有新的Pod加进来,假如他们提供的是同一种服务,我们客户端是没办法通过固定的手段来访问这些Pod的,因为这些Pod随时都会被替换掉,所以这里就需要用到服务发现机制了。K8S为每一组提供同类服务的Pod和它的客户端之间添加了一个中间层,这个中间层是固定的,这个中间层就叫service,service只要不删除,它的地址就是固定的,这个服务是一个调度器,能提供一个稳定的访问入口,一旦一个Pod宕机了,没有关系新建一个Pod,这个Pod会和service关联起来,作为service后端可用Pod之一,在Pod上有一个固定的元数据Label,只要创建了Pod,它的Label是统一的,都能被service识别,所以客户端的请求到达service,由service代理至后端Pod来实现,所以客户端始终看到的可用服务是service的地址,而这个service组件实际上是一个iptables的DNAT规则,装完K8S后还需要安装部署一个DNS的Pod以确保各service名称能够被解析,所以我们把它称为系统架构级的Pod,它们被称为集群的AddOns附加组件。 iptables已经把负载均衡的功能交给IPVS实现了,因此service背后的Pod使用DNAT来实现在调度效果上可能不太尽如人意,因此在1.11版当中已经把iptables规则进一步改成了IPVS规则,当你创建了一个service规则也就生成了一条IPVS规则,只不过是NAT模型的IPVS,因此支持用户自己指定的调度算法。 我们把所有应用程序运行在K8S之上,假设我们以NMT的形式来运行,其中N是T的客户端,但是T不止一个Pod,这些Pod如果需要被N访问,可以在T前加一个Service,把所有请求调度代理至内部的T,所以T不需要开放至互联网访问,同样每一个T需要访问M,所以M也应该提供一个固定的访问入口,因此在M前也需要添加一个Service,这个Service是为M提供固定访问入口的,各个T上的应用程序访问的是M的Service, 由这个Service调度至后端的M上来。对于N来说,它的客户端主要来自集群外部,只有一小部分来自集群内部,所以也需要为N添加Service,Service的地址是一个仅存在于iptables或IPVS规则中的地址,怎么能够被客户端真正访问?为了能够组织出来一个K8S的集群,我们需要物理节点,所以用户的请求先到达物理服务器的地址,由物理服务器再转发代理至Service,所有外部客户端先去访问节点,因为只有节点才是边界,如果边界也是私网地址,那么可以在外部创建一个外置的调度器,这个调度器可以调度至边界的任何一个节点上的,这个节点的端口只能有一个端口来转发至服务的端口,由服务再转发至Nginx的端口,从外置调度器至Nginx如此形成了三次调度。 我们发现外置的服务器已经脱离了K8S的控制了,它不能被K8S的命令来进行创建了,不能通过命令创建也就无法做到LBaaS(负载均衡即服务)架构。因此我们把K8S运行在阿里云或者亚马逊云的云计算环境虚拟机之上,多个虚拟机组成一个K8S集群,我们知道云计算环境是支持LBaaS的,所以K8S是可以对外调用底层的云计算环境,这样云计算环境给我们的环境创建一个软件的外置调度器,从而完成将请求接入进来。 而NTM这些服务中,例如Tomcat服务对应的这一组Pod不是由用户手动创建的,而是由控制器创建的,Nginx由Nginx控制器创建,MySQL由MySQL控制器创建,一个控制器通常只管理一部分组件,控制器则是根据标签来识别自己的Pod够不够。 每一个Service要想基于名称被客户端访问和发现需要靠DNS服务,DNS服务自身也是一个Pod,这个DNS服务也需要有Service,同时还需要有控制器来通过标签控制创建访问。这就是我们的K8S集群的集群组成核心组件。 在K8S中,要求的网络模型有3种,第一是每一个Pod运行在同一个网络中,第二是Service是另外一个网络,它是一个虚拟的地址,第三是各节点的网段也是一个单独的网络。所以接入外部访问时首先到达节点网络,由节点网络代理至Service集群网络,再由Service集群网络代理至Pod的网络。 在K8S上还存在着三类通信,(1)因为一个Pod内会有多个容器,同一个Pod内的多个容器间使用lo回环地址通信,(2)各Pod之间的通信,使用Overlay Network叠加网络,通过隧道的方式来转发二层报文,虽然跨主机但好像工作在同一个二层网络中一样,我们可以转发对方的二层报文或隧道转发对方的三层报文从而实现叠加网络,(3)我们客户端和服务端的Pod之间访问时,因为考虑到Pod是有生命周期的,所以中间是通过Service,即Pod与Service之间的通信,但是Pod与Service不在同一个网络无法直接通信,Service地址只不过是主机上的iptables规则中的地址,所以只需要有网关指向容器,每一个docker宿主机上都得有iptables或者IPVS规则,但是Service怎么能改变所有节点上的相关地址和规则呢?这就需要一个专门的组件来实现,这个组件是运行在node之上的守护进程,它被称为kube-proxy,它负责随时与API Server进行通信,因为每一个Pod发生变化的时候,这个结果是会保存在API Server中的,而API Server通信内容发生改变后会生成一个通知事件,事件可以被任何关联的组件接收到例如kube-proxy,一旦发现某一Service背后的Pod发生了改变,那么对应的由kube-proxy负责在本地把那个地址反映到iptables或者IPVS规则中,所以Service的管理是靠kube-proxy来实现的。 这么一来我们发现API Server会存整个集群中各个相关状态的信息,所以各个master之间需要一个共享存储,这个存储我们称为K8S的DB,这个DB叫做etcd,而etcd是一个键值存储的数据库系统,因为整个集群的数据都在etcd上,所以etcd需要做高可用。etcd通信一个端口用来实现集群内部通信。另一个端口用来实现向客户端提供服务,也就意味着内部通信需要一个点对点通信的证书来配置https,而后向客户端提供服务的时候http要想加密靠另外一套证书来实现,同样K8S的API Server也是需要将https加密进行通信,这个是K8S的客户端和副本之间的通信,而且最好与etcd不要使用同一个CA来签署的。 所以etcd内部通信需要一套CA来签署证书,etcd为了向客户端API Server提供服务需要一套CA来签署证书,而API Server为了想客户端提供服务需要另外一套CA来签署证书,而API Server与各node节点上的kubelet集群代理进行通信也需要一套CA来签署证书,而API Server与各node节点上的kube-proxy进行通信也需要一套CA来签署证书。所以想要手动部署K8S足够安全总共需要5套CA认证。 (2)Kubernetes的网络 整个API Server主要是由三类节点组成,第一类是API master,同时需要至少3个节点多高可用,第二类是etcd用来存储集群状态数据,同样也需要至少3个节点多高可用,最后第三类是node节点。它们彼此之间都是http或https进行通信,而后我们就可以在node之上运行Pod了,而Pod与Pod之间要通信,Pod内部的容器之间要通信,Pod与Service要通信,Pod与集群外的客户端要通信,所以我们要构建出多个网络来。节点有节点的网络,Service有Service的集群网络,Pod有Pod的网络。K8S通过CNI插件体系来接入外部的网络服务解决方案,CNI即为容器网络接口,只要是一个网络服务提供商,能遵循CNI这个开发规范,那么它就能作为K8S的网络解决方案来使用,这些网络解决方案可以以附加组件的方式托管运行在集群之上,网络解决方案可以以Pod运行,然后为其他Pod提供网络解决方案,这个Pod通常是一个特殊Pod。虽然托管运行在集群之上但它们需要共享节点的网络名称空间,这样从而可以实现以容器的方式来运行,实行系统管理之事。 目前能作为CNI插件的非常多,而常见的插件是flannel。其实我们的网络一般需要两类功能,第一个就是提供网络功能,给Pod、Service提供IP地址,第二个则是提供网络策略,其实Pod和Pod之间是可以直接通信的,但是我们一般会通过Service来代理进行通信,因为Nginx的Pod和Tomcat的Pod之间在进行通信的时候,T随时会发生变动,一旦发生变动后则N就无法和T再进行通信了,所以使用Service来代理进行通信是为了解决Pod有生命周期的问题。如果我在一个K8S之上托管了2万个Pod,这2万个Pod都可以直接通信,但是如果这些Pod不属于同一家公司,那么别人可以任意访问你的服务甚至劫持你的服务都有可能,所以在多租户的场景中这是非常危险的情况,所以需要用到网络策略中的隔离功能,网络策略需要施加一些条件来隔离不同的Pod让彼此间不能互相访问。 K8S中另外一个重要的组件就是名称空间,整个K8S作为一个统一的集群存在,里面运行2万个Pod程序,此时可以把它切割成多个空间,一类Pod只运行在一个空间中,但是这个空间并不是真正意义上的网络边界,只是管理上的边界,例如第一个是开发环境的空间,第二个是生产环境的空间,将来我们要删除一个环境可以使用网络名称空间直接进行移除,所以它为我们提供了一个管理的边界。但是Pod之间是没有边界的,所以网络策略允许我们去定义名称空间和名称空间之间甚至是同一个名称空间的Pod之间是否可以互相访问,通过生成iptables规则来隔离它们彼此间的互相访问,这就是网络策略。对于K8S来说网络策略和网络功能是两个不同维度的东西,flannel只能实现其中的网络配置,而第二种CNI则是calico,它同时支持网络配置和网络策略,但是calico的使用和实现起来比较难,而且calico能基于BGP协议来实现直接路由的通信,而flannel是纯粹的叠加网络实现,calico是一个三层隧道网络,也可以直接使用为BGP协议的路由直通模型。flannel和calico是目前最流行的两种网络解决方案,如果我们想同时实现简单的网络配置并且有网络策略的话就需要使用第三方的项目插件canel,它既可以实现简单的网络配置的功能,也可以实现网络策略的需求,它是flannell和calico结合在一起生成的新的项目。 整个K8S有三个网络,第一是节点网路,各节点进行通信,第二Pod网络,节点之上有Pod,Pod之间通过叠加也罢,直接路由也罢,能够直接进行通信,第三个是Service集群网络,由kube-proxy负责管控和生成,让Pod和Pod之间可以通信是借助一个中间层来实现,本来Pod和Pod之间是在同一个网段的,但后来我们不得不借助于Service,而Service和Pod又不在同一个网段,降低了效率,但是对管理来说却是有必要的。

—————— 本文至此结束,感谢阅读 ——————