一次网络请求的流程

精选原创

梁云亮 2023-02-01 21:39:37 博主文章分类：SpringBoot ©著作权

文章标签 服务器负载均衡 DNS 文章分类 Java 后端开发 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者梁云亮的原创作品，请联系作者获取转载授权，否则将追究法律责任

概述

笼统来说，一次网络请求会经过以下几个节点

DNS查找阶段

用户在浏览器请求某个链接，如event.mi.com，浏览器需要查找该域名对应的ip地址

先查找自己机器的DNS客户端上是否有记录，如果没有记录
从本地DNS服务器获取，如果本地DNS服务器没有记录
从根域名服务器查找（根域名服务器全球共13台），根域名返回com域名服务器所在地址
本地DNS服务器从com域名服务器查找，com域名服务器返回event.mi.com的权威域名服务器地址权威域名DNS服务器：包含了该域名的所有信息
找到权威域名服务器后，会查到该域名有个CNAME，这个CNAME一般指向CDN的全局负载均衡系统DNS的A记录。A记录格式为“域名-ip”，记录的是该域名对应的服务器ip地址DNS的CNAME CNAME为域名的别名，一般有两种作用

多个域名指向同一个服务ip，当服务ip变动时，只需要改一个A记录即可。例如，域名www.abc.com的A记录为1.1.1.1，对于域名mail.abc.com和study.abc.com的别名可以设置为www.abc.com，这样当该服务变更ip地址时，只需要变更www.abc.com的A记录，其他域名无需变动，减少维护成本
CNAME在CDN上的作用也很重要。将域名挂在在CDN上，需要将该域名的CNAME设置为CDN供应商提供的域名，这样CDN供应商才能通过DNS将流量转移到CDN上。而且域名的CNAME设置为CDN的域名后，该域名的A记录也不能存在了。一般通过nslookup和dig命令，可以查看DNS解析的情况，如下图所示，可以看到域名event.mi.com的CNAME为白山云的一个域名。另外可以看到白山云的域名还有对应的CNAME，这个主要是为了做负载均衡，后面会进行讲解。
本模块讲述的DNS解析是使用迭代查找，DNS还提供递归查找的方法，大家如果有兴趣，可以看一下两者的差异

CDN阶段

通过上面讲述的DNS解析过程，CDN运营商成功将请求转移到他们那里

CDN的全局负载均衡系统实现方式很多，这里讲述使用的比较普遍的方案，基于DNS的全局负载均衡系统。

首先该系统是DNS，可以解析域名
其次，该系统有负载均衡的功能。CDN的负载均衡策略一般有两种，静态负载均衡（根据用户地理位置、使用的网络运营商等选择不同的服务器）和动态负载均衡（根据服务器的流量、性能、负载等动态数据选择服务器）。因为动态负载均衡比较耗费资源，所以全局负载均衡系统一般使用静态负载均衡策略，区域负载均衡系统一般使用动态负载均衡策略。
最终，该全局负载均衡系统，基于静态负载均衡策略，选择合适的区域负载均衡系统IP给请求方。
PS：一般全局负载均衡系统会有一个后备系统，后备系统的配置和目前使用的系统一模一样。当CDN发觉被DDos攻击的时候，该后备系统会被启动，后备系统的ip会被加入到DNS中，而且该ip设置的缓存时间会较长，通过这种方案来减少DDos的攻击。
PS：负载均衡有四级负载均衡和七级负载均衡，所谓四级和七级，对应的是OSI的七层，四层只能根据IP等做负载均衡，七层能获取请求的信息，如cookie等做负载均衡，我们常用的nginx能做四级负载均衡和七层负载均衡。

客户端请求CDN区域负载均衡系统，该系统会确定提供服务的CDN缓存服务器。区域负载均衡系统一般使用动态策略，为此需要有单独的服务器来收集区域内CDN缓存服务器的各种信息（如会话能力、往返时间、流量、缓存所在位置等）

这里简单介绍一下基于缓存所在位置选择CDN缓存服务器的方式。这种方式实现原理很简单，请求的url经过某种算法，匹配到一台CDN缓存服务器，今后再次请求该url的时候，仍然会命中该缓存服务器。这种方式的好处是节省了空间，一个请求只存储在一台服务器上，没有冗余。坏处是如果是热点url，服务器压力会过大，另外如果该服务器有问题，所有的请求都有回源的可能。

如果区域负载均衡系统提供的CDN缓存服务器没有缓存或者缓存失效，则会向上一级CDN缓存服务器进行请求，一般使用的协议有ICP/HTCP/CARP等。当然，判断缓存失效使用的是Web基础知识，Pragma、 Expires、Cache-Control、Last-Modified、Etag等
如果上层的CDN缓存服务器仍然没有缓存或者过期，则会到回源机上请求该文件，请求成功后进行缓存

DNS

DNS (Domain Name System) 域名系统，功能：将 host(域名) 解析为 IP 地址。

当我们在浏览器中输入一个域名时，首先需要将域名转换为ip地址，再将ip地址转换为mac地址，这样才能在网络上找到该服务器。

将域名转换为ip的的过程：当我们向dns服务器发起解析域名的请求时，dns服务器首先会查询自己的缓存中有没有该域名，如果缓存中存在该域名，则可以直接返回ip地址。如果缓存中没有，服务器则会以递归的方式层层访问。例如，我们要访问www.baidu.com，首先我们会先向全球13个根服务器发起请求，询问com域名的地址，然后再向负责com域名的名称服务器发送请求，找到baidu.com，这样层层递归，最终就能找到我们需要的ip地址了。

CDN

CDN (Content Delivery Network) 内容分发网络，功能：基于地理位置的分布式代理服务器/数据中心。

cdn中缓存了服务器上的部分资源。服务器更新cdn节点上的缓存有两种方式：一种是服务器主动去更新缓存，cdn节点被动接受。另一种方式是当用户请求的资源不存在时，cdn服务器向上游服务器发起请求，更新缓存，然后将数据返回给用户，这种方式是cdn服务器主动，源站服务器被动。显然第一种方式存在很多问题，例如很容易产生404等，所以一般采用第二种缓存方式。

CDN主要是在用户访问资源的时候，让用户能从离距离近的CDN节点进行获取，不必到真正提供服务的机器上获取。

cdn的是让用户能够更快速的得到请求的数据。简单来讲，cdn就是用来加速的，它能让用户就近访问数据，这样就能更快的获取到需要的数据。例如：现在服务器在北京，深圳的用户想要获取服务器上的数据就需要跨越一个很远的距离，这显然就比北京的用户访问北京的服务器速度要慢。但是现在我们在深圳建立一个cdn服务器，上面缓存一些数据，深圳用户访问时先访问这个cdn服务器，如果服务器上有用户请求的数据就可以直接返回，这样速度就大大的提升了。

CDN加速原理：

缓存 (CDN缓存可以加快访问速度，也可以减少服务器的压力)
多个节点
多线路网络支持(可以跨网访问，如跨电信、联通和移动)

DNS与CDN的关系

cdn实际上是就近访问，那么我们怎么知道用户的所在位置从而给他分配最佳的cdn节点呢？这就需要dns服务来进行定位了。当我们使用dns服务的时候，可以根据他使用的LDNS服务器来进行定位，例如，我们的调度服务器看到他是来自深圳电信的LDNS服务器，那么我们就认为该用户来自深圳电信，然后调度服务器可以让该用户去访问深圳电信的CDN服务器，这样用户就可以访问到最优的cdn节点了。

http高度

通过dns服务我们可以很快的定位到用户的位置，然后给用户分配最佳cdn节点，但是这种调度方式存在一个问题，例如，当我是北京联通的用户但是使用的却是深圳电信的ldns的话，调度服务器会给我分配到深圳电信的cdn服务器，这样就产生了错误的调度。针对该问题，产生了另一种调度方式——http调度。

当用户访问服务器时，服务器先分析用户的ip地址，然后服务器给用户返回一个302重定向，将离用户最近的服务器存在location中，用户再去请求这个cdn服务器就能得到最佳的cdn节点。

这种调度方式的优点是定位更加准确，不会因为错误的ldns造成访问偏差。但是，它的缺点是需要一次额外的http访问，这样首次访问的延时就会比较高。所以如果是对大文件的请求，显然采用http的调度方式比较合适，因为大文件的请求需要更多的时间，相比之下可以忽略这次http请求的时间，但是如果是一些小文件的请求，花费这个时间有时就有些得不偿失了。

当然我们也可以将这两种方式结合起来使用，先通过dns的方式来定位，然后通过http的方式来纠正偏差。