浏览器工作过程

转载

mob604756f4ef89 2020-04-01 07:19:00

图片来源：《图解HTTP》
浏览器工作过程_服务器
总结一下分为以下几个过程：
DNS解析
TCP连接
发送HTTP请求
服务器处理请求并返回HTTP报文
浏览器解析渲染页面
连接结束

下面针对每个过程进行简述：
DNS解析：
当我们输入一个网址实际上是要将其翻译成服务器IP地址的，而这种翻译就是需要DNS解析，解析过程为：首先在本地域名服务器上查找此IP地址，如果没有找到的话本地域名服务器会向根域名服务器发送一个请求，如果根域名服务器也不存在，那么本地域名服务器会再向com顶级域名服务器发送请求。直到最后本地域名服务器得到此网址的IP地址，并将其缓存到本地，攻下一次使用。总结一下，所有网址真正的解析过程为: . -> .com -> google.com. -> www.google.com.。注意到了最前面的（.）,这个就是本地的域名服务器。因此本地域名服务器是从顶级域名服务器开始查找，然后逐级具体化直到www.google.com.
在DNS请求的过程中同时存在TCP和UDP请求，为什么？
首先我们要知道 DNS规范规定了两种服务器：主DNS服务器和辅助DNS服务器。如果我们直接向主DNS请求主DNS服务器会从本机的数据中查找数据。而如果我们是向辅助DNS请求，而辅助服务器此时会从主DNS中请求读取数据这叫做区传送（zone transfer），因为区域传送是DNS内部事务对准确性要求较高（TCP优于UDP），而且会产生大于512字节的数据包（UDP报文最大512字节）因此使用TCP协议。
而当DNS服务器（不管是主还是辅助DNS服务器）与客户端联系的时候，一般返回的字节不超过512字节（因为就是IP地址及其他的东西），因此为了使DNS服务器负载更低相应更快，所以我们会使用UDP。但是TCP当然也是可以用的。
现在我们知道了DNS请求原理，那么如何做优化？
第一种是DNS缓存。DNS存在多级缓存，从离浏览器的距离排序可以有以下几种：浏览器缓存，系统缓存，路由器缓存，IPS(intrusion prevention system)服务器缓存，根域名服务器缓存，顶级域名服务器缓存，主域名服务器缓存。
第二种是DNS负载均衡 load balancing:由于现代大公司需要成千上万台服务器来满足人们的需求因此每次用户键入同一个网址 DNS返回的IP地址不同。但是在用户眼中它只需要其请求被处理就可以，至于最终是哪台服务器响应了他的请求并不重要。因此DNS会从服务器池中返回一个合适的机器IP返回给用户（如何选择？选择负载量底的，或者用round robin法，或者hash一下，或者选择离用户地理位置近的）。这个过程叫DNS负载均衡或者叫重定向。之前了解的CDN（content dilivery network）就是利用这种技术。

TCP连接

HTTP协议利用TCP作为其传输层协议，因此TCP出现瓶颈，HTTP也会受到影响，因此TCP优化也很重要。
而至于TCP利用三次握手进行连接有专门的文章在此不加赘述。
这里插一个：HTTP协议和HTTPS协议的区别：
我们知道 HTTP报文是包裹在TCP报文中进行发送的，服务器段收到TCP报文的时候会解包提取出HTTP报文，由于HTTP报文是明文因此有风险，所以在进入TCP报文之前对HTTP做一次加密就可以解决这个问题了。用什么做加密呢？SSL或TLS。因此可以说是讲HTTP变成HTTPS+SSL/TLS.
HTTPS过程：HTTPS在传输数据之前需要客户端与服务器进行一个握手(TLS/SSL握手)，在握手过程中将确立双方加密传输数据的密码信息。TLS/SSL使用了非对称加密，对称加密以及hash等。HTTPS相比于HTTP，虽然提供了安全保证，但是势必会带来一些时间上的损耗，如握手和加密等过程，是否使用HTTPS需要根据具体情况在安全和性能方面做出权衡。（refer:http://www.ruanyifeng.com/blog/2014/09/illustration-ssl.html）

HTTP请求
简单的讲：发送HTTP请求的过程就是构建HTTP请求报文并通过TCP协议中发送到服务器指定端口(HTTP协议80/8080, HTTPS协议443)。HTTP请求报文是由三部分组成: 请求行, 请求报头和请求正文。下面说一下这三部分的格式：

请求行：GET index.html HTTP/1.1 //Method Request-URL HTTP-Version CRLF，常用的方法有: GET, POST, PUT, DELETE, OPTIONS, HEAD。（经典问题：GET和POST有什么区别）
请求报头：包括客户端向服务器传递请求的附加信息和客户端自身的信息。常见的请求报头有: Accept, Accept-Charset, Accept-Encoding, Accept-Language, Content-Type, Authorization, Cookie, User-Agent等。
请求正文：当使用POST, PUT等方法时，通常需要客户端向服务器传递数据。这些数据就储存在请求正文中。例如: 现在的Web应用通常采用Rest架构，请求的数据格式一般为json。这时就需要设置Content-Type: application/json。

服务器处理请求并返回HTTP报文
web server会对TCP连接进行处理，对HTTP协议进行解析，并按照报文格式进一步封装成http request对象供上层使用（？什么上层）
HTTP响应报文也由三部分组成：状态码，响应报头和响应报文

状态码：此部分请见其他文章
响应报头：常见的响应报头字段有: Server, Connection…。
响应报文：服务器返回给浏览器的文本信息，通常HTML, CSS, JS, 图片等文件就放在这一部分。

浏览器解析渲染页面
浏览器工作过程_html_02
总的来说是边解析边渲染大致分为下面三步：

首先浏览器解析HTML文件构建DOM树，
然后解析CSS文件构建渲染树，
等到渲染树构建完成后，浏览器开始布局渲染树并将其绘制到屏幕上。
有一点重要的要说明：这个过程比较复杂，涉及到两个概念: reflow(回流)和repain(重绘)。DOM节点中的各个元素都是以盒模型的形式存在，这些都需要浏览器去计算其位置和大小等，这个过程称为relow;当盒模型的位置,大小以及其他属性，如颜色,字体,等确定下来之后，浏览器便开始绘制内容，这个过程称为repain。页面在首次加载时必然会经历reflow和repain。reflow和repain过程是非常消耗性能的，尤其是在移动设备上，它会破坏用户体验，有时会造成页面卡顿。所以我们应该尽可能少的减少reflow和repain。
那么，网页中的javasript如何解析呢？
JS的解析是由浏览器中的JS解析引擎完成的。
**Verbose Warning!!!**
JS是单线程运行，也就是说，在同一个时间内只能做一件事，所有的任务都需要排队，前一个任务结束，后一个任务才能开始。但是又存在某些任务比较耗时，如IO读写等，所以需要一种机制可以先执行排在后面的任务，这就是：同步任务(synchronous)和异步任务(asynchronous)。JS的执行机制就可以看做是一个主线程加上一个任务队列(task queue)。同步任务就是放在主线程上执行的任务，异步任务是放在任务队列中的任务。所有的同步任务在主线程上执行，形成一个执行栈;异步任务有了运行结果就会在任务队列中放置一个事件；脚本运行时先依次运行执行栈，然后会从任务队列里提取事件，运行任务队列中的任务，这个过程是不断重复的，所以又叫做事件循环(Event loop)。
浏览器在解析过程中，如果遇到请求外部资源时，如图像,iconfont,JS等。浏览器将重复1-6过程下载该资源。请求过程是异步的，并不会影响HTML文档进行加载，但是当文档加载过程中遇到JS文件，HTML文档会挂起渲染过程，不仅要等到文档中JS文件加载完毕还要等待解析执行完毕，才会继续HTML的渲染过程。原因是因为JS有可能修改DOM结构，这就意味着JS执行完成前，后续所有资源的下载是没有必要的，这就是JS阻塞后续资源下载的根本原因。CSS文件的加载不影响JS文件的加载，但是却影响JS文件的执行。JS代码执行前浏览器必须保证CSS文件已经下载并加载完毕。
**==================**

Web Optimization
宏观的想一下，我们为什么要了解一次客户端到服务器的完整的请求过程？无非是为了web优化，优化什么呢？无非是将信息快速并友好的展示给用户并能够与用户进行交互。
基于之前提过的原理优化方式可以从以下来着手：
如何尽快的加载资源？答案就是能不从网络中加载的资源就不从网络中加载，当我们合理使用缓存，将资源放在浏览器端，这是最快的方式。
如果资源必须从网络中加载呢？则要考虑缩短连接时间，即DNS优化部分;减少响应内容大小，即对内容进行压缩。另一方面，如果加载的资源数比较少的话，也可以快速的响应用户。
当资源到达浏览器之后什么会限制性能呢？，浏览器开始进行解析渲染，浏览器中最耗时的部分就是reflow，所以围绕这一部分就是考虑如何减少reflow的次数。