Varnish 分析

转载

voipmaker 2022-12-16 22:50:08 博主文章分类：Varnish

文章标签 struct 工作 cache session signal 文章分类 Spark 大数据

通过学习varnish的代码，进行了总结，也组织了培训，

现在将相关的内容传到这里，与大家进行交流。

varnish的很多优秀的思想值得深究和讨论啊

全文参考 http://ncache.googlecode.com/files/varnish.pdf

Varnish介绍

1 Varnish is HTTP accelerator.

2 Varnish stores data in virtual memory and leaves the task of deciding what is stored in memory and what gets paged out to disk to the operating system

3 The Varnish web site claims that Varnish is ten to twenty times faster than the popular Squid cache on the same hardware.

4 Varnish is heavily threaded

varnish 总体架构

2.1总体流程

主进程fork 子进程，主进程等待子进程的信号，子进程退出后，主进程重新启动子进程

子进程生成若干线程。

Accept 线程：接受请求，将请求挂在overflow对列上

Work 线程：多个，从对列上摘除请求，对请求进行处理，直到完成，然后处理下一个请求

Epoll线程：一个请求处理称作一个sesion，在sesion周期内，处理完请求后，会交给Epoll处理，监听是否还有事件发生。

Expire线程：对于缓存的对象，根据过期时间，组织成二叉堆，该线程周期检查该堆的根，处理过期的文件。

线程之间的关系：

2.1.1 accept线程

监听端口，接受连接。

接受后

组织成struct ses（session结构），看是否有空闲的工作线程，如果有，将请求给它，pthread_cond_signal信号通知它

没有空闲线程，如果overflow过大，则放弃该请求。

否则，将其挂在overflow上（需要更多工作线程，发通知）。

继续监听

2.1.2 work线程

从overflow队列上摘取请求（struct ses），进入状态机处理，处理结束后，通过pipe通信，将struct ses发送给epoll线程。

2.1.3 Epoll线程,得到传过来的struct ses，若还没有过期，将socket放入epoll的事件中，事件发生时，也会将其放入到overflow中进行。

关于Expire thread，比较独立，下面专门介绍。

2.2 work线程的处理过程

2.2.1请求的处理过程称为session，主要是由work线程处理的。

请求的是通过进入状态转换机进行分步处理,通过Varnish Configuration Language（VCL）进行定制。

request 进入状态机后的状态变化

对于每种状态，都可以通过VCL进行配置，丰富功能。

Work线程处理请求的过程是根据VCL的配置而定制的状态机，典型的处理流程如下

1. Receive,请求处理的入口状态（之前还有first等状态），根据VCL判断该请求是Pass（跳过）还是进行Lookup(本地查询)

2. Lookup，在hash表中查找数据，若找到则进入hit状态，否则进入fetch状态。

3. Pass, 选择后台，进入fetch状态

4. Fetch，对请求进行后端的获取，发送请求，获得数据，并进行本地的存储

5. Deliver，，将数据发送给客户端，然后进入done

6. Done，处理结束事宜，对于一些请求需要做重新处理则可能重新进行状态转换或交给 epoll

2.2.2 Work线程总体工作如下：

接受到请求，按状态机处理，请求结束后，关闭连接或交给Epoll

重新取请求，若没有请求，挂入空闲队列，等待信号唤醒（pthread_cond）

唤醒它有两个途径，除了前面说的accept线程外，还有就是herdtimer线程

如果是accept唤醒的，则继续按照状态机的方式处理请求，如果是herdtimer唤醒的，则自杀

2.3 工作线程的管理

2.3.1 Herd线程

–根据配置生成指定数目的线程（min）

–动态检查线程数目，生成需要的线程

2.3.2 Herdtimer线程

定期检查空闲的线程，对于空闲超过指定时间的线程，通知它可以自杀

工作线程管理的目的是根据请求的数量动态的调整工作线程的数目

2.4 expire线程

对缓存的数据采用二叉堆的方式进行组织，线程检测堆的root，判断是否过期，对过期的数据进行删除或重取，由VCL设置。

对于过期的数据，如果需要重新取，则会调用状态机中的fetch去后台获取，然后更新

Cache 详解

3.1 Hash方式

3.1.1简单hash方式

–单一链表，按key大小排序，通过memcmp比较查找和添加

–缺点：查询效率低

3.1.2 Hash classic

–第一层hash backet（较大的素数）包含锁

–采用CRC32方法，key可配，一般是url + host

–通过链表解决冲突

–优点：查询较快

–值得参考的地方：采用查找和添加分两遍进行

3.2 Storage方式

3.2.1 Malloc

–通过malloc获取内存

–通过free释放

–

–特点：简单

–有什么不好呢？

3.2.2 Mmap file

创建大文件，通过二分法分段映射成1G以内的大块

数据的初始化

A 初始化时，将大文件分段进行mmap，每段大小在1G以内，映射好的段分配到free block数组链表中，数组下标便是页的倍数向下取整，如果块大于数组倒数第二个元素与页的乘积，则将该块连接到数组的最后一个元素的链表中。

B 分配，遍历数组，找到满足要求的空闲块，若是前B-2个没有，则从最后一个中满足要求的大块中切出一块。如果找出的块大于需要的容量，则就对其进行拆分，然后将剩下的插入到空闲块中。

C 回收，对于释放的块，看能否和相邻的块进行合并，如果可以，则合并后再重新插入到合适位置。

3.3数据输出

Object结构表示一个请求对象（文件），通过其store链表指出数据块信息

3.3.1采用writev

–将store链表上的数据组成iov，通过writev输出

3.3.2采用sendfile

–通过循环使用sendfile，将store链表中的数据输出

VCL配置

通过vcl脚本对程序进行定制，主要是对请求的定制处理，如过滤某些请求等，脚本配置生成的函数是嵌套在状态机中的。

默认的配置如下

http://varnish.projects.linpro.no/browser/trunk/varnish-cache/bin/varnishd/default.vcl

purge删除配置如下

http://varnish.projects.linpro.no/wiki/VCLExamplePurging

分析与总结

varnish比较轻便，总共的代码量不大，功能上有待丰富和加强。

1. •利用虚拟内存方式，io性能好

2. •状态机设计巧妙，结构清晰

3. •利用二叉堆管理缓存文件，达到积极删除目的

4. •VCL比较灵活

5. •强大的管理功能，top，stat，admin，list等

6. •是内存缓存，重启数据消失

7. •32位机器上文件大小为2G

讨论

1. 二叉堆方式的插入和删除对于缓存文件较多时，性能是不是影响较大

2. 这么多的线程，分工清晰，如epoll，expire，herd，herdtimer等对性能的影响？

3. Hash中的key保存完整的url和host，信息量是不是太大？优点是：信息全，可重新组成请求用于过期的重取

参考

1 http://varnish.projects.linpro.no/

2 http://en.wikipedia.org/wiki/Varnish_cache

3http://en.wikipedia.org/wiki/Virtual_memory

4http://en.wikipedia.org/wiki/Squid_cache

上一篇：数据结构之插入排序

下一篇：c c++函数指针 Tutorials

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Varnish 分析

Varnish 分析

Varnish介绍

varnish 总体架构

2.1总体流程

2.3 工作线程的管理

2.4 expire线程

Cache 详解

3.1 Hash方式

3.2 Storage方式

3.3数据输出

VCL配置

分析与总结

讨论

参考

51CTO博客