linux tracing和profiling概论

原创

mb611a2e88042f6 2021-08-16 23:21:43 博主文章分类：底层性能诊断 ©著作权

文章标签 数据 linux 用户态系统调用 html 文章分类 运维

©著作权归作者所有：来自51CTO博客作者mb611a2e88042f6的原创作品，请联系作者获取转载授权，否则将追究法律责任

在工作中经常用到各种跟踪调试工具， strace, ltrace, kprobes, tracepoints, uprobes, ftrace, perf, 和 eBPF。他们之间到底啥关系？本文从总体上进行概述，如果有错误欢迎指正。

1.1.1 系统跟踪

系统跟踪可以分为数据源、收集数据机制和跟踪前端(收集和分析数据的交互)。

数据源可以将其分为probes和tracepoints,对应的源有：

probes :kprobes/uprobes

tracepoints :USDT/kernel tracepoints / lttng-ust

probe可以在运行时候修改程序来使能跟踪。tracepoint是编译到程序里面的，当使用的时候可以使能或激活，使用tracepoint在没有激活的时候是不会有任何损耗的，另外激活状态下也是很小的开销。

1.1.1.1 kprobes

kprobes是linux内核的debug机制，也可以用来监视生产系统的事件。也可以用来寻找性能瓶颈，指定事件，跟踪问题。

可以使用Gregg 的

https://github.com/kernel-z/perf-tools/blob/master/kernel/kprobe

跟踪系统中文件被打印情况，可以使用如下：

./kprobe 'p:myopen do_sys_open filename=+0(%si):string'

可以打印系统中系统调用open。

kprobes适用场景，1.跟踪系统调用，其有对应的内核函数do_sys_open；2.在知道哪些内核函数被调用的情况下，定位网络协议栈或文件IO性能问题；3.内核开发者用于定位内核问题。

1.1.1.2 uprobes

uprobes和kprobes 类似，主要是检测用户态函数，例如malloc。

具体参考：

http://www.brendangregg.com/blog/2015-06-28/linux-ftrace-uprobe.html

1.1.1.3 USDT/dtrace probes

USDT 为user-mode statically defined traces，就是dtrace probe.

如果程序编译了dtrace probes，就可以使用工具例如eBPF/systemtap来消耗它。当然很多程序例如python默认并没有编译dtrace probes，如果编译进去了，那么可以使用来跟踪python函数调用。

1.1.1.4 tracepoints

tracepoints也是在内核中。相比kprobes，变动比较少。

1.1.1.5 lttng-ust

lttng-ust是跟踪系统，可以将探针编译到程序中，所有跟踪事件发生在用户态。因为不需要上下文切换，所以很快。

1.1.2 收集数据机制

为了理解收集和分析跟踪数据，理解从内核中取出数据到你的手上就非常重要。观察内核自带的几个部分。

1.1.2.1 ftrace

ftrace是比较难以直接使用。很多数据位于/sys/kernel/debug/tracing中。要跟ftrace 交互，可以读写其中的文件。

1.1.2.2 perf_events

使用系统调用perf_event_open从内核中获取数据。内核会将事件写到用户态内存中，可以被直接读取。

1.1.2.3 eBPF

编写eBPF编程（通常使用C语言，或者使用工具来产生该程序），然后让内核将probe附加到kprobe/uprobe/tracepoint/dtrace的探针上。那么程序会将数据写到eBPF缓存中，就得到的精确的数据。

eBFP在最新的内核版本上可用。

1.1.1 tracepoint

最后来看下tracepoint。

kernel中有trace_XX形式的函数，这些是kernel的tracepoint，定义在include/linux/tracepoint.h中。

trace_要起作用，需要调用register_trace_##name，给他关联一个probe函数，当调用trace_时就执行probe函数

内核中的每个tracepoint提供一个钩子来调用probe函数。一个tracepoint可以打开或关闭。打开时，probe函数关联到tracepoint；关闭时，probe函数不关联到tracepoint。tracepoint关闭时对kernel产生的影响很小，只是增加了极少的时间开销（一个分支条件判断），极小的空间开销（一条函数调用语句和几个数据结构）。当一个tracepoint打开时，用户提供的probe函数在每次这个tracepoint执行是都会被调用。

1.1.2 关于跟踪器选择

如果你当前或未来计算机运行内核大于4.9，那么就用eBPF，不过在老的版本中eBPF可能帮不到你，那么ftrace 就值得投入分析。

perf trace比较简单，损耗比较低可以直接上手。

使用kprobes也是一个不错的主意。

可以使用perf_events（又名perf）来做CPU的profiling，然后可用火焰图来描述。当然,perf还可以做很多事情，这里先其做CPU profiling。

性能大师Gregg有如下建议：

linux tracing和profiling概论_系统调用

如果是性能工程师，就需要选择一个跟踪器如SystemTap,LTTng或sysdig。LTTng相比安全一点，SystemTap功能强大。sysdig有待增加kprobe或tracepoints。

在工作中可以尽可能的使用perf和ftrace,这已被集成到了eBPF中，然后在使用SystemTap或LTTng来补充。

1.1.3 参考

http://netsplit.com/tracing-on-linux

http://www.brendangregg.com/blog/2015-07-08/choosing-a-linux-tracer.html

LTT: https://en.wikipedia.org/wiki/Linux_Trace_Toolkit

Linux tracing systems & how they fit together

上一篇：linux系统调用实现机制详解(内核4.14.4)

下一篇：linux相关命令——二

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯