目录:
dmesg’命令显示linux内核的环形缓冲区信息,我们可以从中获得诸如系统架构、cpu、挂载的硬件,RAM等多个运行级别的大量的系统信息。当计算机启动时,系统内核(操作系统的核心部分)将会被加载到内存中。
‘dmesg’命令显示linux内核的环形缓冲区信息,我们可以从中获得诸如系统架构、cpu、挂载的硬件,RAM等多个运行级别的大量的系统信息。当计算机启动时,系统内核(操作系统的核心部分)将会被加载到内存中。在加载的过程中会显示很多的信息,在这些信息中我们可以看到内核检测硬件设备。
dmesg 命令的使用范例
‘dmesg’命令设备故障的诊断是非常重要的。在‘dmesg’命令的帮助下进行硬件的连接或断开连接操作时,我们可以看到硬件的检测或者断开连接的信息。‘dmesg’命令在多数基于Linux和Unix的操作系统中都可以使用。
下面我们展示一些最负盛名的‘dmesg’命令工具以及其实际使用举例。‘dmesg’命令的使用语法如下。
- # dmesg [options...]
1. 列出加载到内核中的所有驱动
我们可以使用如‘more’。 ‘tail’, ‘less ’或者‘grep’文字处理工具来处理‘dmesg’命令的输出。由于dmesg日志的输出不适合在一页中完全显示,因此我们使用管道(pipe)将其输出送到more或者less命令单页显示。
- [root@tecmint.com ~]#| more
- [root@tecmint.com ~]#| less
输出
1. [0.000000]Initializing cgroup subsys cpuset
2. [0.000000]Initializing cgroup subsys cpu
3. [0.000000]Initializing cgroup subsys cpuacct
4. [0.000000]Linux3.11.0-13-generic(buildd@aatxe)(gcc version 4.8.1(Ubuntu/Linaro4.8.1-10ubuntu8))#20-Ubuntu SMP Wed Oct 23 17:26:33 UTC 2013
5. (Ubuntu3.11.0-13.20-generic3.11.6)
6. [0.000000]:
7. [0.000000]IntelGenuineIntel
8. [0.000000]AuthenticAMD
9. [0.000000]Geodeby NSC
10. [0.000000]CyrixCyrixInstead
11. [0.000000]CentaurCentaurHauls
12. [0.000000]TransmetaGenuineTMx86
13. [0.000000]TransmetaTransmetaCPU
14. [0.000000] UMC UMC UMC UMC
15. [0.000000]:-provided physical RAM map:
16. [0.000000]-e820:[mem 0x0000000000000000-0x000000000009fbff] usable
17. [0.000000]-e820:[mem 0x00000000000f0000-0x00000000000fffff] reserved
18. [0.000000]-e820:[mem 0x0000000000100000-0x000000007dc08bff] usable
19. [0.000000]-e820:[mem 0x000000007dc08c00-0x000000007dc5cbff] ACPI NVS
20. [0.000000]-e820:[mem 0x000000007dc5cc00-0x000000007dc5ebff] ACPI data
21. [0.000000]-e820:[mem 0x000000007dc5ec00-0x000000007fffffff] reserved
22. [0.000000]-e820:[mem 0x00000000e0000000-0x00000000efffffff] reserved
23. [0.000000]-e820:[mem 0x00000000fec00000-0x00000000fed003ff] reserved
24. [0.000000]-e820:[mem 0x00000000fed20000-0x00000000fed9ffff] reserved
25. [0.000000]-e820:[mem 0x00000000fee00000-0x00000000feefffff] reserved
26. [0.000000]-e820:[mem 0x00000000ffb00000-0x00000000ffffffff] reserved
27. [0.000000](ExecuteDisable): active
28. .....
2. 列出所有被检测到的硬件
要显示所有被内核检测到的硬盘设备,你可以使用‘grep’命令搜索‘sda’关键词,如下:
1. [root@tecmint.com ~]#| grep sda
2.
3. [1.280971]2:0:0:0:[sda]488281250512-byte:(250/232GiB)
4. [1.281014]2:0:0:0:[sda]WriteProtectis off
5. [1.281016]2:0:0:0:[sda]ModeSense:003a0000
6. [1.281039]2:0:0:0:[sda]Write:,:,'t support DPO or FUA
7. [ 1.359585] sda: sda1 sda2 < sda5 sda6 sda7 sda8 >
8. [ 1.360052] sd 2:0:0:0: [sda] Attached SCSI disk
9. [ 2.347887] EXT4-fs (sda1): mounted filesystem with ordered data mode. Opts: (null)
10. [ 22.928440] Adding 3905532k swap on /dev/sda6. Priority:-1 extents:1 across:3905532k FS
11. [ 23.950543] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro
12. [ 24.134016] EXT4-fs (sda5): mounted filesystem with ordered data mode. Opts: (null)
13. [ 24.330762] EXT4-fs (sda7): mounted filesystem with ordered data mode. Opts: (null)
14. [ 24.561015] EXT4-fs (sda8): mounted filesystem with ordered data mode. Opts: (null)
注解 ‘sda’表示第一块 SATA硬盘,‘sdb’表示第二块SATA硬盘。若想查看IDE硬盘搜索‘hda’或‘hdb’关键词。
3. 只输出dmesg命令的前20行日志
在‘dmesg’命令后跟随‘head’命令来显示开始几行,‘dmesg | head -20′命令将显示开始的前20行。
1. [root@tecmint.com ~]#|-20
2.
3. [0.000000]Initializing cgroup subsys cpuset
4. [0.000000]Initializing cgroup subsys cpu
5. [0.000000]Initializing cgroup subsys cpuacct
6. [0.000000]Linux3.11.0-13-generic(buildd@aatxe)(gcc version 4.8.1(Ubuntu/Linaro4.8.1-10ubuntu8))#20-Ubuntu SMP Wed Oct 23 17:26:33 UTC 2013 (Ubuntu 3.11.0-13.20-generic 3.11.6)
7. [0.000000]:
8. [0.000000]IntelGenuineIntel
9. [0.000000]AuthenticAMD
10. [0.000000]Geodeby NSC
11. [0.000000]CyrixCyrixInstead
12. [0.000000]CentaurCentaurHauls
13. [0.000000]TransmetaGenuineTMx86
14. [0.000000]TransmetaTransmetaCPU
15. [0.000000] UMC UMC UMC UMC
16. [0.000000]:-provided physical RAM map:
17. [0.000000]-e820:[mem 0x0000000000000000-0x000000000009fbff] usable
18. [0.000000]-e820:[mem 0x00000000000f0000-0x00000000000fffff] reserved
19. [0.000000]-e820:[mem 0x0000000000100000-0x000000007dc08bff] usable
20. [0.000000]-e820:[mem 0x000000007dc08c00-0x000000007dc5cbff] ACPI NVS
21. [0.000000]-e820:[mem 0x000000007dc5cc00-0x000000007dc5ebff] ACPI data
22. [0.000000]-e820:[mem 0x000000007dc5ec00-0x000000007fffffff] reserved
4. 只输出dmesg命令最后20行日志
在‘dmesg’命令后跟随‘tail’命令(‘ dmesg | tail -20’)来输出‘dmesg’命令的最后20行日志,当你插入可移动设备时它是非常有用的。
1. [root@tecmint.com ~]#|-20
2.
3. parport0:-style at 0x378,7[PCSPP,TRISTATE]
4. ppdev:-space parallel port driver
5. EXT4-fs (sda1):with ordered data mode
6. Adding2097144k/dev/sda2.Priority:-1:1:2097144k
7. readahead-disable-service: delaying service auditd
8. ip_tables:(C)2000-2006NetfilterCoreTeam
9. nf_conntrack version 0.5.0(16384,65536)
10. NET:Registered10
11. lo:DisabledPrivacyExtensions
12. e1000:LinkisUp1000MbpsFullDuplex,FlowControl:None
13. Slow:Starting up
14. Slow:Ready
15. FS-Cache:Loaded
16. CacheFiles:Loaded
17. CacheFiles:Security:-95
18. eth0:noIPv6 routers present
19. type=1305(1398268784.593:18630):=0=1=4294967295=4294967295=1
20. readahead-collector: starting delayed service auditd
21. readahead-collector: sorting
22. readahead-collector: finished
5. 搜索包含特定字符串的被检测到的硬件
由于‘dmesg’命令的输出实在太长了,在其中搜索某个特定的字符串是非常困难的。因此,有必要过滤出一些包含‘usb’ ‘dma’ ‘tty’ ‘memory’等字符串的日志行。grep 命令 的‘-i’选项表示忽略大小写。
1. [root@tecmint.com log]#|-i usb
2. [root@tecmint.com log]#|-i dma
3. [root@tecmint.com log]#|-i tty
4. [root@tecmint.com log]#|-i memory
输出
1. [0.000000]Scanning1for low memory corruption
2. [0.000000]:[mem 0x00000000-0x01ffffff]
3. [0.000000]Base[c009b000]9b00016384
4. [0.000000]:[mem 0x00000000-0x000fffff]
5. [0.000000]:[mem 0x37800000-0x379fffff]
6. [0.000000]:[mem 0x34000000-0x377fffff]
7. [0.000000]:[mem 0x00100000-0x33ffffff]
8. [0.000000]:[mem 0x37a00000-0x37bfdfff]
9. [0.000000]Early memory node ranges
10. [0.000000]:Registered:[mem 0x0009f000-0x000effff]
11. [0.000000]:Registered:[mem 0x000f0000-0x000fffff]
12. [0.000000]try'cgroup_disable=memory'if't want memory cgroups
13. [ 0.000000] Memory: 2003288K/2059928K available (6352K kernel code, 607K rwdata, 2640K rodata, 880K init, 908K bss, 56640K reserved, 1146920K highmem)
14. [ 0.000000] virtual kernel memory layout:
15. [ 0.004291] Initializing cgroup subsys memory
16. [ 0.004609] Freeing SMP alternatives memory: 28K (c1a3e000 - c1a45000)
17. [ 0.899622] Freeing initrd memory: 23616K (f51d0000 - f68e0000)
18. [ 0.899813] Scanning for low memory corruption every 60 seconds
19. [ 0.946323] agpgart-intel 0000:00:00.0: detected 32768K stolen memory
20. [ 1.360318] Freeing unused kernel memory: 880K (c1962000 - c1a3e000)
21. [ 1.429066] [drm] Memory usable by graphics device = 2048M
6. 清空dmesg缓冲区日志
我们可以使用如下命令来清空dmesg的日志。该命令会清空dmesg环形缓冲区中的日志。但是你依然可以查看存储在‘/var/log/dmesg’文件中的日志。你连接任何的设备都会产生dmesg日志输出。
- [root@tecmint.com log]#-c
7. 实时监控dmesg日志输出
在某些发行版中可以使用命令‘tail -f /var/log/dmesg’来实时监控dmesg的日志输出。
- [root@tecmint.com log]#"dmesg | tail -20"
结论:dmesg命令在系统dmesg记录实时更改或产生的情况下是非常有用的。你可以使用man dmesg来获取更多关于dmesg的信息。
示例:
指令sudo dmesg -T | grep "(java)" ,可以查看项目被关掉的记录。运行后:
linux 终端报错 Out of memory: Kill process[PID] [process name] score问题分析
从Out of memory来看是内存超出了,后面的 Kill process[PID] [process name] score好像和进程有关了,下面我们就一起来看看linux 终端报错 Out of memory: Kill process[PID] [process name] score问题分析
看到屏幕上都是 Out of memory: Kill process[PID] [process name] score,虽然知道这是linux自我保护进行内存清理动作,但是为了知道更多的细节进行了学习。
【原因分析】
Out of memory 问题,这通常是因为某时刻应用程序大量请求内存导致系统内存不足造成的,这通常会触发 Linux 内核里的 Out of Memory (OOM) killer,OOM killer 会杀掉某个进程以腾出内存留给系统用,不致于让系统立刻崩溃。
Linux 内核根据应用程序的要求分配内存,通常来说应用程序分配了内存但是并没有实际全部使用,为了提高性能,这部分没用的内存可以留作它用,这部分内存是属于每个进程的,内核直接回收利用的话比较麻烦,所以内核采用一种过度分配内存(over-commit memory)的办法来间接利用这部分 “空闲” 的内存,提高整体内存的使用效率。一般来说这样做没有问题,但当大多数应用程序都消耗完自己的内存的时候麻烦就来了,因为这些应用程序的内存需求加起来超出了物理内存(包括 swap)的容量,内核(OOM killer)必须杀掉一些进程才能腾出空间保障系统正常运行。
可能有些同学发现内存还剩下很多啊?怎么还是在报错内存不够呢?那是因为32位的系统,如果Low-memory耗尽,就会导致这个问题的出现。那low-memory又是怎么回事呢?
内核使用low memory来跟踪所有的内存分配,这样的话一个16GB内存的系统比一个4GB内存的系统,需要消耗更多的low memory,可能有4倍之多。这种额外的压力从你刚启动系统那一刻就开始存在了,因为内核结构必须为潜在的跟踪四倍多的内存分配而调整大小
OOM Killer 就是一层保护机制,用于避免 Linux 在内存不足的时候不至于出太严重的问题,把无关紧要的进程杀掉,有些壮士断腕的意思。
在 32 位CPU 架构下寻址是有限制的。Linux 内核定义了三个区域:
# DMA: 0x00000000 - 0x00999999 (0 - 16 MB)
# LowMem: 0x01000000 - 0x037999999 (16 - 896 MB) - size: 880MB
# HighMem: 0x038000000 - <硬件特定>
LowMem 区 (也叫 NORMAL ZONE ) 一共 880 MB,而且不能改变(除非用 hugemem 内核)。对于高负载的系统,就可能因为 LowMem 利用不好而引发 OOM Killer 。一个可能原因是 LowFree 太少了,另外一个原因是 LowMem 里都是碎片,请求不到连续的内存区域。
另外,在64位系统下low-memory是所有的内存空间。
查看low memory 和 high memory 的状态:
[root@localhost ~]# free -lm
total used free shared buffers cached
Mem: 32105 11305 20800 0 176 5402
Low: 32105 11305 20800
High: 0 0 0
-/+ buffers/cache: 5726 26379
Swap: 32767 0 32767
【OOM killer原理】
从oom_killer给每个进程打分,根据 points 的高低来决定杀哪个进程,这个points可以调节,root 权限的进程通常被认为很重要,不应该被轻易杀掉,所以打分的时候可以得到 3% 的优惠( -= 30; 分数越低越不容易被杀掉)。我们可以在用户空间通过操作每个进程的内核参数来决定哪些进程不这么容易被 OOM killer 选中杀掉。比如,如果不想 MySQL 进程被轻易杀掉的话可以找到 MySQL 运行的进程号后,调整 oom_score_adj 为 -15(注意 points 越小越不容易被杀)
ps aux | grep mysqld
mysql 2196 1.6 2.1 623800 44876 ? Ssl 09:42 0:00 /usr/sbin/mysqld
cat /proc/2196/oom_score_adj
0
echo -15 > /proc/2196/oom_score_adj
【解决方法】
知道了原理,那么怎么解决呢?
一、增大内存。
内存不够咱们肯定要增加啊?不然怎么叫服务器呢?
二、升级到64位操作系统。
64位的操作系统没有对low-memory限制。
三、使用hugemem内核。
这种内核以不同的方式分割low/high memory,而且在大多数情况下会提供足够多的low memory到high memory的映射。在大多数案例中,这是一个很简单的修复方法:安装hugemem kernel RPM包,然后重启即可。
四、配置 OOM killer
通过一些内核参数来调整 OOM killer 的行为,避免系统在那里不停的杀进程。比如我们可以在触发 OOM 后立刻触发 kernel panic,kernel panic 10秒后自动重启系统。
echo "vm.panic_on_oom=1" >> /etc/sysctl.conf
echo "kernel.panic=10" >> /etc/sysctl.conf
sysctl -p
五、关闭/打开oom-killer(慎用)
echo "0" > /proc/sys/vm/oom-kill
echo "1" > /proc/sys/vm/oom-kill