Linux排障技巧在数据中心十分受人重视。数据中心专家对此提供了一些Linux服务器排障相关的性能问题、优化和便利工具参考。

1.Linux性能工具好用吗?

也许你从没使用过pcharpidstatperf_events,但你不是一个人。这些仅仅是大量Linux性能工具中的其中几个,可以利用这些工具来观察带宽、性能状态并进行动态追踪。这些工具听起来可能不起眼,但实施得当的话,可以显著提升Linux性能。

2.如何处理针对Linux服务器的恶意软件攻击?

Linux服务器同样存在恶意软件问题;只是它们的表现与其他平台不同。rootkit是这些问题最常见的原因。它们修改服务器原本的二进制文件,并将其替换为留有后门的版本,以此破坏系统安全性与私密性。

rootkit可以攻陷服务器并让它们极度脆弱。使用文件检查器或高级入侵检测系统可以快速定位并判断rootkit可能造成的损害。同样还可以使用一些Linux命令,如有rpm -Va,可帮助系统管理员校验认证安装包的认证情况。

3.是什么导致服务器连接失败,我该如何解决这个问题?

很难确认是否为传输层安全性(TLS)证书问题,这使得Linux无法连接服务器的排障存在困难。

首先,确定是否证书存在问题。需要熟悉.crt服务器证书文件,因为证书经常由未知的颁发机构颁发,这也是影响安全凭证和信息加密公共密钥的主体。

认证失败十分常见,但理解出错原因、可能造成的影响以及如何修复十分重要。

检查日志文件与网络流量,并使用正确的Linux命令来排查连接故障。如tcpdump命令可以检查网络流量,定位哪个端口正在使用连接。这个命令可以定位协议,便于发现是否存在安全或不安全的端口,而这些端口可能是连接问题的根源。

4.我的SSH服务器经常断开连接,要怎么办?

安全外壳(SSH)连接可以让管理员远程连接Linux与Unix系统,但同样也会出现与服务器断开连接的情况,这在物理上同样无法避免。这可不是一件好事,问题会随着同时登录服务器的数量增长而扩大。

SSH会关闭空闲连接来回收资源。这无意中会导致系统管理员断开连接。

当面对服务器经常断开连接的情况,可以在排错时调整两个资源配置: ClientAliveInterval参数和TCPKeepAlive参数。ClientAliveInterval参数用于设定SSH守护进程周期性检查连接是否还在使用。

例如将其设置为400,SSH服务器会每400秒检查一次连接是否还在使用。TCPKeepAlive用于确定SSH会话是否依然活跃。如果你希望离开服务器远程连接后,会话仍处于空闲状态并持续一段时间,延长这两个参数即可。Linux服务器无法正常启动,而之前的采用的老方法现在不适用了。

5.服务器无法正常启动,采用的老方法不适用了

如果习惯了上一代Linux发行版,如Red Hat Enterprise Linux 5,你会发现在最新版本中,GRUB2和systemd改变了系统管理员排查无法正常启动系统的方式,而且需要恢复关键任务。

RedHatEnterpriseLinux7,SUSE Linux Enterprise Server 12中,多个启动选项都已经变了。例如,runlevel选项被从两个发行版中移除。取而代之的是systemd服务集,被称作Systemd.units,其替代了rescue和emergency模式。

一旦你熟悉如何修改GRUB2默认设置,排查新版本Linux服务器故障会更容易。如果GRUB2引导程序中有东西阻止服务器正常启动,系统管理员需要修改GRUB2设置来修复配置。但GRUB2配置文件本身无法被修改,它们必须依赖于输入文件。

原文来自:http://suo.im/61qWMA