- 0x00 前言简述
- 0x01 基础配置
- (1) 初始化之RAID配置
- (2) 错误信息之日志收集
- (3) BIOS 固件升级
- (4) iDRAC的OS部署升级与使用
- (5) 内存卡槽插法
- (6) R730 系统安装流程
- 0x0n 入坑解决
(1) PowerEdge R730 内存错误导致服务器异常重启
(2) PowerEdge R730 Redhat 系统安装问题
R730
0x00 前言简述
描述:本文主要记录了DELL服务器相关运维操作与配置,及其故障的解决;
DELL服务器型号排行榜:
- PowerEdge R210 II 、 R710 (第一个数应该是等级或系列,第二个貌似相当于代数)
- PowerEdge T160
戴尔存储系列的类别:
分类 中文解释 戴尔目前在售产品
DAS 直连式存储 MD1000、1200、1220、3200、3220
NAS 网络附加存储 NX200、300、3100、3000、3500
SAN 存储区域网 Equallogic PS4000、PS6000、PS6010、PS4100、PS6100;SCv 2000 / 2020;Compellent
服务器类型分类
- 塔式
- 机架式
- 刀片式
服务器外部尺寸分类
U是一种表示服务器外部尺寸的单位,是unit的缩略语
,一般只有机架服务器使用该单位。服务器的厚度以4.445cm为基本单位。所谓“1U的PC服务器”,就是外形满足EIA规格、厚度为4.445cm的产品。
- 1U就是4.445cm,2U则是1U的2倍为8.89cm ,4U则是2U的两倍;
单路和双路服务器的区别?
单路服务器和双路服务器区别为:CPU不同、内存不同、执行效率不同。
- CPU不同
- 单路服务器:单路服务器主板上只有一个CPU在运行。
- 双路服务器:双路服务器主板上有两个CPU同时在运行。
- 内存不同
- 单路服务器:
- intel平台,单路服务器用的内存可以是
ECC (型号后带有E或者芯片数是3的倍数),非ECC
- AMD平台,单路服务器的内存可以是
ecc,非ECC,REG ECC
- 双路服务器:
intel平台,双路服务器用的内存只能是
FB-DIMM ECC
AMD平台,双路服务器只能上
REG ECC
- 执行效率不同
- 单路服务器:单路服务器单线程,执行效率更低。
- 双路服务器:双路服务器双线程,执行效率更高。
Dell 服务器快捷功能按钮:
以 PowerEdge™ R210为例进行说明:
前面面板说明:
- 通电指示灯/电源按钮:注意(两分钟以上显示图形,具体时间取决于系统安装的内存容量,注: 对于兼容 ACPI 的操系统,使用电源按钮关闭系统可以在系统电源关闭前执行正常有序的关机操作。)
- NMI 按钮:使用某些操作系统时排除软件和设备驱动程序错误;
- VGA视频链接
- 硬盘活动指示灯
- 诊断指示灯
- 系统状态指示灯(正确蓝色、问题呈琥珀色亮起)
- 系统识别按钮 (前面板和背面板上的系统识别按钮可用于查找机架中的特定系统)
- USB连接器
- 系统识别面板 (快速服务标签、嵌入式 NIC MAC 地址、iDRAC6 Enterprise 卡 MAC 地址)
- 光盘驱动器(可选)
背部面板说明:
- iDRAC6 EnterPrise 专用管理端口
- VFlash 介质卡槽 : 为iDARC6 卡提供外部SD内存卡
- PCIe扩展卡插槽
- 串行连接器
- VGA
- eSATA 存储设备
- USB x 2
- 以太网连接器 x 2 (1000NIC自适应)
- 系统状态指示灯(同上面的6)
- 系统识别按钮
NIC 接口指示灯左链右活动:
诊断指示灯:
- 全灭:系统处于关闭或者正常运行状态
- 1:未检测到内存模块
- 2:扩充卡可能出现故障
- 3:处理器可能出现故障
- 4:已检测到 BIOS 校验和故障;系统处于恢复模式
- 12:系统资源配置错误
- 13:内存配置错误
- 14:系统板出现故障
- 23:硬盘驱动器故障
- 24:视频可能出现故障
- 34:内存故障
- 123 :其他故障
- 134:系统板资源和/或系统板硬件可能出现故障。
- 234:USB 可能出现故障
root/calvin
0x01 基础配置
(1) 初始化之RAID配置
描述: 主要针对于DELL服务器下RAID对磁盘的管理配置演示,因实践设备有限不一定是通用的但大多数是一致的;
环境说明:
实际流程:
- 在DELL服务器启动显示进度条时候,按下
Ctrl键+R键
进入RAID配置界面 - 其实LVM原理与RAID是差不多的,进入后最下有操作提示
F2=Operations
- 切换到PD Mgmt(物理磁盘管理),可以看见所有硬盘的盘位、容量、使用情况等信息
- 切换回VD Mgmt(虚拟磁盘管理),选中到RAID卡,按F2可以新建VD
- 选中磁盘→ 选择RAID模式(
1块硬盘可组RAID0、2块硬盘可组RAID0和RAID1、3块硬盘可组RAID0和RAID5、更多的硬盘有更多的组合方案
)→ 设置容量(同一张RAID卡组多个RAID时且容量相同时推荐将容量设置细微差异为不同,不然使用的时候你可能分不清楚哪个盘是哪个RAID的只能通过容量来分辨) - 建议对新创建的逻辑驱动器进行初始化,除非您试图重新创建以前的配置并恢复数据,简单的说
为了保证数据的安全性推荐初始化,初始化时间一般较长
- RAID创建完成
(2) 错误信息之日志收集
通过iDRAC收集TSR日志的操作方法(12/13G):www.dell.com/support/article/sln305282/zh
通过Lifecycle收集TSR日志的操作方法(12/13G):www.dell.com/support/article/sln305280/zh
Windows收集DSET日志的方法-V3.7 : www.dell.com/support/article/sln304629/zh
RH Linux收集DSET日志的方法-V3.7 : www.dell.com/support/article/sln305293/zh
ESXi5.0通过DSET远程收集日志-V3.7 : www.dell.com/support/article/sln272599/zh
(3) BIOS 固件升级
描述:本章节主要针对于Dell R730 "BIOS iDRACK+Lifecycle Controller"
固件进行升级;
BIOS更新地址:https://www.dell.com/support/home/zh-cn/drivers/DriversDetails?driverId=6YDCM
固件更新地址:https://downloads.dell.com/FOLDER05590166M/1/iDRAC-with-Lifecycle-Controller_Firmware_40T1C_WN64_2.63.60.61_A00.EXE
环境准备:默认管理IP地址为192.168.0.120,默认用户名、密码为root/calvin
更新方式:
- (1) 通过服务器BIOS BOOT Manager方式
- (2) 通过服务器IDRAC方式
- 2.3 升级期间会重启几次以及黑屏(注意升级时候请勿切断电源和暂停)
l - 2.1 登陆Idra后可在服务器中查看服务器信息、然后切换到iDRAC设置中进行更新文件的上传、并进行安装与重新引导;
- 2.2 之后会提示您到作业队列中进行BIOS更新进度查看;
- (3) 升级iDRAC固件版本到
2.63.60.61
固件上传位置:iDRAC设置->更新和回滚
然后在Firmware Update: DriverPack等等Complete完成; - (4) 升级后的效果:
(4) iDRAC的OS部署升级与使用
描述: 访问 http://www.dell.com 绑定快速服务编码,然后在“支持”里找到“驱动程序和下载”,在选择类别为用于操作系统部署的驱动程序
此处以R730为例: https://www.dell.com/support/home/zh-cn/product-support/product/poweredge-r730/drivers
更新与使用:
- 1.登录iDRAC,在“iDRAC设置”里找到“更新与回滚”,选择刚才下载过的文件后,点击“上载
Drivers-for-OS-Deployment_Application_WP3PH_WN64_18.12.04_A00_01
固件; - 2.安装后重启进入Lifecycle Controller 选择OS部署便可选择操作系统;
(5) 内存卡槽插法
描述:Poweredge 12G r720、r730 是dell的机架式服务器俗称刀片机,当我们需要更改内存时候需要按照以下方式进行插入ECC的内存;
戴尔服务器内存模块安装原则/分布规则
此系统支持灵活的内存配置,从而使系统在任何有效的芯片集结构配置中配置和运行。
DELL R730服务器系统包含24个内存插槽分为两组(每组12个),每个处理器一组。每个12插槽组分入四个通道。
在每个通道中第一个插槽的释放拉杆以白色标记,第二个插槽的释放拉杆为黑色,第三个插槽的释放拉杆标为绿色,插入顺序先白后黑再绿
,通道图示如下图:
名词解析:
- 1.无缓冲双通道内存模块 (Unbuffered Dual In-Line Memory Modules or unregistered Dual In-Line Memory Modules,UDIMM)
- 2.带寄存器的双列直插内存模块 (Registered DIMM ,RDIMM)
- 3.低负载双列直插内存模块 (Load Reduced DIMM,LRDIMM)
以下是建议的最佳性能原则:
- 1.UDIMM、RDIMM和LRDIMM不得混用基于x4和x8DRAM的DIMM可以混用。
- 2.一个通道中最多可填充两个UDIMM
- 3.每个通道中最多可填充
两个4列RDIMM和3个双列或单列RDIMM
。一个四列RDIMM安装在带有白色释放拉杆的第一个插槽中时,无法填充具有绿色释放拉杆的信道中的第三个DIMM插槽。 - 4.无论列数是多少,最多可以填充3个LRDIMM。
- 5.在双处理器配置中,每个处理器的内存必须配置相同。
- 6.大小不同的内存模块可以在一个内存通道中混用(如 2-GB、8-GB和4-GB),但所有被占用的通道的配置必须相同。
- 7.对于优化器式,内存模块按照插槽的数字顺序安装,以 A1 或 B1开始。
- 8.对于内存镜像模式或高级 ECC 模式离处理器最远的三个插槽不使用,
内存模块首先从插槽 A2或 B2 开始安装,然后按剩下插槽的数字顺序安装(如 A2、A3、A5、A6、A8和 A9)
。 - 9.高级 ECC 模式需要 x4或 x8 DRAM 设备宽度。
- 10.每个通道的内存速度因内存配置而异
内存插法与处理器个数有关: 对于单处理器系统插槽A1至a12可用
,对于双处理器系统插槽A1至a12和插槽B1至b12可用
。
- (1) 当使用1个cpu(单cpu)时,32G内存的内存槽插法:
- 2条16G内存的话,分别插在A1,A3内存槽。
- 4条8G内存的话,分别插在A1,A2,A3,A4内存槽。
- 8条4G内存的话,分别插在A1,A2,A3,A4,A5,A6,A7,A8内存槽。
注意事项: 填充DIMM插槽仅如果安装了一个处理器:先填充具有白色释放卡舌的所有插槽,再填充具有黑色卡舌的插槽,最后填充具有绿色卡舌的插槽。如果在具有白色释放卡舌的第一个插槽中填充4列RDIMM,
则请勿填充具有绿色释放卡舌的通道中的第3个DIMM插槽
。
在以下顺序按最高列数填充插槽-首先在带有白色释放拉杆的插槽,然后黑屏,然后呈绿色亮起。
例如如果要混用4列和双列DIMM,则填充具有白色释放卡舌的插槽中的4列DIMM,再填充具有黑色释放卡舌的插槽中的双列DIMM
。
- (2) 当使用2个cpu(双cpu)时,64G内存的内存槽插法:
- 4条16G内存的话,分别插在A1,A3和B1,B3内存槽。
- 8条8G内存的话,分别插在A1,A2,A3,A4和B1,B2,B3,B4内存槽。
- 16条4G内存的话,分别插在A1,A2,A3,A4,A5,A6,A7,A8和B1,B2,B3,B4,B5,B6,B7,B8内存槽。
注意事项: 在双处理器配置中,每个处理器的内存配置应完全相同。
例如:
如果填充处理器1的插槽A1,则填充处理器2的插槽B1以此类推。
如果遵循其它内存安装规则,则不同大小的内存模块可以混用(例如2GB和4GB内存模块可以混用)。每个处理器一次填充4个DIMM(每个通道一个DIMM)以最大化性能。
如果安装不同速度的内存模块,它们将以最低或较低安装内存模块速度运行(具体取决于系统DIMM配置)。
补充知识:
- (1)戴尔R720最小/最大内存容量(实际与处理器有非常大的关系)
- 最小RAM:2GB含单一处理器/4GB(具有双处理器)
- 最大RAM:LRDIMM高达768GB(PowerEdge R720XD2.5英寸硬盘驱动器配置),RDIMM高达512GB, UDIMM最高可达64GB
- (2)戴尔R730的双路(Xeon E5-2630 v4)支持的内存容量;
(6) R730 系统安装流程
描述:下面主要在R730设备中安装Ubuntu操作系统流程,适用于U盘安装和CD-DVD安装;
安装流程:
- 1.准备一个写入Ubuntu镜像的U盘并且插入到R730之中然后开启服务器,通过自检后
选择F11功能按键进行 BOOT Manager 之中
; - 2.然后会自动进入
BOOT Manager Main Menu
之中,此时选择One-shot BIOS Boot Menu
然后根据您的启动盘选择Hard Driver,此外我选择的是 DataTraveler 3.0
; - 3.之后便会进入U盘安装Ubuntu引导之中然后按下F6进入以下画面选择进行安装Ubuntu 服务器版本,然后按照提示进行划分磁盘空间大小,后面根据流程操作即可此处不再累述,等待安装完成;
0x0n 入坑解决
R730
(1) PowerEdge R730 内存错误导致服务器异常重启
问题描述:
问题原因:
内存错误异常而CPU的报错大多是由于内存报错导致的;
可纠正内存错误是一种单位错误,如果在写入或读取操作过程中错误地将 1 更改为0 或将 0 更改为 1,就会出现这一错误。识别出错的特定单位后,可以通过补充错误单位的方式纠正错误。
戴尔认证的 DIMM 将自动执行此纠正在极少数情况下,当 SEL 日志中记录一个可纠正内存错误后,服务器可能会重新启动。
该问题主要出现在 R630 和 R730 中, 该问题仅出现在 2.3.x 版本的 BIOS 中
。
问题排查:
- 1.在IDRAC控制台查看内存相关的配置及其状态是否存在故障报错
问题解决方式(不保证每条都OK
):
参考连接:
- 1.(DELL服务器事件和错误消息参考指南-UEFI)[https://www.dell.com/support/manuals/cn/zh/cnbsd1/dell-opnmang-sw-v8.1/eemi_13g_v1.2-v1/uefi-event-messages?guid=guid-823669e3-2d7b-41b5-85f1-af7a6bc11acc&lang=en-us]
- 2.(R730内存故障处理)[https://www.dell.com/support/manuals/cn/zh/cnbsd1/poweredge-r730/r730_ompublication/系统内存故障处理?guid=guid-1dd8ce42-b3bc-40db-9e9b-e2d6ae94011b&lang=zh-cn]
- 3.https://www.dell.com/support/article/zh-cn/sln305799/dell-poweredge-13g-在-可纠正内存错误-之后可能重新启动?lang=zh
(2) PowerEdge R730 Redhat 系统安装问题
问题描述: 机器原来安装了2012后来想改LINUX, 按照机器F10引导后安装过程中一直会报错can't get kickstart from /dev/sdb1
解决办法(注意点):
参考地址:
- https://www.dell.com/community/PowerEdge服务器/DELL-POWEREDGE-R730-服务器安装红帽子系统问题/m-p/7269107#M12622
- http://www.dell.com/support/article/cn/zh/cndhs1/sln303963/阵列卡perch330_h730配置手册?lang=zh