ContentsIntroductionPrerequisitesRequirementsComponentsUsed排除方法故障术语与缩略语内存安置内存错误可校正与无法修复的错误排除DIMM故障通过UCSM和CLI检查从GUI的错误检查从CLI的错误登记技术支持的日志文件DIMM列入黑名单清除DIMM的方法列入黑名单错误UCSMGUIUCSMCLIRelatedInformation值得注意的BugIntroduction本文描述如何排除在思科统一计算系统(UCS)解决方案的存储器模块相关问题故障.
UCSusesDual直插式存储器模块(DIMM)作为RAM模块.
PrerequisitesRequirementsCisco建议您有思科统一计算系统(CiscoUCS)知识.
ComponentsUsedThisdocumentisnotrestrictedtospecificsoftwareandhardwareversions.
然而,本文重点CiscoUCSB-系列刀片服务器qUCS管理器qTheinformationinthisdocumentwascreatedfromthedevicesinaspecificlabenvironment.
Allofthedevicesusedinthisdocumentstartedwithacleared(default)configuration.
Ifyournetworkislive,makesurethatyouunderstandthepotentialimpactofanycommand.
排除方法故障此部分包括UCS内存问题的主要部分.
内存安置q通过UCSM和CLI排除DIMM故障q登记技术支持的日志q术语与缩略语DIMM双列直插存储器模块ECC纠错码LVDIMM低压DIMMMCA机器检查的体系结构MEMBIST内存镶入自检MRC内存参考码POST加电自检SPD序列存在发现DDR双数据速率RAS可靠性、可用性和维护性内存安置内存安置很可能是其中一个UCS解决方案的最值得注意的物理方面.
典型地服务器附有内存事前填充与被请求的数量.
然而,不确定时请参见硬件安装指南,应该定期更新,当介绍新的硬件.
对于内存人口规则请参见特定平台的B系列技术规范.
B系列技术规范链路:http://www.
cisco.
com/c/en/us/products/servers-unified-computing/ucs-b-series-blade-servers/datasheet-listing.
html内存错误DIMM错误多位=不可能修正的柱子由BIOS映射,OS看不到DIMM运行时间通常导致OS重新启动一位=可校正OS继续发现DIMMqECC(纠错码)错误q奇偶校验错误qSPD(序列存在发现)错误q配置错误不支持的DIMM不支持的DIMM人口q无对手的DIMMq不匹配错误q身份unestablishable错误q检查并且更新目录q可校正与无法修复的错误一个特定的错误是否可校正或不可能修正的取决于依赖在存储系统内被使用的ECC代码.
当他们发生没有对程序执行时的影响专用硬件能改正可校正错误.
与可校正错误的DIMM不是失效的并且是可用为了OS能使用.
总内存和有效内存是相同的(使用反映的内存).
这些可校正错误在UCSM操作度状态报告了如降低,当整体操作度可行与可校正错误时.
无法修复的错误不通常是固定的,并且可能使不可能为应用程序或操作系统继续执行.
与无法修复的错误的DIMM是失效的,并且OS看不到该内存.
UCSM对""不能操作的""的operState更改在这种情况下.
排除DIMM故障通过UCSM和CLI检查从GUI的错误UCSM日志说明DIMM状态操作度SEL备注可行可行检查SEL日志DIMM相关错误DIMM是安装和工作.
可行降低检查SELECC错误在运行时间期间,一个可校正ECCDIMM错误被发去除不适用没有日志没有安装DIMM或损坏的SPD数据.
禁用可行检查SEL身份unestablishable错误检查并且更新功能目录禁用不适用检查SEL,如果在失败的另一个DIMM在同一条信道因为配置规则不可能由在同一条信道的失败的DIM护DIMM可能是健康,但是失效的.
禁用不适用没有日志没能遵从内存配置规则由于想念DIMM.
不能操作需要的不能操作/更换UE发现了ECC错误.
降低不能操作检查SELECC错误DIMM状态和操作度更改的由于,在主机重新启动前ECC错误发现了.
降低需要的不能操作/更换在POST/MRC期间,检查SELECC错误在运行时间期间,不可能修正的ECC错误被发现了DIMM保持可用对OS,OS失败并且恢复,但是能使用此DIMM.
错误能以后再出现.
应该替换在大多情况下DIMM.
为了得到统计数据请连接对设备>机箱>Server>Inventory>内存然后用鼠标右键单击在内存,并且精选请显示浏览器.
检查从CLI的错误当排除从CLI时的错误故障这些命令是有用的.
scopeserverx/y->showmemorydetailscopeserverx/y->showmemory-arraydetailscopeserverx/y->scopememory-arrayx->showstatshistorymemory-array-env-statsdetail从内存阵列范围您能也获得对DIMM的访问.
范围服务器X/Y>范围内存阵列Z>范围DIMMN从您能那里然后得到每DIMM统计数据或重置错误计数器.
UCS/chassis/server/memory-array/dimm#reset-errorsUCS/chassis/server/memory-array/dimm*#commit-bufferUCS/chassis/server/memory-array/dimm#showstatsmemory-error-state如果看到匹配以上的信息的一个可校正错误报告了,问题可以被重置BMC更正而不是重新安装或重置前端服务器.
请使用这些CiscoUCSManagerCLI命令:重置BMC不影响运行在前端的OS.
UCS/chassis/server/memory-array/dimm#reset-errorsUCS/chassis/server/memory-array/dimm*#commit-bufferUCS/chassis/server/memory-array/dimm#showstatsmemory-error-stateForcolusaservers:UCS#scopechassisUCS/chassis#scopeserverxUCS/chassis/server#reset-ecc使用UCS版本2.
27和3.
1以上,去除了内存被更正的错误的阈值.
所以,存储器模块(DIMM)不再将报告作为"不能操作"或"降低的"独自地由于被更正的内存错误.
根据whitepaperhttp://www.
cisco.
com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.
pdf行业为更加巨大的容量需求,更加巨大的带宽,并且降低工作电压导致增加的memoryerror费率.
传统上,行业以与无法修复的错误相似的方式对待可校正错误,要求模块被替换立即在戒备.
特定广泛的研究可校正错误没有关联与无法修复的错误,并且可校正错误不降低系统性能,CiscoUCS小组推荐模块的立即替换有可校正错误的.
体验可校正错误的一次降低的内存戒备的用户应该重置内存错误和恢复操作.
如果遵从此推荐,避免多余的服务器中断.
对错误管理的将来增进来,并且帮助在可校正错误中的多种类型区分并且识别适当行为,若有,需要.
HostHatch在当地时间7月30日发布了一系列的促销套餐,涉及亚洲和欧美的多个地区机房,最低年付15美元起,一次买2年还能免费升级双倍资源。商家成立于2011年,提供基于KVM架构的VPS主机,数据中心包括中国香港、美国、英国、荷兰、印度、挪威、澳大利亚等国家的十几个地区机房。官方网站:https://hosthatch.com/NVMe VPS(香港/悉尼)1 CPU core (12.5%...
RAKsmart 虽然是美国主机商,但是商家的主要客户群还是在我们国内,于是我们可以看到每次的国内节日促销活动期间商家也会发布促销。包括这次年中大促活动,RAKsmart商家也有发布为期两个月的年终活动,其中有商家擅长的独立服务器和便宜VPS主机。服务器包括站群服务器、特价服务器、高达10G带宽不限制流量的美国服务器。商家优惠活动,可以看到对应商品的优惠,同时也可以使用 优惠码 RAKBL9 同时...
上次部落分享过VirMach提供的End of Life Plans系列的VPS主机,最近他们又发布了DEDICATED MIGRATION SPECIALS产品,并提供6.5-7.5折优惠码,优惠后最低每月27.3美元起。同样的这些机器现在订购,将在2021年9月30日至2022年4月30日之间迁移,目前这些等待迁移机器可以在洛杉矶、达拉斯、亚特兰大、纽约、芝加哥等5个地区机房开设,未来迁移的时...