T630-GPU服务器宕机、自动重启日志记录

630-GPU服务器宕机,自动重启,日志记录:A fatal error was detected on a component at bus 128 device 3 function 0

故障原因:

造成机器宕机的原因是当多GPU高负载工作时, GPU 温度达到阈值(95度)触发了bus fatal error,导致重启宕机。

根本原因是IDRAC 温控进程异常,无法准确实时的反馈GPU实际工作温度,从而使GPU过热宕机;

Racadm直接调整风扇转速方式:

查看当前值:

[root@xxxxx ~]#racadm -r BMCIP -u xxx -p xxx get System.ThermalSettings.FanSpeedoffset

Security Alert: Certificate is invalid - self signed certificate

Continuing execution. Use -S option for racadm to stop execution on certificate-related errors.

[Key=System.Embedded.1#ThermalSettings.1]

FanSpeedOffset=Off

设置风扇转速值为3:【0 low fan speed、1 medium fan speed、2 high fan speed、3 max fan speed】

[root@xxxxx ~]# racadm -r BMCIP -u xxx -p xxx set System.ThermalSettings.FanSpeedoffset 3

Security Alert: Certificate is invalid - self signed certificate

Continuing execution. Use -S option for racadm to stop execution on certificate-related errors.

[Key=System.Embedded.1#ThermalSettings.1]

Object value modified successfully

设置完成后再次查看:

[root@xxxxx ~]#racadm -r BMCIP -u xxx -p xxx get System.ThermalSettings.FanSpeedoffset

Security Alert: Certificate is invalid - self signed certificate

Continuing execution. Use -S option for racadm to stop execution on certificate-related errors.

[Key=System.Embedded.1#ThermalSettings.1]

FanSpeedOffset=Max Fan Speed

通过调整风扇转速,服务器运行正常。

文章来源:https://www.cnaaa.net,转载请注明出处:https://www.cnaaa.net/archives/8190

(0)
杰斯的头像杰斯
上一篇 2023年5月16日 下午5:20
下一篇 2023年5月17日 下午5:25

相关推荐

  • Filebeat的Registry文件解读

    Registry文件 Filebeat会将自己处理日志文件的进度信息写入到registry文件中,以保证filebeat在重启之后能够接着处理未处理过的数据,而无需从头开始 registry文件内容为一个list,list里的每个元素都是一个字典,字典的格式如下: 每个字段的意义解释: source: 记录采集日志的完整路径 offset:&nbs…

    2023年5月25日
    24200
  • VPS主机和服务器磁盘IO读写速度测试方法-VPS主机真实IO检测工具

    VPS主机磁盘IO的好坏直接影响到VPS主机性能的高低。对于测试VPS主机的性能,我们有非常多的脚本工具,例如:VPS主机速度和性能综合测试工具整理汇总中我们就分享了不少的脚本工具,可以快速地测试VPS主机的CPU、内存和带宽等。 不过,有好友反馈说对于VPS主机的磁盘IO测试,脚本测出来的结果差别比较大,甚至直到建站时才发现购买的VPS主机的IO太低,严重…

    2023年11月24日
    24700
  • 戴尔Dell服务器带外管理iDRAC卡忘记密码,重置密码

    Dell服务器iDRAC重置,忘记密码环境:Dell R630服务器(也适用于R720、R730、R620、R420、R530)问题:Dell R630服务器iDRAC忘记密码。说明:13代机器默认iDRAC账号密码为:root/calvin。14代机器默认iDRAC账号为root。密码在机器前小抽拉卡片的背面【iDRAC password】上。两代的机器重…

    2024年1月18日
    28900
  • Docker Commit构建镜像

    docker commit只用于特殊场合,比如被入侵后保存现场。一般不使用docker commit构建镜像。 现在让我们以定制一个 Web 服务器为例子,来讲解镜像是如何构建的。 这条命令会用 nginx 镜像启动一个容器,命名为 webserver,并且映射了 80 端口,这样我们可以用浏览器去访问这个 nginx 服务器。 如果是在本机运行的 Dock…

    2022年11月19日
    28500
  • Docker镜像管理

    镜像和容器 如果曾经做过 VM 管理员,可以把 Docker 镜像理解为 VM 模板,而运行的VM就是容器如果你是名研发人员,则可以将镜像理解为类(Class),而容器就是对象用一句话来说镜像是容器的模板,容器是镜像的运行实例 镜像仓库服务 Docker 镜像存储在镜像仓库服务(Image Registry)当中。用户可以从Registry进行镜像下载和访问…

    2022年11月17日
    1.4K00

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

在线咨询: QQ交谈

邮件:712342017@qq.com

工作时间:周一至周五,8:30-17:30,节假日休息

关注微信