基于机器学习的内存故障预测了解一下 | 双11备战

  • 时间:
  • 浏览:1

情况信息

本文通过对服务器日志的分析,综合服务器的这些静态信息和情况信息,利用机器学习模型,进行服务器内存故障进行预测。

日志信息是系统运行过程中产生的与硬件情况直接相关的日志,如mcelog 等,日志信息主要来自带内和带

日志信息

(一)内存预测相关日志

服务器记录的和内存故障相关的形状还可不后能 分为三类,分别是服务器情况信息,服务器的日志记录,以及服务器的静态信息记录。

情况信息包括服务器负载,CPU使用率,内存使用率,缓存使用率,磁盘使用率,流入流出流量,CPU温度,内存温度,内存功耗,总功耗等,还可不后能 反应出服务器的整体运行情况。情况信息都是时间序列数据,每分钟都是变化。

内存(DRAM)故障是常见的计算机硬件故障之一。在现在的大规模数据中心中,常常有内存故障意味的宕机事件突然出显。为了降低非预期的宕机率,预测潜在的内存故障是重要手段之一。