]> www.infradead.org Git - users/mchehab/rasdaemon.git/commit
New feature: support memory row CE threshold policy
authorzhuofeng <zhuofeng2@huawei.com>
Mon, 4 Mar 2024 13:04:42 +0000 (21:04 +0800)
committerMauro Carvalho Chehab <mchehab+huawei@kernel.org>
Mon, 18 Nov 2024 13:36:05 +0000 (14:36 +0100)
commitf3a9fb5d8763beda614d344dd0563dfea9b60893
treeddecbdd97cd6393bcd92fa1785c94ab30a392f8d
parent1f5607c527e20e79bc49dcb98fe1ca29995749d1
New feature: support memory row CE threshold policy

- Introduction: Identify memory row faults in memory CE faults and
isolate the physical memory pages where row faults occur. This method
can effectively prevent CE storms or memory UCE faults caused by memory
row failures.

- Implementation: The system counts the number of CE faults in the same
memory row within a specified period. If the number of CE faults exceeds
the configured threshold, the system considers that the memory row may
fail and isolates all physical pages recorded in the memory row.

Notes:
1. This function is disabled by default. You can enable it by
configuring the'ROW_CE_ACTION' field in the '/etc/sysconfig/rasdaemon' configuration file.
2. If both row isolation and page isolation are enabled, page isolation is automatically
disabled by default.
3. If the number of fault times in the DIMM CE fault information received by the rasdaemon
is 0, the BIOS does not correctly parse the number of fault times when parsing the fault information.
When a fault occurs, the rasdaemon process considers that the number of faults is 1 by default,
which is the same as the kernel process.

Signed-off-by: zhuofeng <zhuofeng2@huawei.com>
Signed-off-by: Mauro Carvalho Chehab <mchehab+samsung@kernel.org>
Makefile.am
configure.ac
misc/rasdaemon.env
ras-events.c
ras-mc-handler.c
ras-page-isolation.c
ras-page-isolation.h