Ques/Help/Req Серверные процессоры AMD EPYC 7002 зависают после 1044 дней работы

XakeR

Member
Регистрация
13.05.2006
Сообщения
1 912
Реакции
0
Баллы
16
Местоположение
Ukraine
Разработчики AMD сообщили, что в процессорах AMD EPYC 7002 выявлена необычная ошибка. Баг приводит к тому, что после 1044 дней непрерывной работы (2 года и 10 месяцев) процессор может зависнуть, из-за чего сервер придется перезагрузить. В AMD предупредили, что не смогут устранить эту проблему.


Производитель сообщает, что проблема связана с тем, что ядру не удается выйти из энергосберегающего состояния CC6, если последняя перезагрузка системы была более 1044 дней назад. Причем время сбоя может варьироваться в зависимости от частоты REFCLK.

Пользователь Reddit под ником acid_migrain предполагает, что проблема на самом деле проявляется не через 1044 дня, а через 1042 дня и 12 часов. Согласно его теории, зависание происходит, когда TSC [Time Stamp Counter], отсчитывающий число рабочих циклов после сброса, достигает отметки 0x380000000000000, работая на частоте 2800 МГц (2800 * 10**6 * 1042,5).

В качестве решения проблемы AMD предлагает администраторам либо перезагружать сервер чаще, чем раз в 1044 дней, что «обнулит» ЦП и перезапустит 1044-дневный «таймер», либо отключать энергосберегающий режим CC6.
 
198 162Темы
635 133Сообщения
3 618 414Пользователи
drakkon12345Новый пользователь
Верх