Запитати

При навантаженнях сервер перестає працювати

Вирішено
21 березня · 8 ·
0

Маю старенький сервер, на якому крутиться декілька сервісів, що працюють з DHT (який на піках активності юзерів починає виберати ресурси). Але то до слова.

Не знаю, від чого залежить, але час від часу (цей момент я не можу спіймати) коли росте навантаження на процесор, сервер перестає відповідати по SSH. Також перестає млигати мережева карта, так ніби немає конекту взагалі від нього. Допомагає тільки ребут.

Які логи можна подивитись, чи взагалі куди копати? Система Debian.

Memtest поки не пускав, але така магія колись бувала через биту пам'ять.

З іншого боку, в мене Б/У SSD, на якому власне ця система й крутиться, є підозра що на ньому догорають блоки пам'яті, але як таке може бути, якщо ФС журнальована (Ext4). Свап з нього переніс на HDD, підключив новий бо може й той глючив.. щось дуже схоже на краш пам'яті.

Проблема проявляється тільки коли CPU використовується більше ніж на 50%, якщо менше - то може й декілька тижнів працювати. Грішив на вимкнення напруги, але схоже проблема саме в навантаженнях. Або просто залізу гайки, типу щось там вже пересохло в конденсаторах :)

сервер навантаження failure system

Відповіді на питання (4)

24 березня
1
Обране рішення

Бляха, здається просто кабель езернет відійшов.. тре було ризикнути тільки поворушити на гарячу (без ребуту)

вже заліз в журнали, перелопатив роутер, грішив на fail2ban бо хто зна може якийсь софт потребує спеціальних дозволів. в journalctl було тільки UFW block на деяких адресах, але то так треба.

кернель в нормі через монітор. не було просто видно сервер на роутері. коротше сподіваюсь причина була в шнуркі, буду тицяти на гарячу коли глюкне (цього разу він дійсно наче трохи виліз бо на ньому відламався клікер)


Якщо проблема програмна, то варто перевірити /var/log/syslog та journalctl, там має бути видно що останнє запускалося.

Якщо проблема апаратна, то ядро може падати в Kernel panic, для перевірки необхідно підключити монітор і можливо буде зрозуміла причина.


Дякую, мені трохи страшно залазити в /var/log/syslog бо є пара глючних сервісів які його нещадно засмітили

По апаратній проблемі, не зовсім зрозумів як його підключити на "гарячу".. хоча мабуть підключу зарання, дійсно - дякую за пораду! Не додумався


Ось знову щойно заглючило, а потім почало працювати без ребуту.

Все ще не підключив монітор та не відкрив журнали :)

Зате придумав можливу причину - оскільки сервер підключено через роутер, саме він може якось відсікати трафік на піках наприклад пересилання пакетів, які і спричиняють ті само навантаження.

Ось такі налаштування в мене router settings

Але вони відключені в розділі захисту DDoS ddos settings

Зате є таке з увімкненого, що воно робить - який трафік, який протокол - я навіть не знаю:

Stateful Packet Inspection (SPI) Міжмережевий екран запобігає кібер-атакам і перевіряє трафік, що проходить через маршрутизатор, основуючись на протоколі.

Ось тут знайшов наступне:

What kind of data does it deem untrustworthy? An SPI firewall follows a preset security policy. Data that do not match the policy is dropped. It also learns from previous connections. Traffic types that once caused damage is simply blocked in the future without needing to examine the packet in greater detail.

https://community.tp-link.com/en/home/stories/detail/916

Що мені "подобається" в закритих прошивках, що все рівно нічого не зрозуміло як і чому воно там "навчається". Спробую вимкнути, якщо це смарт захист на базі пакетів значить просто лочить коли до мого публічного вузла під'єднуються ноди DHT того ж Alfis DNS

Може ще якісь опції варто глянути, бо в принципі обладнання побутове, тому запросто. Ще спробую під час відмови з роутеру зайти, що він скаже, може це він вісить.


Для відповіді на запитання необхідно авторизуватись

Вхід