← все плейбуки

Мониторинг систем — узнаю о проблеме раньше клиента

battle-testedпроцессприменён: vision-club-bizmanager, elseops-dashboard

Плейбук: Мониторинг систем — узнаю о проблеме раньше клиента

Зачем я это сделал

Когда система работает у клиента, главный кошмар — узнать о поломке от самого клиента: «у нас всё упало, почему?» в 6 утра. Это удар по репутации. Нужно было узнавать о проблемах первым, до того как их заметят люди.

Что это даёт

Единый «пульт», на котором видно состояние всех систем сразу: что работает, что упало, какие были ошибки. Если что-то ломается — мне сразу прилетает сообщение в Telegram. Я узнаю о проблеме за минуты и чиню её до того, как клиент вообще что-то заметил. Это и есть основа платной поддержки (Care Plan) — клиент платит за спокойствие.

Как это работает (простыми словами)

Это как сигнализация и видеонаблюдение для системы. Три «камеры»:

Плюс «тревожная кнопка» — любой сбой шлёт уведомление мне в Telegram.

Шаги

  1. 1. Ставлю ловушку ошибок — она ловит сбои внутри программы и складывает их в одно место, по каждой системе отдельно.
  2. 2. Ставлю проверку доступности — каждые несколько минут стучится в систему: «ты жива?». Не ответила — тревога.
  3. 3. Собираю табло — одна страница, где зелёным/красным видно состояние всех систем. Защищена паролем.
  4. 4. Подключаю уведомления в Telegram — сбой = сообщение мне. Важное правило: уведомлять только о реальных проблемах, иначе канал замьютят и смысл пропадёт.
  5. 5. Каждый новый клиент добавляется в эту систему за полчаса — становится ещё одной «лампочкой» на табло.

На чём сэкономило / что оптимизировало

Время «случилась проблема → я о ней знаю» сократилось с «когда напишет клиент» до меньше 5 минут. Стоит это копейки — около $10 в месяц на все системы сразу (не на каждую). А продаётся клиенту как поддержка за $300–500/мес. Видна маржа: дёшево в обслуживании, ценно для клиента.

Грабли

🔧 Техническая часть (можно пропустить — для исполнителя)