Блог

Отказоустойчивость и моральное удовлетворение

By Тарас Савчук | Published Октябрь 12th, 2011

При проектировании инфраструктуры под те или иные задачи, в которых важна более-менее серьезная форма отказоустойчивости, львиная доля сил и времени уходит на поиск потенциальных проблемных мест, выбор нужной технологии, тестирование, написание документации. В финальном решении какую-то часть сбоев полностью обрабатывает автоматика, а на какую-то часть имеются четкие инструкции по ручному восстановлению в заранее ограниченное и определенное время.

В любом случае, эта та работа, результаты которой видишь стенде, но относительно редко встречаешься «в бою». А ведь только боевой опыт приносит полноценное удовлетворение результатом работы. Далее пример из практики двухдневной давности.

Итак, по одному из обслуживаемых нами web проектов для отказоустойчивости и масштабирования нагрузки на фронтальных серверах (их на данный момент два) применяется FreeBSD + CARP + nginx. На каждом из серверов по одному «виртуальному» (CARP) IP адресу. С каждого из адресов видны web-проекты, каждый из фронтальных серверов подключен к сети в одном из надежнейших дата-центров России.

И вот однажды вечером…

Oct 10 18:21:51 front2 kernel: bge0: link state changed to DOWN

Да, это не умер сервер. Просто дата-центр по какой-то причине отключил внешний интерфейс. Что происходит после? Front1 забирает у  front2 соответствующий публичный IP, который видят все посетители, и продолжает обрабатывать трафик за своего товарища, которому «не повезло». Ни одна из наших внешних систем мониторинга (они проверяют доступность web проектов не реже 1 раза в 30 секунд) не заметила этого инцидента.

Дальше стандартные действия: общение с технической поддержкой дата-центра, поиск проблемы, устранение и…

Oct 10 20:29:43 front2 kernel: bge0: link state changed to UP

…спустя 2 часа провод обжат по-новому (причина оказалась банальной) и front2 бесшовно встал в строй.

Вот как это выглядело с точки зрения мониторинга:

Front2 (failed)

Front1 (ok)

Наблюдать за четкой работой автоматики, обрабатывающей чужие ошибки — это удовлетворение.

Drupal Conf Moscow 2011

By Тарас Савчук | Published Апрель 24th, 2011

Вчера я принимал участие в Drupal Conf Moscow. Было интересно. В моем выступлении речь шла о том, как мы проектировали и строили отказоустойчивую площадку под размещение web-проектов издательства Axel Springer Russia (в том числе http://www.forbes.ru).

Слайды моего доклада можно скачать: Hosting_for_Forbes.ru.pdf

Если кто-то не успел задать интересные вопросы, поделиться своим опытом или обсудить новые идеи, то со мной можно связаться по почте (контакты есть в презентации).

Drupal Conf 2011: хостинг для Frobes.ru

Наш новый сайт запущен :)

By Тарас Савчук | Published Март 30th, 2011

Hello, World!

Сайт будет наполняться постепенно. Перед нами не стоит задача «завалить» посетителей обилием информации. Скорее наоборот — лучше меньше, но по делу. Таким образом, мы неспешно будем наполнять сайт: расскажем кратко о себе, о своих услугах (основная — ИТ-аутсорсинг), об используемых технологиях и о преимуществах работы с нами.

Заходите, мы всегда рады гостям.