Dipol FM | 105,6 fm
Max banner

Центрам обработки данных угрожает закон Мерфи

О том, как невнимательность и беспечность становятся причинами выхода из строя ЦОДов  во всем мире, рассказал системный инженер APC.

_В 50-х годах прошлого столетия американский капитан Эдвард Мерфи сформулировал знаменитый философский закон, согласно которому из двух вариантов, правильного и неправильного, кто-то обязательно выберет приводящий к катастрофе. Чрезвычайные ситуации по вине человека возникают и по сей день. О том, как невнимательность и беспечность становятся причинами выхода из строя центров обработки данных во всем мире, рассказал на шестнадцатой конференции «Арсенал +» системный инженер APC Сергей Пахомов._

Почему падают ЦОДы
==================

Центры обработки данных (ЦОД) — это сердце любой информационной системы. Проще всего можно описать его следующим образом: как правило, большое темное помещение со сложной системой поддержания температуры, в котором установлены металлические шкафы с серверами, обрабатывающие поступающую на них информацию со всей подключенной сети. В Тюмени, к примеру, два крупнейших ЦОДа (один из них резервный) обслуживают правительственные информационные системы и обеспечивают оказание электронных госуслуг.

«Информации по центрам обработки данных в России, несмотря на то, что их достаточно много, практически нет в свободном доступе. Ситуация напоминает знаменитое изображение с тремя обезьянами: ничего не слышал, не видел и не скажу. А вот по западным ЦОДам все с точностью до наоборот. Есть примеры успешных и не очень успешных решений», — отметил в начале своего выступления инженер APC.

ЦОДы периодически падают, то есть выходят из строя, и от этого никуда не деться. Почему это происходит? «Первоочередной виновник — человеческий фактор. Вторая причина — наше любимое русское авось, — уверен Сергей Пахомов. — По проекту кондиционер должен висеть здесь, но легче его повесить на пять сантиметров левее и ниже, авось ничего не случится».

На всякий случай многие компании имеют такой документ как DRP, Disaster Recovery Plan, план аварийного восстановления. Он отвечает на важнейший вопрос: что мы будем делать, если что-то случится? «Но даже наличие красивого и большого, но слегка неактуального DRP приводит к тому, что в случае возникновения реального происшествия никто не знает, что делать», — подчеркнул инженер.

Чтобы проиллюстрировать это, представитель компании, которая долгие годы создавала источники бесперебойного питания (теперь бренд APC принадлежит Schneider Electric), рассказал о нескольких интереснейших случаях, происшедших в разное время в российских и зарубежных ЦОДах.

Смех и грех
===========

Центр обработки данных известной компании Amazon был укомплектован самым современным и производительным оборудованием и стоил миллионы. Но вот за одновременное включение генераторов в случае, если внешний источник энергии вдруг пропадет, отвечала одна маленькая плата стоимостью меньше сотни долларов.

Эта единственная точка отказа вышла из строя и не дала синхронно запуститься генераторам, когда выключилось электричество. В результате пользователи остались без сервиса на продолжительное время, описал события докладчик.

Компания Amazon вынесла урок из этой истории и поставила сразу несколько таких плат. На всякий случай. «Если цена простоя бизнеса велика, нужно избавляться от единственных точек отказа и постоянно проводить анализ состояния инфраструктуры ЦОДа», — уверен Сергей Пахомов.

Вторая история приключилась с московским поставщиком услуг DataLine. «Для данной компании сдача своих мощностей в аренду является основным бизнесом, — подчеркнул инженер. — В 2010 году в Москве случился серьезный ураган, в результате которого металлическими конструкциями, упавшими с соседней крыши, разрушило систему охлаждения ЦОДа, и он вышел из строя».

Центрам обработки данных угрожает закон Мерфи
_Фото с сайта telecombloger.ru_

Несмотря на высокую отказоустойчивость и хорошие показатели самого ЦОДа, никто не ожидал падающих с неба металлических балок.

Третий пример относится к центру обработки данных, расположенном в Австралии. Внезапно в этой, прямо скажем, не самой холодной стране началось лето. ЦОД работал несколько лет и все было хорошо, но в этом сезоне установилась температура воздуха выше, чем во все предыдущие годы. В результате не выдержала система охлаждения, один за другим начали отказывать кондиционеры.

«Не только в Австралии бывает 40 градусов. У нас тоже бывает жарко, я думаю, что раз в сезон такая температура может установиться и в Тюмени. Поэтому когда мы проектируем ЦОД, то должны ориентироваться на метеоданные за последние 10-15 лет, не меньше», — заметил выступающий.

Центрам обработки данных угрожает закон Мерфи

Классический русский пример — в ЦОДе компании «Уралсвязьинформ» однажды прорвало трубу отопления. Вообще, труба была этажом выше, но суть в том, что без связи остались сотни банкоматов, отделений банков и около 200 тыс. клиентов.

А в одну из неназванных российских компаний коллега выступающего как-то поставлял оборудование. Руководство фирмы решило сэкономить на внешнем байпасе (устройство обхода в электрической цепи) и сделать его собственными силами. В процессе проектирования работники забыли подключить два маленьких сигнальных кабеля. Когда источник бесперебойного питания перевели из рабочего режима в байпас, все сгорело. Сомнительная получилась экономия. «Этот урок учит нас вводить в план проверочных мероприятий проверку «на дурака», — пошутил Пахомов.

Есть такой фразеологизм «идеальный шторм». Он означает ситуацию, которая возникла из-за сложения редких неблагоприятных факторов, в результате которых суммарный разрушительный эффект резко вырос. Такой шторм однажды приключился в Google.

«Отказали внешние поставщики электроэнергии. — описал события инженер APC, — Затем, при переходе на дизельные генераторные установки, отказали и они. Сотрудники компании открыли DRP, но оказалось, что кнопки, которая в нем описана, просто нет. А рубильник и так переведен в предписываемое положение. В общем, в плане восстановления была как минимум двухлетняя задержка».

Ну и напоследок эксперт рассказал о ЧС, случившейся однажды в ЦОДе британского телекоммуникационного оператора British Telecom. «ЦОД этой компании находился на шестом этаже. В здании начался пожар, в ЦОДе возникли проблемы с сетью. Когда ремонтники приехали его чинить, их туда просто не пустили. А с удаленным управлением были проблемы, можно было что-то изменить только непосредственно из консоли управления в ЦОДе. На несколько часов сеть отпала у всех абонентов», — описал стечение непредвиденных обстоятельств Сергей Пахомов.

Что же делать? Эксперт уверен, полностью исключить все факторы никогда не удастся. Но лучше бы владельцам ЦОДов периодически проводить их аудит, искать точки отказа и пути оптимизации. Только так можно составить внятный план действий в чрезвычайной ситуации.

Справка

_Шестнадцатая ежегодная осенняя конференция «Арсенал +» проводится для руководителей и экспертов IT-отрасли. С докладами по последним предложениям и решениям выступают ведущие вендоры. В этом году она была посвящена оптимизации расходов, в связи с урезанием бюджетов на IT в российских компаниях._

Неудобно на сайте? Читайте самое интересное в Telegram, самое полезное в Vk и самое актуальное в MAX
Последние новости
Станислав Логинов: Если качественно настроить MAX, рисков не будет
Станислав Логинов: Если качественно настроить MAX, рисков не будет
Заместитель губернатора рассказал о доступных сервисах, а также поделился планами.
#Станислав Логинов
#MAX
#мессенджер
#сервис
#технологии
#перспективы
#Тюменская область
#новости Тюмени
#тк
Фуат Сайфитдинов представил законодательную инициативу Тюменской облдумы Совету законодателей РФ
Фуат Сайфитдинов представил законодательную инициативу Тюменской облдумы Совету законодателей РФ
На проект получено положительное заключение правового управления Государственной Думы.
#Фуат Сайфитдинов
#депутаты
#облдума
#Госдума
#новости Тюмени
МТС запустила новогоднюю акцию на смартфоны TECNO
МТС запустила новогоднюю акцию на смартфоны TECNO
Акция распространяется на популярные модели смартфонов бренда.
#МТС
#TECNO
#продажи
#телефон
Стопмошенники72.рф: тюменцев больше всего интересуют жизненные ситуации
Стопмошенники72.рф: тюменцев больше всего интересуют жизненные ситуации
Информационные ресурсы отмечены на российском уровне.
#Станислав Логинов
#стопмошенники72
#кибербезопасность
#профилактика
#Тюмень
#новости Тюмени
#тк
Александр Моор: Строительство школы в 5 Заречном микрорайоне начнется после новогодних праздников
Александр Моор: Строительство школы в 5 Заречном микрорайоне начнется после новогодних праздников
Проект будет реализован в два этапа.
#Александр Моор
#школа
#строительство
#официально
#Зарека
#Тюмень
#новости Тюмени
#тк

Настоящий ресурс использует сервис веб-аналитики Яндекс Метрика, предоставляемый компанией ООО «ЯНДЕКС», 119021, Россия, Москва, ул. Л. Толстого, 16 (далее — Яндекс), сервис Яндекс Метрика использует файлы «cookie» с целью сбора технических данных посетителей для обеспечения работоспособности и улучшения качества обслуживания. Продолжая использовать ресурс, Вы автоматически соглашаетесь с использованием данных технологий.

Собранная при помощи «cookie» информация не может идентифицировать вас, однако может помочь нам улучшить работу нашего сайта. Информация об использовании вами данного сайта, собранная при помощи «cookie», будет передаваться Яндексу и храниться на серверах Яндекса в Российской Федерации.

Вы можете отказаться от использования «cookie», выбрав соответствующие настройки в браузере.

Подробнее о нашей политике обработки персональных данных.

Принять