Dipol FM | 105,6 fm
Max banner

Центрам обработки данных угрожает закон Мерфи

О том, как невнимательность и беспечность становятся причинами выхода из строя ЦОДов  во всем мире, рассказал системный инженер APC.

_В 50-х годах прошлого столетия американский капитан Эдвард Мерфи сформулировал знаменитый философский закон, согласно которому из двух вариантов, правильного и неправильного, кто-то обязательно выберет приводящий к катастрофе. Чрезвычайные ситуации по вине человека возникают и по сей день. О том, как невнимательность и беспечность становятся причинами выхода из строя центров обработки данных во всем мире, рассказал на шестнадцатой конференции «Арсенал +» системный инженер APC Сергей Пахомов._

Почему падают ЦОДы
==================

Центры обработки данных (ЦОД) — это сердце любой информационной системы. Проще всего можно описать его следующим образом: как правило, большое темное помещение со сложной системой поддержания температуры, в котором установлены металлические шкафы с серверами, обрабатывающие поступающую на них информацию со всей подключенной сети. В Тюмени, к примеру, два крупнейших ЦОДа (один из них резервный) обслуживают правительственные информационные системы и обеспечивают оказание электронных госуслуг.

«Информации по центрам обработки данных в России, несмотря на то, что их достаточно много, практически нет в свободном доступе. Ситуация напоминает знаменитое изображение с тремя обезьянами: ничего не слышал, не видел и не скажу. А вот по западным ЦОДам все с точностью до наоборот. Есть примеры успешных и не очень успешных решений», — отметил в начале своего выступления инженер APC.

ЦОДы периодически падают, то есть выходят из строя, и от этого никуда не деться. Почему это происходит? «Первоочередной виновник — человеческий фактор. Вторая причина — наше любимое русское авось, — уверен Сергей Пахомов. — По проекту кондиционер должен висеть здесь, но легче его повесить на пять сантиметров левее и ниже, авось ничего не случится».

На всякий случай многие компании имеют такой документ как DRP, Disaster Recovery Plan, план аварийного восстановления. Он отвечает на важнейший вопрос: что мы будем делать, если что-то случится? «Но даже наличие красивого и большого, но слегка неактуального DRP приводит к тому, что в случае возникновения реального происшествия никто не знает, что делать», — подчеркнул инженер.

Чтобы проиллюстрировать это, представитель компании, которая долгие годы создавала источники бесперебойного питания (теперь бренд APC принадлежит Schneider Electric), рассказал о нескольких интереснейших случаях, происшедших в разное время в российских и зарубежных ЦОДах.

Смех и грех
===========

Центр обработки данных известной компании Amazon был укомплектован самым современным и производительным оборудованием и стоил миллионы. Но вот за одновременное включение генераторов в случае, если внешний источник энергии вдруг пропадет, отвечала одна маленькая плата стоимостью меньше сотни долларов.

Эта единственная точка отказа вышла из строя и не дала синхронно запуститься генераторам, когда выключилось электричество. В результате пользователи остались без сервиса на продолжительное время, описал события докладчик.

Компания Amazon вынесла урок из этой истории и поставила сразу несколько таких плат. На всякий случай. «Если цена простоя бизнеса велика, нужно избавляться от единственных точек отказа и постоянно проводить анализ состояния инфраструктуры ЦОДа», — уверен Сергей Пахомов.

Вторая история приключилась с московским поставщиком услуг DataLine. «Для данной компании сдача своих мощностей в аренду является основным бизнесом, — подчеркнул инженер. — В 2010 году в Москве случился серьезный ураган, в результате которого металлическими конструкциями, упавшими с соседней крыши, разрушило систему охлаждения ЦОДа, и он вышел из строя».

Центрам обработки данных угрожает закон Мерфи
_Фото с сайта telecombloger.ru_

Несмотря на высокую отказоустойчивость и хорошие показатели самого ЦОДа, никто не ожидал падающих с неба металлических балок.

Третий пример относится к центру обработки данных, расположенном в Австралии. Внезапно в этой, прямо скажем, не самой холодной стране началось лето. ЦОД работал несколько лет и все было хорошо, но в этом сезоне установилась температура воздуха выше, чем во все предыдущие годы. В результате не выдержала система охлаждения, один за другим начали отказывать кондиционеры.

«Не только в Австралии бывает 40 градусов. У нас тоже бывает жарко, я думаю, что раз в сезон такая температура может установиться и в Тюмени. Поэтому когда мы проектируем ЦОД, то должны ориентироваться на метеоданные за последние 10-15 лет, не меньше», — заметил выступающий.

Центрам обработки данных угрожает закон Мерфи

Классический русский пример — в ЦОДе компании «Уралсвязьинформ» однажды прорвало трубу отопления. Вообще, труба была этажом выше, но суть в том, что без связи остались сотни банкоматов, отделений банков и около 200 тыс. клиентов.

А в одну из неназванных российских компаний коллега выступающего как-то поставлял оборудование. Руководство фирмы решило сэкономить на внешнем байпасе (устройство обхода в электрической цепи) и сделать его собственными силами. В процессе проектирования работники забыли подключить два маленьких сигнальных кабеля. Когда источник бесперебойного питания перевели из рабочего режима в байпас, все сгорело. Сомнительная получилась экономия. «Этот урок учит нас вводить в план проверочных мероприятий проверку «на дурака», — пошутил Пахомов.

Есть такой фразеологизм «идеальный шторм». Он означает ситуацию, которая возникла из-за сложения редких неблагоприятных факторов, в результате которых суммарный разрушительный эффект резко вырос. Такой шторм однажды приключился в Google.

«Отказали внешние поставщики электроэнергии. — описал события инженер APC, — Затем, при переходе на дизельные генераторные установки, отказали и они. Сотрудники компании открыли DRP, но оказалось, что кнопки, которая в нем описана, просто нет. А рубильник и так переведен в предписываемое положение. В общем, в плане восстановления была как минимум двухлетняя задержка».

Ну и напоследок эксперт рассказал о ЧС, случившейся однажды в ЦОДе британского телекоммуникационного оператора British Telecom. «ЦОД этой компании находился на шестом этаже. В здании начался пожар, в ЦОДе возникли проблемы с сетью. Когда ремонтники приехали его чинить, их туда просто не пустили. А с удаленным управлением были проблемы, можно было что-то изменить только непосредственно из консоли управления в ЦОДе. На несколько часов сеть отпала у всех абонентов», — описал стечение непредвиденных обстоятельств Сергей Пахомов.

Что же делать? Эксперт уверен, полностью исключить все факторы никогда не удастся. Но лучше бы владельцам ЦОДов периодически проводить их аудит, искать точки отказа и пути оптимизации. Только так можно составить внятный план действий в чрезвычайной ситуации.

Справка

_Шестнадцатая ежегодная осенняя конференция «Арсенал +» проводится для руководителей и экспертов IT-отрасли. С докладами по последним предложениям и решениям выступают ведущие вендоры. В этом году она была посвящена оптимизации расходов, в связи с урезанием бюджетов на IT в российских компаниях._

Неудобно на сайте? Читайте самое интересное в Telegram, самое полезное в Vk и самое актуальное в MAX
Последние новости
В «Конторе пароходства» обсудили проект помощи ветеранам «Точка опоры»
В «Конторе пароходства» обсудили проект помощи ветеранам «Точка опоры»
Участник программы «Боевой кадровый резерв» Михаил Акуличев организовал в креативном пространстве «Контора пароходства» встречу, посвященную развитию его авторского проекта «Точка опоры».
#Боевой кадровый резерв
#СВО
#проекты
#Тюменская область
#тк
Фуат Сайфитдинов дал старт акции «Коробка храбрости»
Фуат Сайфитдинов дал старт акции «Коробка храбрости»
Акция направлена на поддержку детей, проходящих длительное лечение и реабилитацию в медицинских учреждениях.
#Фуат Сайфитдинов
#облдума
#депутаты
#новости Тюмени
Тюменская филармония завершила сезон и уже строит планы на следующий
Тюменская филармония завершила сезон и уже строит планы на следующий
По сложившейся традиции, завершающий симфонический сезон концерт прошел в формате оперного исполнения.
#Тюмень
#филармонический оркестр
#сотрудничество
#тк
С 1 июня тюменцы подали уже более 700 заявлений на новую ежегодную семейную выплату
С 1 июня тюменцы подали уже более 700 заявлений на новую ежегодную семейную выплату
Отделение Социального фонда России (СФР) по Тюменской области приступило к приему заявлений на новую меру поддержки — ежегодную семейную выплату.
#семья
#дети
#выплата
#СФР
#Тюменская область
#тк
В твоем ритме и на правильном пути: Зеленый Марафон в Тюмени собрал более 8 тысяч участников
В твоем ритме и на правильном пути: Зеленый Марафон в Тюмени собрал более 8 тысяч участников
СберПрайм Зеленый Марафон в Тюмени объединил более 8 тысяч гостей, из них порядка 3,2 тысячи участников забегов — профессиональных спортсменов, любителей бега и тех, кто впервые решил попробовать свои силы на дистанции.
#спорт
#бег
#акция
#Зеленый марафон
#Сбер
#благотворительность
#банк
#Тюмень
#тк

Настоящий ресурс использует сервис веб-аналитики Яндекс Метрика, предоставляемый компанией ООО «ЯНДЕКС», 119021, Россия, Москва, ул. Л. Толстого, 16 (далее — Яндекс), сервис Яндекс Метрика использует файлы «cookie» с целью сбора технических данных посетителей для обеспечения работоспособности и улучшения качества обслуживания. Продолжая использовать ресурс, Вы автоматически соглашаетесь с использованием данных технологий.

Собранная при помощи «cookie» информация не может идентифицировать вас, однако может помочь нам улучшить работу нашего сайта. Информация об использовании вами данного сайта, собранная при помощи «cookie», будет передаваться Яндексу и храниться на серверах Яндекса в Российской Федерации.

Вы можете отказаться от использования «cookie», выбрав соответствующие настройки в браузере.

Подробнее о нашей политике обработки персональных данных.

Принять