Главная  |  Пресс-центр  |  Публикации в прессе  |  Территория ЦОД: факторы риска


Архив новостей
Мероприятия
Публикации в прессе


24.09.2009
«Территория ЦОД: факторы риска»

Вслед за бытовой техникой механизмы энергосбережения все более активно внедряются в серверы класса Midrange и hi-end. Однако эта набирающая силу тенденция порождает серьезную проблему. Сегодня разница в потреблении электроэнергии сервером в состоянии покоя (idle) и полной нагрузки составляет 15–20%, но в течение ближайших трех лет она может увеличиться как минимум троекратно. Готова ли инженерная инфраструктура современных центров обработки данных к резкому увеличению динамических вариаций нагрузки?

Беда нечаянно нагрянет

Зарубежные потребители при покупке бытовой техники и персональных компьютеров обращают внимание на наличие логотипа «Energy Star», свидетельствующего о низком уровне потребления энергии. Сегодня за этот знак качества в области использования электроэнергии начали борьбу и производители серверов.

В рамках программы Energy Star американского агентства EPA по охране окружающей среды внедрение передовых механизмов энергосбережения началось несколько лет тому назад именно с бытовой техники, которая в масштабах страны потребляет весьма ощутимую часть производимой электроэнергии. Затем этот процесс охватил и персональные компьютеры по причине их массового использования. Но в отношении серверов отрасль ИТ долгое время медлила, закрывая глаза на показатели высокого уровня потребления электроэнергии этими системами: в отличие от посудомоечных и стиральных машин, холодильников и ПК, до недавнего момента серьезные механизмы энергосбережения в серверах отсутствовали. Возможно, для этого не было существенных стимулов — до тех пор пока проблема не стала затрагивать стратегические интересы государств.

Ситуация изменилась, когда в 2006 году американский президент Джорж Буш дал указание Конгрессу США исследовать проблему энергопотребления серверов и дата-центров в национальных масштабах. Оказалось, что уровень их потребления в США составляет около 1,5% всей вырабатываемой в стране электроэнергии, что сопоставимо с мощностью не одной крупной ГЭС. В результате в 2007 году был опубликован отчет EPA Конгрессу США, в котором были сформулированы основные рекомендации EPA. Этот документ стал руководством к действию для основных производителей процессоров, микросхем и серверов.

По усредненным данным из различных аналитических источников, в нашей стране ежегодно продается 7–8 млн ПК, каждый из которых с периферией в среднем потребляет 250 Вт·ч. Этот парк новых машин в течение года потребляет от 15 до 17 млрд кВт·ч электроэнергии, что до недавнего времени составляло львиную долю среднегодовой выработки Саяно-Шушенской ГЭС (24,5 млрд кВт·ч). Учитывая число всех проданных за последние четыре года серверов (по грубым оценкам — около 20 млн), общее их потребление оценивается в 45–50 млрд кВт·ч в год, что составляет 4,5–5% национального годового производства электроэнергии (985 млрд кВт·ч). Даже если небольшая часть этих серверов и ПК работает круглосуточно, а основная масса включается на 2–3 часа в сутки, с учетом десятикратной коррекции в сторону уменьшения получается, что общее ежегодное потребление электроэнергии серверным парком составляет не менее 0,5% выработки электроэнергии в масштабе всей России.

«До тех пор пока производители серверов не начали внедрять „зеленые“ технологии, энергопотребление сервера менялось от состояния полного покоя до состояния полной нагрузки всего на 15–20%, — рассказывает Алексей Солодовников, руководитель подразделения Schneider Electric Datacenter Solution Team компании APC by Schneider Electric. — Но если сегодня энергосбережение в сервере заключается, по сути, лишь в остановке жесткого диска, в то время как чипсет продолжает работать, то с внедрением энергосберегающих механизмов, которые производители закладывают в свои чипы, разница в ближайшие два-три года, когда произойдет замена поколения серверов, может стать трех-пятикратной. В связи с этим возникает вопрос о способности (или неспособности) инженерной инфраструктуры справляться с этими динамическими вариациями».

Проблему высокого тепловыделения теперь придется решать не только на уровне машинного зала, а локально на уровне группы серверов, которые отрабатывают определенный вычислительный процесс. «Классические системы кондиционирования с централизованной раздачей воздуха через фальшпол несколькими прецизионными системами не способны решить проблему локального теплосъема в современном ЦОД, — подчеркивает Алексей Солодовников. — На какие-то вспышки тепловыделения традиционные системы могут попросту не отреагировать — или будут работать гарантированно неэффективно».

Зоны ответственности

Опубликованные еще в 2000 году предсказания Uptime Institute о росте плотности мощности, потребляемой серверной стойкой, сбываются с пугающей точностью. Уже в 2005 году выяснилось, что эксперты Uptime Institute масштаб бедствия до некоторой степени даже недооценили: энергопотребление растет с еще большейскоростью, чем ожидалось. Однако специалисты отрасли ИТ если и задумывались о проблемах потребления энергии, то лишь с точки зрения того, сколько за нее придется платить.

Проблемы инженерной инфраструктуры, всех систем жизнеобеспечения серверного парка стали головной болью производителей систем бесперебойного электропитания и охлаждения.

— Постепенно пользователи начнут переходить на серверы с большим разбросом энергопотребления (а значит тепловыделения) между холостым ходом и состоянием функционирования под 100-процентной нагрузкой, — предупреждает Алексей Солодовников. — О том, сможет ли система кондиционирования должным образом отреагировать на эти вариации, мало кто задумывается, но эта проблема все более настойчиво будет о себе напоминать.

Для решения проблемы компания APC предлагает следующую структуру кондиционирования машинного зала. Серверные стойки устанавливаются в соответствии с рядным принципом организации «горячих» и «холодных» коридоров. К каждому кондиционеру APC подключаются датчики температуры и влажности, которые штатным образом устанавливаются на входе воздуха в серверную стойку. При желании к одному кондиционеру можно подключить до 3–4 датчиков или даже больше. Кондиционеры между собой объединяются по управляющей шине в группы по четыре устройства, а группы связываются между собой.

«Объединение в группы необходимо для резервирования мощности, требуемой на пике теплосъема, — поясняет Алексей Солодовников. — Когда температура локально растет, а кондиционер не справляется с ее поддержанием, группа из четырех кондиционеров (один из них выполняет роль „ведущего“, а остальные — „ведомых“) способна компенсировать недостаток значения того параметра, который мы стремимся поддерживать». При необходимости «ведущий» дает команду соседним кондиционерам увеличить производительность. К примеру, можно использовать один 50-киловаттный кондиционер на пять 10-киловаттных стоек; расстояние до следующего кондиционера составит около трех метров. «Зона ответственности» такого кондиционера равна примерно 1,5 м. Вариации теплосъема, локальные перегревы такая схема способна компенсировать оперативно и с высокой степенью точности.

Я водяной, внутри меня водица!

Принципиальный недостаток наиболее распространенных сегодня в ЦОД и серверных комнатах прецизионных кондиционеров с фреоном в качестве хладоагента состоит в том, что их производительность модулируется очень слабо. В условиях высоких динамических вариаций нагрузки такие машины работают чрезвычайно неэффективно.

Основной акцент при проектировании инженерной инфраструктуры ЦОД в динамично изменяемой среде компания APC делает на кондиционеры на чиллерной воде. К серверной стойке подается охлажденная вода чиллера, температура которой составляет около 7–8 градусов Цельсия. Температура решетки теплообменника, через которую прогоняется охлаждаемый воздух, составляет в результате около 10 градусов Цельсия.

Существует точка зрения, в соответствии с которой такие охлаждающие устройства, установленные в машинном зале в ряду серверных стоек, кондиционерами не являются, поскольку холодильный цикл в их работе отсутствует. Их часто называют не кондиционерами, а «фанкойлами» (англ. fan — вентилятор + coil — теплообменник). В англоязычной терминологии многие авторы также различают системы CRAC (Computer Room Air Conditioner) и CRAH (Computer Room Air Handler). Под второй аббревиатурой обычно подразумевают именно кондиционер на чиллерной воде, или же фанкойл. Производительность такого кондиционера можно модулировать в очень широких пределах. Во-первых, с помощью трехходового клапана можно эффективно регулировать расход воды, приоткрывая и закрывая его. А во-вторых, можно регулировать скорость работы вентиляторов. Наконец, производительность водяной системы охлаждения тем выше, чем выше температура воздуха на ее входе (то есть на выходе сервера). Здесь кроется серьезное преимущество «фанкойлов» перед «сплит-системами»: фанкойл способен работать (и не просто работать, а отводить все большую и большую тепловую мощность) с ростом температуры охлаждаемого воздуха — в отличие от традиционного фреонового кондиционера, который при температуре воздуха на входе выше 32–33 градусов Цельсия автоматически отключается.

«Выбор решений, способных обеспечить оптимальный климатический режим в серверном зале, сегодня достаточно широк, — подтверждает Виктор Паршин, директор центра обеспечения инженерной безопасности Stack Group. – Но, как показал наш опыт, в России на сегодняшний день мало правильно подобрать и спроектировать инженерную систему, что в условиях зарождающегося рынка само по себе непросто. Важно еще правильно выстроить взаимодействие с поставщиком этой системы в процессе ее монтажа и эксплуатации. При этом на протяжении всего жизненного цикла надо стремиться к непосредственному взаимодействию с представителями штаб-квартиры, так как они имеют больший опыт наблюдения своих разработок в условиях рабочей нагрузки. Соответственно, риски ошибок при проработке конфигурации и монтаже будут существенно снижены. А это значит, что у службы эксплуатации заказчика будет возможность заниматься своими непосредственными обязанностями. Наша компания решила для себя эту задачу путем заключения рамочных договоров со всеми поставщиками инженерных систем и оборудования SDN».

Коридоры кончаются стенкой…

Уровень эффективности ЦОД в сильной степени зависит от количества электроэнергии, потребляемой инженерными системами. В соответствии с концепцией The Green Grid его принято оценивать метрикой PUE — параметром, который представляет собой отношение потребляемой дата-центром электроэнергии к количеству энергии, потребляемой непосредственно ИТ-оборудованием. В центрах обработки данных, по сведениям StorageIO Group, на охлаждение расходуется от 50% до 60% всей мощности ЦОД — в этой же нише заложен и самый высокий потенциал экономии.

Идея, которую компания APC запатентовала несколько лет тому назад, состоит в следующем. Если температура воздуха на входе в кондиционер равна, положим, 25 градусам Цельсия, то разница температур между воздухом и с решеткой теплообменника составляет около 15°. А вот если температура воздуха на входе кондиционера будет 40°, то та же разница составит уже 30°, то есть вдвое выше. Количество тепла, которое охлаждаемый воздух «оставит» на решетке теплообменника, прямо пропорционально этой разнице температур.

Поэтому водяной кондиционер можно «разогнать», увеличить его производительность в очень широких пределах, если герметизировать «горячий» коридор, исключив подмес более холодного воздуха из общего пространства машинного зала к нагретому воздуху на выходе серверов. «Чем более горячий воздух попадает на вход кондиционера, тем выше величина теплосъема с этого кондиционера, — поясняет Алексей Солодовников. — Единственное, что при этом меняется, — температура воды на выходе прецизионного кондиционера (фанкойла), которая становится выше. Но это всего лишь вопрос выбора режима работы чиллера».

Запатентовав идею герметизации «горячего коридора», компания APC оставила конкурентам путь в «холодный» коридор, однако этот вариант менее эффективен. Производительность кондиционера при закрытом горячем коридоре существенно выше.

— К примеру, если для охлаждения воздуха из закрытого «горячего» коридора, где разница температур с охлаждающей средой достигает 20°, достаточно установить три кондиционера, то при открытом способе (разница — 15°) их потребуется четыре, — резюмирует Алексей Солодовников. Кондиционеры, работающие на основе водяного цикла с использованием чиллерной воды, сегодня выпускают многие производители прецизионной техники охлаждения: APC (линейка InRow), Rittal , Stulz, Hiref и ряд других. На водяном принципе охлаждения работают «доводчики» серии XD компании Emerson Network Power.

Поскольку патент на герметизированный «горячий коридор» принадлежит компании APC, промышленных конструкций с герметизацией «горячих коридоров» кроме нее не делает никто. «Даже наши уважаемые конкуренты признают, что ключ к „озеленению“ дата-центров сегодня надо „искать“ в „горячем“ коридоре», — подчеркивает Алексей Солодовников

Вариации нагрузки

Один из параметров, от которого зависит уровень потребления электроэнергии ИБП, — коэффициент полезного действия. Традиционно для ИБП с двойным преобразованием КПД находится в диапазоне 89–92%. КПД современных бестрансформаторных ИБП, как правило, выше: удовлетворительным считается показатель в 94–95%.Следует отметить, что указываемый в документации к оборудованию КПД справедлив при 100-процентной нагрузке. Но ИБП, работающие в ЦОД, никогда не нагружены на 100%: во-первых, вследствие высокого уровня резервирования, а во-вторых — из-за динамических вариаций ЦОД. Для определения реального уровня КПД необходимо запрашивать у производителей графики зависимости КПД конкретной модели ИБП от уровня нагрузки. Очень важно, чтобы ИБП имел максимальный КПД при неполной нагрузке (50–80% от номинальной мощности). Даже если разница КПД двух моделей ИБП составляет всего 1%, это может дать заметную экономию электроэнергии. Выведенная недавно на рынок система APC Symmetra PX 250–500 кВт при 100-процентной загрузке обладает КПД 97–98%, а при снижении нагрузки даже до 30% он остается на уровне 95% .

— Изменение нагрузки на ключевые элементы системы жизнеобеспечения дата-центра в наибольшей степени зависит от трех факторов: динамики заполнения серверных залов оборудованием, его энергопотребления, а также колебаний погодных условий, — делится опытом Виктор Паршин. — Как правило, пиковые нагрузки на системы жизнеобеспечения дата-центра приходятся на сезон летней жары. И именно в этот момент сотрудникам службы эксплуатации следует проявить повышенное внимание к показателям работы инженерного оборудования, которому еще не приходилось функционировать на полную мощность. Особенно важен такой мониторинг в тех случаях, когда поставку и сборку инженерной инфраструктуры осуществляли представители российских компаний, не обладающих экспертным уровнем знаний и навыков в реализации подобных работ. Как отмечает Виктор Паршин, многолетняя практика эксплуатации дата-центров SDN свидетельствует о том, что в наших климатических условиях объем повседневных забот службы эксплуатации с окончанием весны возрастает многократно: практически все системы, установленные на улице, приходится по нескольку раз за смену очищать от тополиного пуха, мошкары, бабочек и прочего сезонного природного «мусора», затрудняющего поступление воздуха в систему.

— В этих условиях важно обеспечить постоянную внутреннюю мобилизацию технического персонала, которая позволит правильно спланировать текущую работу и при этом иметь возможность вовремя диагностировать признаки и причину его некорректной работы. Пока это приходится делать своими силами, но в перспективе, хочется надеяться, весь этот комплекс задач (начиная с планирования регламентных работ и заканчивая борьбой с сезонными неприятностями) можно будет решать с привлечением аутсорсеров, способных отвечать за результаты своей работы в полном объеме.


Ни минуты простоя

Алексей Медунов, начальник отдела проектирования инженерных систем центров обработки данных компании «Ай-Теко»

Степень отказоустойчивости дата-центра, которую отражает категория Tier, определяется исходя из максимально допустимого времени простоев – как плановых, так и незапланированных, или, иначе говоря, исходя из времени восстановления работоспособности ЦОД при единичной неисправности. К слову, в дата-центрах, соответствующих уровню Tier 3 или Tier 4, вообще не должно быть плановых простоев: все регламентные работы проводятся без остановки инженерных систем.

Отказоустойчивость центра обработки данных закладывается исключительно на этапах его проектирования и построения. Причем именно от качества выполнения проекта во многом зависит его соответствие определенному уровню Tier, подразумевающему конкретные показатели отказоустойчивости. Недаром Uptime Institute предлагает две шкалы сертификации: Tier Project (для проектов ЦОД) и Tier Facility (для уже построенных объектов). Повысить уровень отказоустойчивости ЦОД посредством эксплуатации невозможно. Приведу пример, наглядно показывающий, что вопросы эксплуатации и технических решений ЦОД лежат в разных плоскостях. В коммерческом дата-центре «Траст-Инфо» построена система кондиционирования: с двумя закольцованными контурами холодоснабжения на воде и этиленгликоле. Примененная схема резервирования удовлетворяет требованиям Tier 4. Понятно, что с помощью эксплуатации никоим образом нельзя улучшить резервирование инженерных систем.

Однако некачественная работа службы эксплуатации вполне может понизить уровень отказоустойчивости ЦОД. Без квалифицированного обслуживания и мониторинга даже самые надежные инженерные системы со временем придут в негодное состояние, и резервирование потеряется как таковое.

Также от качества работы службы эксплуатации дата-центра напрямую зависит его эффективность, причем в первую очередь финансовая. Поддержание инженерной инфраструктуры в надлежащем техническом состоянии, мониторинг работоспособности систем, регламентное обслуживание, оперативная реакция на нештатные ситуации – все эти задачи входят в компетенцию службы эксплуатации, и от того, насколько грамотно они решаются, зависит непрерывность бизнеса компании. Если говорить о коммерческих дата-центрах, то от службы эксплуатации зависит качество предоставляемых заказчикам услуг, в том числе уровень доступности ИТ-ресурсов, размещенных в ЦОД.

Под эффективностью с точки зрения инженерных систем мы понимаем, прежде всего, меньшее энергопотребление при больших мощностях. В коммерческих дата-центрах эффективность инженерных систем влияет на финансовую составляющую: чем ниже потребление, тем меньше себестоимость сервисов и, соответственно, меньше цена услуг для заказчика. Но показатели энергоэффективности зависят не от эксплуатации, а опять же, от технических решений.

Источник: CIO, №9 (87), сентябрь 2009 года, с. 62–65.
Автор: Наталья Жилкина

 
Дата-центр «Траст-Инфо» © 2008
Группа компаний «Ай-Теко»
© 2008
www.i-teco.ru | www.trustinfo.ru