Помимо полярных сияний потоки космических лучей вызывают исключительно мощные электромагнитные бури. Они, в свою очередь, порождают сильные скачки напряжения, способные повредить системы распределения электроэнергии, сбросить спутники с расчетных орбит и исказить данные электронных приборов. В прошлом такое случалось не раз. Вспомним, к примеру, отключение энергосистемы, оставившее без электричества канадскую провинцию Квебек.
Эта проблема хорошо знакома инженерам, проектирующим электронные системы для самолетов и спутников. Подобные «единичные сбои» представляют опасность и для наземных систем, обязанных работать с высочайшей надежностью (хотя в наземных системах сбои, как правило, возникают не под воздействием комического излучения, а по иным причинам). Чем выше быстродействие электронных систем – особенно, на скоростях, превышающих 10 Гбит/с – и чем выше плотность транзисторов на чипе, тем выше вероятность того, что внешний поток энергии сможет отрицательно повлиять на производительность маршрутизатора или коммутатора. Солнечные бури — явление очень редкое, но, с точки зрения оператора, эксплуатирующего критически важную сеть, недопустимы даже очень редкие сбои и отказы. Поэтому мы в компании Cisco решили найти способы предотвращения таких сбоев.
С 2001 года Cisco ведет исследования солнечных бурь, чтобы понять, как предотвратить их негативные последствия, особенно, для крупных критически важных систем вроде магистральных маршрутизаторов CRS-3. Чтобы смоделировать долгосрочное воздействие космического излучения на наши системы, мы даже установили свое оборудование в ускорителе элементарных частиц, но оказалось, что небольшие, отдельные улучшения не дают желаемого результата. Для повышения надежности систем нужно было в корне менять их архитектуру и учитывать комплексное взаимодействие всех аппаратных и программных компонентов. При этом, чтобы объективно оценить свои разработки, мы замеряли производительность не только своих, но и конкурирующих систем в тех же условиях.
По итогам этих экспериментов группа исследователей, работавших тогда в Cisco (большинство из них продолжает работать в нашей компании), подготовила солидный научный труд под названием «Особенности и выявление случайных сбоев в высоконадежных магистральных интернет-маршрутизаторах» (Specification and Verification of Soft Error Performance in Reliable Internet Core Routers), опубликованный в 2008 году организацией IEEE Transactions on Nuclear Engineering. Главный вывод авторов состоит в том, что гарантировать надежную работу оборудования можно лишь в том случае, если вы глубоко понимаете всю систему, знаете, как должны функционировать аппаратные средства, и используете правильную методологию для проектирования этой системы «снизу вверх». Методология проектирования должна охватывать все: от процессоров и микросхем до программного обеспечения и коммуникационных протоколов, поддерживающих функции надежности.
Это исследование помогло компании Cisco разработать новаторские интегральные схемы (ASIC), системные архитектуры и программные средства для критически важных операторских платформ, позволяющие минимизировать влияние «единичных сбоев». Наша жизнь все больше зависит от сетевых электронных систем, и поэтому мы должны непрерывно заботиться о надежности всей электроники – от сетевых магистралей до личных мобильных устройств.
Так сможет ли Интернет пережить «космическую бурю»? Сможет – если он построен на платформах Cisco.
Переживет ли Интернет космическую бурю?: 4 комментария