Почему произошел сбой в Amazon и как должно измениться "облако", чтобы это не повторилось

Основні тези

Масштабный сбой в работе Amazon Web Services был вызван проблемой в системе доменных имен для базы данных DynamoDB, что вызвало отключение многочисленных сервисов.
Эксперты предлагают мультиоблачную стратегию и граничные вычисления как решение для избежания подобных сбоев в будущем.

Недавний масштабный сбой в работе Amazon Web Services (AWS) привел к отключению тысяч веб-сайтов и онлайн-сервисов по всему миру. Этот инцидент в очередной раз напомнил об уязвимости современной цифровой инфраструктуры и заставил экспертов говорить о необходимости фундаментальных изменений в подходах к облачным вычислениям.

Почему один сбой парализовал половину интернета?

Масштабный сбой, затронувший таких гигантов, как Reddit, Snapchat, Signal, а также ряда банковских и финансовых платформ, был вызван проблемой в одном из крупнейших дата-центров AWS в Северной Вирджинии, США. Непосредственной технической причиной стал сбой в системе доменных имен (DNS) для одной из ключевых баз данных Amazon – DynamoDB, пишет 24 Канал со ссылкой на Tech Xplore.

Как это было Perplexity, Epic Games и Signal: сбой на серверах Amazon потянул за собой десятки сервисов

Если объяснять просто, DNS работает как телефонная книга для интернета: она превращает понятные для человека имена сайтов (например, Amazon.com) в IP-адреса, которые используют компьютеры для связи между собой. В момент сбоя запись о DynamoDB в этой "книге" временно исчезла. В результате компьютеры, которые пытались получить доступ к этой базе данных, получали ответ, что ее не существует, что и повлекло цепную реакцию и отключение сервисов.

Однако эксперты отмечают, что корень проблемы значительно глубже одной технической ошибки. Он заключается в чрезмерной централизации интернета и зависимости от небольшого количества провайдеров облачных услуг. Сегодня на рынке доминируют три компании: Amazon Web Services (около 30% рынка), Microsoft Azure (20%) и Google Cloud (13%). Когда у одной из них возникают проблемы, это мгновенно сказывается на огромной части глобальной сети. Такая концентрация создает единую точку отказа, где одна ошибка может вызвать эффект домино и парализовать значительные сегменты интернета.

Процесс восстановления после таких инцидентов также оказывается сложным. Даже после устранения первоначальной проблемы с DNS многие вышедшие из строя, системы, нуждаются в перезагрузке. Одновременные попытки тысяч сервисов восстановить работу создают колоссальную нагрузку на серверы, что может провоцировать новые сбои. Эксперты сравнивают этот процесс с игрой "удар крота", где решение одной проблемы немедленно порождает другую.

Что с этим делать?

Чтобы избежать подобных коллапсов в будущем, специалисты предлагают изменить сам подход к "облаку", пишет The Conversation. Один из ключевых методов – это мультиоблачная стратегия, которая предусматривает распределение критически важных приложений между различными провайдерами. Это устраняет единую точку отказа и позволяет избежать "привязки к одному поставщику", когда компании становятся заложниками услуг одной компании из-за высокой стоимости и сложности перехода на другую платформу.

Другое перспективное направление – это граничные вычисления (edge computing). Эта технология предлагает перенести хранение и обработку данных из крупных централизованных дата-центров на меньшие распределенные узлы, например, локальные серверы, которые компании могут контролировать непосредственно.

Такой подход не только повышает надежность и скорость, но и помогает соблюдать строгие требования по суверенитету данных, уменьшая геополитические и регуляторные риски, связанные с хранением информации в системах, подпадающих под юрисдикцию США.