В общей сложности было потеряно 34 миллиона файлов от 14 исследовательских групп. Они стерлись как из системы, так и из файла резервного копирования.

Интересно The Wall – безграничный футуристический дисплей для бизнес-потребностей

Что произошло

  • Как пишет источник, причина в ошибке программистов, обслуживающих суперкомпьютер.
  • Система резервного копирования (СРК) перегрузилась при обновлении bash-скрипта. Он задействован в процессе резервного копирования и отвечает за удаление старых журналов, которые фиксируют действия программы.
  • Новую версию скрипта записывали поверх старого как раз в тот момент, когда старый скрипт уже заработал. Эксперты из Japan Hewlett Packard говорят, что из-за этой накладки значения переменных были утеряны, новый скрипт загрузился не полностью, поэтому удалились файлы, а не старые журналы.
  • Ошибку, допущенную где-то в промежутке между 14 и 16 декабря "по невнимательности", никто не заметил.
  • В итоге часть данных из хранилища была случайно удалена, а именно около 77 терабайтов.
  • Пострадали файлы 14 различных групп пользователей.
  • Большинство файлов, а именно для десяти групп, подлежат восстановлению. Однако файлы четырех потеряны навсегда.

Искренне извиняемся за доставленные неудобства. Мы постараемся сделать так, чтобы в дальнейшем подобная ситуация не повторилась,
– говорится в официальном сообщении Киотского университета.

Процесс резервного копирования остановлен. Сотрудники университета планируют возобновить его до конца января после исправления проблемы и внедрения мер по предотвращению повторной ошибки.