Еще в 2004 году обнаружили, что Excel может превращать до 30% названий генов и белков в даты. В новом исследовании ученые проанализировали более 10 тысяч биологических научных работ, содержащих названия генов в таблицах Microsoft Excel. Все работы были опубликованы в период с 2014 по 2020 годы. Оказалось, что более 30% статей содержат ошибки в названиях генов. Ошибки возникли из-за некорректной интерпретации значения текста автокоректором.

Интересно Вышла последняя тестовая версия Android 12, а с ней стали известны первые подробности следующей

Помилка автокоректора
Пример ошибки автокорректора / Фото Tech Xplore

Неверная интерпретация текста "Экселем"

В электронных таблицах используется "интеллектуальный текст", чтобы угадать, какие данные нужны пользователю. Если вы введете номер телефона, начинающийся с нуля, программа распознает его как числовое значение и удалит начальный ноль. Если вы введете "= 8/2", результат будет показываться как "4". Но если набрать на клавиатуре "8/2", то алгоритм "подумает", что это дата.

Поэтому для научных данных простое открытие файла в Excel с базовыми настройками может привести к повреждению и искажению информации из-за автокоррекции. Можно избежать таких проблем, если ячейки предварительно отформатированы перед вставкой текста или импортом данных. Но такие методы "цифровой гигиены" данных широко не применяются.

Эта проблема настолько важна, что в 2016 году Human Gene Name Consortium переименовал некоторые проблемные гены. Например, гены MARCH1 и SEPT1 были переименованы в MARCHF1 и SEPTIN1 соответственно.

Эта проблема касается не только области генетики. В 2012 году мощный банковский холдинг США JP Morgan потерял 6 миллиардов долларов. А все из-за ошибки в формулах в таблицах Excel.

Читайте на сайте Легендарная скрепка Clippy может вернуться в Microsoft 365 в новой роли

Что делать?

Настройки Microsoft Excel по умолчанию такие, чтобы удовлетворить массового пользователя, а не узкоспециализированное научное сообщество. Таблицы подойдут для "простых" данных.

Наука же сегодня несколько перенасыщена информацией и данными, что Microsoft Excel банально с этим не справляется на автоматическом уровне. Поэтому нужно его самостоятельно настроить. Или пользоваться специфическим программным обеспечением.