Детекторы искусственного интеллекта считают, что Конституцию США написала нейросеть

Александр Гайдамашко

Источник:

ArsTechnica

Инструменты обнаружения ИИ говорят, что Конституция США создана нейросетью

Иллюстративное фото / Freepik

Со стремительной популяризацией искусственного интеллекта стало ясно, что нам нужны и способы выявлять вмешательство нейросетей. Преподаватели учебных заведений, например, могут таким образом раскрыть факты мошенничества учащихся, пользующихся ИИ для выполнения домашних заданий. Однако эти инструменты не всегда работают корректно.

Если вы загрузите отрывки из Библии или Конституцию США в программу обнаружения текста, написанного искусственным интеллектом, она сообщит, что эти тексты почти наверняка были написаны нейросетью. Подобный результат проверки получали уже многократно. Каждый раз скриншоты становились вирусными в интернете, порождая волну шуток. И если только Джеймс Мэдисон не был путешественником во времени, причина может быть только одна: несовершенство инструмента.

Ошибочное срабатывание

Эту проблему начали активно обсуждать в англоязычном интернете после волны обвинений в адрес учеников и студентов, которые они получили от своих преподавателей. Те утверждали, что обнаружили в эссе признаки использования ChatGPT.

В США и некоторых европейских странах существует очень устойчивая традиция полагаться на эссе как инструмент оценки усвоения учащимися темы, и учителя не хотят от нее отказываться. Но вместе с тем они не желают допускать возможности мошенничества с помощью нейросетей, поэтому пользуются средствами обнаружения вмешательства ИИ. Проблема в том, что опыт уже показал их ненадежность. Из-за многочисленных ошибочных срабатываний такие детекторы, как GPTZero, ZeroGPT и Text Classifier от OpenAI, не могут быть использованы для обнаружения текста, созданного с помощью больших языковых моделей (LLM), таких как ChatGPT, считают некоторые эксперты.

Чтобы объяснить, почему эти инструменты допускают такие очевидные ошибки, сначала нужно понять, как они работают.

Во-первых, следует понять, что искусственный интеллект работает по принципу компиляции. Он владеет определенным набором данных, на которых его обучали, и свои ответы генерирует, фактически склеивая разные части текста, строя предсказания о вероятности появления того или иного слова после предыдущего. То есть ИИ не придумает сам что-нибудь новое. Он только объединит все существующие части в новые, которые, вероятно, будут типичными и клишированными.
Во-вторых, в основе по крайней мере некоторых средств обнаружения ИИ лежит так называемый принцип удивления или неожиданности – показатель того, насколько фрагмент текста отклоняется от того, что модель ИИ изучила во время обучения. Он предполагает, что естественный человеческий язык хаотичен и непредсказуем. В то же время набор данных, на которых учили ИИ, ограничен и часто построен на различных литературных произведениях, статьях и других текстах, структурированных, хорошо отредактированных и предсказуемых. Так что если система обнаружит это "удивление", она будет считать, что текст написал человек. Если наоборот увидит совпадения с миллионами других запросов в Google (если имеет к нему доступ), то может подумать, что результат генерировал компьютер на основе анализа заученной информации или интернета. Потому что эти программы обнаружения знают принципы работы ИИ, знают принципы складывания информации и знают, что компьютер никогда не придумает вам того, что не было заложено во время обучения.

Вот простой пример. Представим, что вы угадываете следующее слово во фразе "Я бы хотел чашку...". Большинство людей восполнят пробел словами "воды", "кофе" или "чая". Языковая модель, натренированная на обилии текстов, сделает то же самое, поскольку эти фразы часто встречаются в произведениях. Любой из этих трех результатов не вызовет удивления, поскольку предсказание достаточно уверенно. Но будь там, например "Я бы хотел чашку пауков", то и человек, и машина были бы очень удивлены этим предложением. На момент написания этого материала поиск по этой фразе не дает результата. Однако, если искать варианты с кофе, водой или чаем, вы получите их миллионы. Это очень грубый пример, но он показывает логику инструментов обнаружения.

Таким образом, мы подходим к интересному случаю с Конституцией США и Библией. Их тексты настолько укоренились в этих ИИ-моделях, что детекторы классифицируют ее как созданные искусственным интеллектом, создавая ложные срабатывания

Конституция США – это текст, который неоднократно вводился в обучающие данные многих крупных языковых моделей. В результате многие из этих крупных языковых моделей научились генерировать текст, похожий на Конституцию и другие часто используемые обучающие тексты. GPTZero прогнозирует текст, который, вероятно, будет создан большими языковыми моделями, и таким образом происходит это увлекательное явление,
– говорит создатель GPTZero Эдвард Тиан.

Люди – не оригинальны

Проблема состоит в том, что люди могут создавать контент с низким уровнем сложности. Их тексты могут быть предсказуемы. Авторы могут бессознательно выдавать услышанные или прочитанные фразы, думая, что они были только что придуманы ими. Но, как часто говорят, всё давно придумано до нас. Вариантов сказать одну и ту же фразу не так много. Это глубоко подрывает надежность детекторов письма с искусственным интеллектом.

Еще один момент, на который обращают внимание GPTZero и аналоги – это вариативность длины и структуры предложений в тексте. Люди часто демонстрируют динамический стиль письма, что приводит к созданию текстов с изменяющейся длиной и структурой предложений. Например, мы можем написать длинное сложное предложение, за которым следует короткое простое предложение, или мы можем использовать множество прилагательных в одном предложении и ни одного в следующем. Такая вариативность – естественный результат человеческого творчества и спонтанности. В то же время ИИ имеет тенденцию быть более последовательным и однородным (по крайней мере, пока). Языковые модели, все еще находящиеся в зачаточном состоянии, генерируют предложения с более регулярной длиной и структурой. Отсутствие вариативности может привести к низкому показателю разрывности, что указывает на то, что текст может быть сгенерирован искусственным интеллектом.

Однако и этот показатель не является надежным, ведь людям присущи разные стили письма. За это мы и любим одних писателей больше, а других не так сильно. У каждого своя манера строить текст. К тому же ИИ-модель можно научить имитировать более похожую на человеческую вариативность в длине и структуре предложений, что усложнит классификацию написанного по этому показателю. Исследования показывают, что по мере совершенствования языковых моделей ИИ их письмо становится все более похожим на человеческое.

В конце концов нет магической формулы, которая всегда может отличить текст, написанный человеком, от текста, созданного машиной. ИИ-детекторы письма могут сделать сильное предположение, но погрешность слишком велика, чтобы полагаться на них для получения точного результата и быть уверенным, что какой-то текст был создан нечестным путём. Цена таких ложных обвинений иногда может быть слишком велика.