На чем базируется работа ИИ-детекторов и каковы их слабые стороны?

Существует несколько подходов к выявлению контента, созданного искусственным интеллектом. Их успешность зависит от типа контента, с которым они взаимодействуют. Например, текстовые детекторы пытаются найти характерные языковые паттерны, анализируя структуру предложений, стиль письма и частоту употребления определенных слов. С момента распространения ИИ-инструментов резко возросла популярность таких слов, как "углубляется" или "демонстрируя". Однако, поскольку языковые модели постоянно совершенствуются, различия между машинным и человеческим письмом становятся все менее заметными, что делает такие инструменты не слишком надежными, пишет 24 Канал со ссылкой на Tech Xplore.

Смотрите также Grokipedia Илона Маска потеряла почти всех посетителей за несколько недель

Для детекции изображений иногда анализируют встроенные метаданные, которые некоторые ИИ-инструменты добавляют к файлу. Например, инструмент Content Credentials позволяет отследить историю редактирований файла, если он создавался в совместимом программном обеспечении. Как и в случае с текстом, изображения могут сравнивать с базами данных, содержащих образцы контента, сгенерированного ИИ.

Некоторые разработчики также начали добавлять к результатам работы своих систем скрытые водяные знаки – паттерны, незаметные для человека, но распознаваемые специальными алгоритмами. Впрочем, ни одна из крупных компаний еще не предоставила публичного доступа к своим инструментам распознавания.

Эффективность

  • Эффективность детекторов ИИ зависит от многих факторов, в частности от того, какими инструментами создавался контент и редактировался ли он после генерации.
  • На результаты также влияют данные, на которых обучались сами детекторы. Например, ключевые наборы данных для выявления ИИ-изображений содержат недостаточно снимков людей в полный рост или представителей определенных культур, что заранее ограничивает точность.

Системы на основе водяных знаков могут быть достаточно эффективными, но лишь для обнаружения контента, созданного инструментами той же компании. Например, инструмент SynthID от Google утверждает, что может идентифицировать результаты, сгенерированные моделями Google, например Imagen, но он до сих пор не является общедоступным. Кроме того, он не сработает, если контент был создан с помощью ChatGPT, который не принадлежит Google, поэтому здесь мы имеем проблему совместимости между различными разработчиками.

Как обмануть детекторы?

  • Детекторы ИИ можно обмануть, если сгенерированный результат отредактировать, пишет The Conversation. Например, добавление шума или снижение качества аудиозаписи, созданной с помощью клонирования голоса, может сбить с толку детекторы.
  • То же самое касается и изображений. Наложение зернистости или определенные редактирования в программе вроде Affinity, которая недавно стала бесплатной, может сбить детекторы со следа.

Что не так?

Большой проблемой является отсутствие объяснений: многие детекторы выдают только оценку вероятности, не объясняя, на чем основывается их вывод. Это означает, что детекторы ИИ могут ошибаться, выдавая как ложноположительные результаты (считая человеческий контент машинным), так и ложноотрицательные (считая машинный контент человеческим).

Для пользователей такие ошибки могут иметь разрушительные последствия: например, эссе студента могут отклонить, или же человек может поверить, что получил электронное письмо от реального лица, хотя его написал ИИ. Фактически, это "гонка вооружений", где технологии обнаружения пытаются догнать все более совершенные инструменты генерации.

Поскольку полагаться на один инструмент рискованно, лучше использовать комплексный подход: проверять источники, факты, сравнивать подозрительные изображения с другими и тому подобное.