На чому базується робота ШІ-детекторів і які їхні слабкі сторони?
Існує кілька підходів до виявлення контенту, створеного штучним інтелектом. Їхня успішність залежить від типу контенту, з яким вони взаємодіють. Наприклад, текстові детектори намагаються знайти характерні мовні патерни, аналізуючи структуру речень, стиль письма та частоту вживання певних слів. З моменту поширення ШІ-інструментів різко зросла популярність таких слів, як "заглиблюється" або "демонструючи". Проте, оскільки мовні моделі постійно вдосконалюються, відмінності між машинним і людським письмом стають все менш помітними, що робить такі інструменти не надто надійними, пише 24 Канал з посиланням на Tech Xplore.
Дивіться також Grokipedia Ілона Маска втратила майже всіх відвідувачів за кілька тижнів
Для детекції зображень іноді аналізують вбудовані метадані, які деякі ШІ-інструменти додають до файлу. Наприклад, інструмент Content Credentials дозволяє відстежити історію редагувань файлу, якщо він створювався у сумісному програмному забезпеченні. Як і у випадку з текстом, зображення можуть порівнювати з базами даних, що містять зразки контенту, згенерованого ШІ.
Деякі розробники також почали додавати до результатів роботи своїх систем приховані водяні знаки – патерни, непомітні для людини, але розпізнавані спеціальними алгоритмами. Втім, жодна з великих компаній ще не надала публічного доступу до своїх інструментів розпізнавання.
Ефективність
- Ефективність детекторів ШІ залежить від багатьох факторів, зокрема від того, якими інструментами створювався контент та чи редагувався він після генерації.
- На результати також впливають дані, на яких навчалися самі детектори. Наприклад, ключові набори даних для виявлення ШІ-зображень містять недостатньо знімків людей на повен зріст або представників певних культур, що заздалегідь обмежує точність.
Системи на основі водяних знаків можуть бути досить ефективними, але лише для виявлення контенту, створеного інструментами тієї ж компанії. Наприклад, інструмент SynthID від Google стверджує, що може ідентифікувати результати, згенеровані моделями Google, як-от Imagen, але він досі не є загальнодоступним. Крім того, він не спрацює, якщо контент було створено за допомогою ChatGPT, який не належить Google, тож тут ми маємо проблему сумісності між різними розробниками.
Як обдурити детектори?
- Детектори ШІ можна обдурити, якщо згенерований результат відредагувати, пише The Conversation. Наприклад, додавання шуму або зниження якості аудіозапису, створеного за допомогою клонування голосу, може збити з пантелику детектори.
- Те ж саме стосується й зображень. Накладання зернистості або певні редагування у програмі на кшталт Affinity, яка нещодавно стала безплатною, може збити детектори зі сліду.
Що не так?
Великою проблемою є відсутність пояснень: багато детекторів видають лише оцінку ймовірності, не пояснюючи, на чому ґрунтується їхній висновок. Це означає, що детектори ШІ можуть помилятися, видаючи як хибнопозитивні результати (вважаючи людський контент машинним), так і хибнонегативні (вважаючи машинний контент людським).
Для користувачів такі помилки можуть мати руйнівні наслідки: наприклад, есе студента можуть відхилити, або ж людина може повірити, що отримала електронного листа від реальної особи, хоча його написав ШІ. Фактично, це "гонка озброєнь", де технології виявлення намагаються наздогнати все більш досконалі інструменти генерації.
Оскільки покладатися на один інструмент ризиковано, краще використовувати комплексний підхід: перевіряти джерела, факти, порівнювати підозрілі зображення з іншими тощо.


