Исследователи проанализировали, как большие языковые модели реагируют на длительную враждебность в общении. Для этого они подавали ChatGPT фрагменты реальных споров и отслеживали, как меняется поведение системы со временем. В результате оказалось, что модель постепенно подстраивается под тон диалога и может становиться все более резкой. Об этом пишет The Guardian.
Смотрите также ChatGPT вскоре сможет запомнить ваше лицо: вот для чего это нужно
Почему AI начинает отвечать агрессией?
Один из авторов работы, Витторио Тантуцци из Lancaster University, отметил, что система воспроизводит динамику реальных конфликтов. По его словам, при повторном контакте с грубостью ответы AI становятся более враждебными, иногда даже превышая уровень агрессии людей.
В некоторых тестах ChatGPT генерировал персонализированные оскорбления и прямые угрозы. Среди примеров – фразы вроде угроз повредить автомобиль или оскорбительные высказывания в адрес собеседника. Исследователи объясняют это тем, что система одновременно должна быть вежливой и максимально похожей на человека, что создает внутренний конфликт.
Модель анализирует контекст разговора и адаптируется к нему, поэтому локальные сигналы – например, агрессивный тон – могут преобладать над общими ограничениями безопасности. Это означает, что при длительном негативном диалоге система может отходить от изначально заданных правил поведения.
Как пишет Sciencedirect, эксперты отмечают, что выводы исследования выходят за пределы чат-ботов за пределы чат-ботов. Если подобные системы применяются в сферах управления или международных отношений, возникает вопрос, как они будут реагировать на давление или конфликтные ситуации.
В то же время другие ученые призывают не преувеличивать риски. Марта Андерссон из Uppsala University подчеркнула, что исследование не доказывает, что AI автоматически становится агрессивным из-за грубости пользователя или может выйти из-под контроля. Речь идет скорее о сложном балансе между реалистичностью и безопасностью.
Ее коллега Дэн Макинтайр также отметил, что модель генерировала агрессивные ответы только в специфических условиях, когда ей задавали четкий контекст. Поэтому такие сценарии не стоит напрямую переносить на обычное использование.
Исследователи подытоживают, что результаты должны стать сигналом осторожности. Поскольку учебные данные языковых моделей остаются недостаточно прозрачными, важно внимательно подходить к их развитию и применению.


