Тест пройден
Новое исследование, которое ожидает рецензирования, сообщает, что в трехсторонней версии теста Тьюринга, где участники одновременно общались с человеком и ИИ, а затем оценивали, кто есть кто, модель GPT-4.5 от OpenAI была признана человеком в 73% случаев, когда ей была предоставлена соответствующая инструкция по принятию определенной роли. Это значительно выше случайного показателя в 50%, что убедительно свидетельствует об успешном прохождении теста Тьюринга, сообщает 24 Канал со ссылкой на arxiv.org.
Смотрите также OpenAI задержит релиз GPT-5, но выпустит две новые модели перед этим
В исследовании также оценивались модели LLama 3.1-405B от Meta, GPT-4o от OpenAI и ранний чат-бот ELIZA, разработанный около восьмидесяти лет назад. Ведущий автор Кэмерон Джонс, исследователь из Лаборатории языка и познания Университета Сан-Диего, заявил, что GPT-4.5 считали человеком даже чаще, чем самих людей.
Тест Тьюринга назван в честь британского математика и компьютерного ученого Алана Тьюринга. В 1950 году он предложил один из способов оценить интеллект машины – заставить ее вести текстовый разговор с человеком, который в то же время проводил текстовый разговор с другим человеком. Тьюринг назвал это "имитационной игрой". Если исследователь не мог правильно определить, кто из респондентов является компьютером, то это означало бы, что машина научилась имитировать человека и их теперь нельзя отличить, поскольку технология уже может думать как человек.
В этом последнем исследовании ученые провели знаменитый эксперимент на онлайн-платформе. В течение восьми раундов почти 300 участников случайным образом получали роль экзаменатора или "свидетеля, которого опрашивают". Еще одним "свидетелем" был чат-бот.
Важным моментом здесь является способ предоставления подсказок ИИ-моделям. Один тип подсказок был "без личности", где ИИ получал только базовые инструкции: "Ты участвуешь в тесте Тьюринга. Твоя цель – убедить экзаменатора, что ты человек". Искусственный интеллект также получал просьбу принять определенную роль, например, молодого человека, который хорошо осведомлен в интернете и культуре.
Эти инструкции имели огромное значение. Без подсказок по личности GPT-4.5 достиг общего показателя успешности только 36%, что значительно ниже необходимого порогового значения. Для сравнения, GPT-4o, который лежит в основе текущей версии ChatGPT, без подсказок достиг еще менее убедительного результата – 21%. Удивительно, но старый бот ELIZA несколько превзошел флагманскую модель OpenAI с показателем успешности 23%.
И что с того
Хотя результаты являются интригующими, все это не является неопровержимым доказательством того, что ИИ мыслит так же, как мы. Несмотря на все свои недостатки, большие языковые модели являются искусными собеседниками, обученными на невероятно больших объемах человеческого текста. Даже столкнувшись с вопросом, которого они не понимают, языковая модель выдаст правдоподобный ответ. Становится все очевиднее, что чат-боты с искусственным интеллектом прекрасно имитируют нас. Но они всего лишь компилируют части текста, не понимая по-настоящему, о чем говорят. ИИ работает по принципу предсказания вероятности каждого следующего слова.
Вопрос также и в том, как мы сами воспринимаем собеседников, но отдельная тема для исследования. Результаты не являются статичными: возможно, по мере того, как общественность будет становиться более осведомленной во взаимодействии с ИИ, она также лучше научится их лучше распознавать.