ИИ не способен адекватно оценивать тексты, написанные человеком — исследование ученых из Кембриджа

Александр Гайдамашко

Искусственный интеллект не умеет оценивать тексты, людей, ибо обращает внимание не на детали

Иллюзия интеллекта: почему алгоритмы ИИ пока не способны объективно оценивать человека / Коллаж 24 Канала/Unsplash

Ученые поручили нескольким моделям искусственного интеллекта проверить сотни студенческих работ, чтобы выяснить их способность адекватно оценивать тексты, написанные людьми. Это потенциально могло бы освободить больше времени для преподавателей и учителей. Но результаты оказались довольно неожиданными. Как выяснилось, алгоритмы испытывают серьезные трудности с объективным анализом.

Как сообщает научный портал Phys.org, ученые обнаружили странную закономерность в том, как именно машины начисляют баллы и на что они обращают внимание в первую очередь. И это плохие новости для тех, кого уже оценивает искусственный интеллект.

Алгоритм vs человек: кто побеждает

Современное высшее образование все чаще сталкивается с вызовами, которые приносят новейшие технологии. Стремясь упростить и автоматизировать процесс проверки знаний, ученые решили протестировать возможности современных технологий в роли экзаменаторов.

Команда психологов и экспертов по искусственному интеллекту под руководством Кембриджского университета провела масштабное исследование, результаты которого изложены в отчете OpRaise под названием "ИИ в университетском оценивании: оценка возможностей и рисков автоматизированной маркировки".

Исследователи протестировали три передовые системы, включая последние версии Claude, ChatGPT (GPT–5.4) и Gemini 3 Flash, на базе 761 эссе студентов-психологов из трех университетов Великобритании – Кембриджского, Ноттингемского и Университета Манчестер Метрополитен.

Результаты оказались неутешительными:

ИИ совпадал с оценками преподавателей только в 35 – 65% случаев.
Самую высокую точность зафиксировали в Кембридже (63%).
В Манчестер Метрополитен она упала до критических 35%.

Основной проблемой стала так называемая "предвзятость центральной тенденции". Алгоритмы склонны ставить "средние" баллы всем подряд, искусственно завышая оценки слабым студентам и существенно занижая их лучшим. Например, эссе, которое человек оценил на 75 баллов (крепкое "отлично"), ИИ обычно оценивал на несколько пунктов ниже, а работу на 50 баллов ("удовлетворительно") – на несколько пунктов выше.

Мы обнаружили, что большая зависимость от лучших современных моделей ИИ приведет к гомогенизации оценивания студентов, недооценки гениальности и предпочтение лингвистическому стилю над сутью здорового академического суждения,
– прокомментировала доктор Дебора Талми, психолог из Кембриджа, которая возглавляет проект OpRaise.

Соавтор исследования, доктор Александру Маркочи из Кембриджского института технологий и человечества, добавил: "ИИ назначает средние баллы всем работам, что приводит к особенно неточному оцениванию лучших и худших эссе". По его словам, ИИ демонстрирует наименьшую точность именно там, где решение об оценке является наиболее важным – на границе между различными классами дипломов или между проходным и непроходным баллом.

У NORDIS переконані: комфорт не має шкодити довкіллю. Тому кондиціонери бренду створені за простим принципом – поєднання простоти, екологічності та інженерної точності. Сталий розвиток – не тренд, а основа діяльності компанії зі Скандинавії.

Что оказалось важнее для ИИ

Одним из ключевых недостатков ИИ стала его чрезмерная чувствительность к лингвистическим особенностям текста. В отличие от людей, алгоритмы начисляли высшие баллы за длину эссе, широту словарного запаса и сложность предложений, игнорируя реальную научную ценность работы. По обратной связи, то ИИ генерировал комментарии в 3 – 8 раз длиннее человеческих, однако они не всегда были полезными с образовательной точки зрения.

Кроме технических аспектов, исследование подчеркнуло важность "социального контракта" между преподавателем и студентом. Многие студенты отметили, что чувствовали бы обманутыми, если бы их работу проверяла машина:

Многие студенты сказали, что чувствовали бы себя обманутыми, если бы ИИ оценивал их работу, а персонал предупредил, что возложение на ИИ рискует ослабить доверие, мотивацию, профессиональные суждения и человеческое взаимодействие, которое лежит в основе высшего образования,
– отметила доктор Яэль Бенн, соавтор проекта из Университета Манчестер Метрополитен.

Несмотря на недостатки, исследователи видят потенциал ИИ как "второй пары глаз" для выявления ошибок, проверки согласованности или сортировки работ, требующих дополнительного внимания человека. Однако финальное слово всегда должно оставаться за преподавателем.

Почему это важно

Для науки и разработчиков ИИ эти результаты являются четким сигналом: языковые модели требуют усовершенствования не только в плане генерации текста, но и в понимании контекста, логики и фактической точности. Пока этого не произойдет, роль преподавателя-человека в университетах будет оставаться незаменимой, а ИИ может выступать разве что вспомогательным инструментом, но ни в коем случае не окончательным судьей.