ШІ не здатен адекватно оцінювати тексти, написані людиною – дослідження вчених Кембриджа

Штучний інтелект не вміє оцінювати людські тексти, оскільки звертає увагу на хибні речі

Ілюзія інтелекту: чому алгоритми ШІ поки не здатні справедливо оцінювати людину / Колаж 24 Каналу/Unsplash

Науковці доручили кільком моделям штучного інтелекту перевірити сотні студентських робіт, щоб з'ясувати їхню здатність адекватно оцінювати людські тексти. Це потенційно могло б вивільнити більше часу для викладачів і вчителів. Але результати виявилися досить несподіваними. Як з'ясувалося, алгоритми мають серйозні труднощі з об'єктивним аналізом.

Як повідомляє науковий портал Phys.org, учені виявили дивну закономірність у тому, як саме машини нараховують бали та на що вони звертають увагу насамперед. І це погані новини для тих, кого вже оцінює штучний інтелект.

Дивіться також Жодної живої душі: місцева газета у США виявилась штучним інтелектом, що імітував журналістів

Алгоритм vs людина: хто перемагає

Сучасна вища освіта все частіше стикається з викликами, які приносять новітні технології. Прагнучи спростити та автоматизувати процес перевірки знань, науковці вирішили протестувати можливості сучасних технологій у ролі екзаменаторів.

Команда психологів та експертів зі штучного інтелекту під керівництвом Кембриджського університету провела масштабне дослідження, результати якого викладені у звіті OpRaise під назвою "ШІ в університетському оцінюванні: оцінка можливостей та ризиків автоматизованого маркування".

Дослідники протестували три передові системи, включаючи останні версії Claude, ChatGPT (GPT–5.4) та Gemini 3 Flash, на базі 761 есе студентів-психологів із трьох університетів Великої Британії – Кембриджського, Ноттінгемського та Університету Манчестер Метрополітен.

Результати виявилися невтішними:

ШІ збігався з оцінками викладачів лише у 35 – 65% випадків.
Найвищу точність зафіксували в Кембриджі (63%).
У Манчестер Метрополітен вона впала до критичних 35%.

Основною проблемою стала так звана "упередженість центральної тенденції". Алгоритми схильні ставити "середні" бали всім підряд, штучно завищуючи оцінки слабким студентам і суттєво занижуючи їх найкращим. Наприклад, есе, яке людина оцінила на 75 балів (міцне "відмінно"), ШІ зазвичай оцінював на кілька пунктів нижче, а роботу на 50 балів ("задовільно") – на кілька пунктів вище.

Ми виявили, що велика залежність від найкращих сучасних моделей ШІ призведе до гомогенізації оцінювання студентів, недооцінки геніальності та надання переваги лінгвістичному стилю над суттю здорового академічного судження,
– прокоментувала доктор Дебора Талмі, психолог із Кембриджу, яка очолює проєкт OpRaise.

Співавтор дослідження, доктор Александру Маркочі з Кембриджського інституту технологій і людства, додав: "ШІ призначає середні бали всім роботам, що призводить до особливо неточного оцінювання найкращих і найгірших есе". За його словами, ШІ демонструє найменшу точність саме там, де рішення про оцінку є найбільш важливим – на межі між різними класами дипломів або між прохідним і непрохідним балом.

У NORDIS переконані: комфорт не має шкодити довкіллю. Тому кондиціонери бренду створені за простим принципом – поєднання простоти, екологічності та інженерної точності. Сталий розвиток – не тренд, а основа діяльності компанії зі Скандинавії.

Що виявилось важливішим для ШІ

Одним із ключових недоліків ШІ стала його надмірна чутливість до лінгвістичних особливостей тексту. На відміну від людей, алгоритми нараховували вищі бали за довжину есе, широту словникового запасу та складність речень, ігноруючи реальну наукову цінність роботи. Щодо зворотного зв'язку, то ШІ генерував коментарі у 3 – 8 разів довші за людські, проте вони не завжди були корисними з освітньої точки зору.

Крім технічних аспектів, дослідження підкреслило важливість "соціального контракту" між викладачем і студентом. Багато студентів зазначили, що почувалися б ошуканими, якби їхню працю перевіряла машина:

Багато студентів сказали, що почувалися б обдуреними, якби ШІ оцінював їхню роботу, а персонал попередив, що покладання на ШІ ризикує послабити довіру, мотивацію, професійні судження та людську взаємодію, яка лежить в основі вищої освіти,
– зазначила докторка Яель Бенн, співавторка проєкту з Університету Манчестер Метрополітен.

Попри недоліки, дослідники бачать потенціал ШІ як "другої пари очей" для виявлення помилок, перевірки узгодженості або сортування робіт, що потребують додаткової уваги людини. Однак фінальне слово завжди має залишатися за викладачем.

Чому це важливо

Для науки та розробників ШІ ці результати є чітким сигналом: мовні моделі потребують удосконалення не лише в плані генерації тексту, а й у розумінні контексту, логіки та фактичної точності. Поки цього не станеться, роль викладача-людини в університетах залишатиметься незамінною, а ШІ може виступати хіба що допоміжним інструментом, але в жодному разі не остаточним суддею.