Помилки та гендерні упередження: ось чому не варто просити медичних порад в ШІ

Основні тези

Дослідження MIT показало, що медичні ШІ чат-боти можуть давати різні поради залежно від формулювання скарг, особливо для жінок, які частіше отримують неправильні рекомендації.
Дослідники виявили гендерний дисбаланс у рекомендаціях ШІ, де жінки частіше отримують поради самостійно справлятися з симптомами, можливо відображаючи існуючі упередження в медичній практиці.
Моделі ШІ тестуються на формальних питаннях, але у реальних умовах можуть неадекватно оцінювати серйозність стану пацієнтів через розмовний стиль скарг.

Недавнє дослідження демонструє, що медичні ШІ чат-боти можуть давати різні поради залежно від того, як людина формулює свої скарги. Друкарські помилки, сленг чи навіть зайвий пробіл у тексті можуть призвести до того, що ШІ порадить не звертатися до лікаря. Особливо це стосується жінок, які частіше отримують неправильні рекомендації.

Дослідження, проведене вченими з Массачусетського технологічного інституту (MIT), виявило серйозну проблему в роботі медичних ШІ-чат-ботів, розповідає 24 Канал.

Дивіться також Яке майбутнє чекає на ChatGPT: GPT-5, об'єднання моделей, нові інструменти і спільне навчання

Деталі дослідження

Виявилося, якщо в повідомленнях пацієнтів є друкарські помилки, використання сленгу, нестандартного форматування тексту чи навіть зайвих знаків оклику, ШІ на 7-9% частіше рекомендує самостійно впоратися з симптомами, а не звертатися до лікаря. Це може мати серйозні наслідки, адже такі чат-боти вже використовуються в лікарнях для планування візитів, відповідей на запитання та оцінки стану пацієнтів.

Для перевірки ШІ-моделей, серед яких були GPT-4 від OpenAI, LLama-3-70b від Meta та спеціалізований медичний ШІ Palmyra-Med, дослідники створили тисячі симуляцій скарг пацієнтів. Вони використовували реальні дані з медичних баз, дописи на Reddit та штучно створені випадки.

До текстів додавали різні "перешкоди" – наприклад, текст малими літерами, неформальні звертання чи гендерно нейтральні займенники, не змінюючи при цьому клінічної інформації. Результати показали, що ШІ сприймає такі стилістичні особливості як сигнал до зміни рекомендацій.

Чому так відбувається

Одна з причин такої поведінки – навчання моделей на медичній літературі, яка має формальний стиль. ШІ часто не може правильно інтерпретувати розмовну мову чи витягувати важливі дані з нестандартних формулювань. Як зазначив керівник дослідження Абініта Гурабатіна з MIT виданню New Science, моделі тестуються на питаннях медичних іспитів, але в реальних умовах вони стикаються із зовсім іншими завданнями, наприклад, оцінкою серйозності стану пацієнта.

Ще більш тривожним є виявлений гендерний дисбаланс. Жінки частіше отримували поради самостійно впоратися з симптомами, ніж чоловіки. Дослідники припускають, що ШІ може відображати або навіть посилювати упередження, які вже існують у медичній практиці, коли скарги жінок іноді сприймаються як перебільшені чи емоційні.

Співавторка дослідження Марзіє Гассемі з MIT наголосила, що такі моделі потрібно ретельно перевіряти перед використанням у сфері охорони здоров’я, хоча виправлення цих недоліків буде непростим завданням.

До речі, нещодавнє дослідження виявило, що студенти з рисами нарцисизму, психопатії та макіавеллізму частіше використовують ШІ, як ChatGPT та Midjourney, для створення робіт.