Ошибки и гендерные предубеждения: вот почему не стоит просить медицинских советов у ИИ

Основні тези

Исследование MIT показало, что медицинские ИИ чат-боты могут давать разные советы в зависимости от формулировки жалоб, особенно для женщин, которые чаще получают неправильные рекомендации.
Исследователи обнаружили гендерный дисбаланс в рекомендациях ИИ, где женщины чаще получают советы самостоятельно справляться с симптомами, возможно отражая существующие предубеждения в медицинской практике.
Модели ИИ тестируются на формальных вопросах, но в реальных условиях могут неадекватно оценивать серьезность состояния пациентов из-за разговорного стиля жалоб.

Недавнее исследование показывает, что медицинские ИИ чат-боты могут давать разные советы в зависимости от того, как человек формулирует свои жалобы. Опечатки, сленг или даже лишний пробел в тексте могут привести к тому, что ИИ посоветует не обращаться к врачу. Особенно это касается женщин, которые чаще получают неправильные рекомендации.

Исследование, проведенное учеными из Массачусетского технологического института (MIT), выявило серьезную проблему в работе медицинских ИИ-чат-ботов, рассказывает 24 Канал.

Детали исследования

Оказалось, если в сообщениях пациентов есть опечатки, использование сленга, нестандартного форматирования текста или даже лишних восклицательных знаков, ИИ на 7-9% чаще рекомендует самостоятельно справиться с симптомами, а не обращаться к врачу. Это может иметь серьезные последствия, ведь такие чат-боты уже используются в больницах для планирования визитов, ответов на вопросы и оценки состояния пациентов.

Для проверки ИИ-моделей, среди которых были GPT-4 от OpenAI, LLama-3-70b от Meta и специализированный медицинский ИИ Palmyra-Med, исследователи создали тысячи симуляций жалоб пациентов. Они использовали реальные данные из медицинских баз, сообщения на Reddit и искусственно созданные случаи.

К текстам добавляли различные "препятствия" – например, текст строчными буквами, неформальные обращения или гендерно нейтральные местоимения, не меняя при этом клинической информации. Результаты показали, что ИИ воспринимает такие стилистические особенности как сигнал к изменению рекомендаций.

Почему так происходит

Одна из причин такого поведения – обучение моделей на медицинской литературе, которая имеет формальный стиль. ИИ часто не может правильно интерпретировать разговорную речь или извлекать важные данные из нестандартных формулировок. Как отметил руководитель исследования Абинита Гурабатина из MIT изданию New Science, модели тестируются на вопросах медицинских экзаменов, но в реальных условиях они сталкиваются с совсем другими задачами, например, оценкой серьезности состояния пациента.

Еще более тревожным является выявленный гендерный дисбаланс. Женщины чаще получали советы самостоятельно справиться с симптомами, чем мужчины. Исследователи предполагают, что ИИ может отражать или даже усиливать предубеждения, которые уже существуют в медицинской практике, когда жалобы женщин иногда воспринимаются как преувеличенные или эмоциональные.

Соавтор исследования Марзие Гассеми из MIT отметила, что такие модели нужно тщательно проверять перед использованием в сфере здравоохранения, хотя исправление этих недостатков будет непростой задачей.

Кстати, недавнее исследование выявило, что студенты с чертами нарциссизма, психопатии и макиавеллизма чаще используют ИИ, как ChatGPT и Midjourney, для создания работ.