Исследование, опубликовано в журнале Science, провели специалисты из Гарвардской медицинской школы (Harvard Medical School) и Медицинского центра "Бет Исраэль Диаконесс" (Beth Israel Deaconess Medical Center). Они проверили, как большие языковые модели, в частности модели от OpenAI, справляются с реальными клиническими случаями в отделении неотложной помощи.

Смотрите также Oracle заставила 30000 человек научить ИИ своей работе, а потом уволила их

Действительно ли ИИ уже превосходит врачей?

В рамках эксперимента исследователи проанализировали 76 пациентов, которые обратились в больницу. Диагнозы, сформулированные двумя врачами внутренней медицины, сравнили с выводами моделей o1 и 4o. Оценивание проводили другие врачи, которые не знали, кому принадлежит каждый диагноз – человеку или алгоритму.

Результаты показали, что модель o1 демонстрировала уровень точности не ниже, а иногда и выше врачей. Наиболее заметная разница возникла на этапе первичного осмотра – когда информации о пациенте минимум, а решение нужно принимать быстро.

В частности, в 67% случаев модель o1 давала точный или близкий к правильному диагноз на этапе триажа. Для сравнения, один врач достиг такого результата в 55% случаев, другой – в 50%.

Мы протестировали модель по практически всем показателям, и она превзошла как предыдущие модели, так и наших врачей в контрольной группе,
– отметил Арджун Манраи, руководитель лаборатории ИИ в Гарварде.

Важно, что исследователи не обрабатывали данные перед передачей – ИИ-модели получали ту же информацию, что и врачи из электронных медицинских записей в момент принятия решения. Об этом говорится в пресс-релизе Гарвардской медицинской школы.

Что об этом думают врачи?

Несмотря на впечатляющие результаты, авторы исследования подчеркивают: речь не идет о готовности ИИ самостоятельно принимать критические решения. В работе прямо указано потребность в "срочных перспективных клинических испытаниях", чтобы проверить эти технологии в реальных условиях.

Есть и другие ограничения. Исследование учитывало только текстовую информацию, тогда как в реальной медицине важную роль играют изображения, анализы и другие типы данных. Предыдущие работы показывают, что современные модели пока хуже работают с нетекстовыми источниками.

Врач Адам Родман (Adam Rodman) обратил внимание на еще одну проблему:

Пока не существует четкой системы ответственности за диагнозы ИИ.

Он также отметил, что пациенты все еще хотят, чтобы именно люди сопровождали их в сложных медицинских решениях.

Критическую позицию выразила и врач неотложной помощи Кристен Пантагани (Kristen Panthagani). В тексте на сайте You Can Know Things она назвала исследование интересным, но таким, что привело к "перегретым заголовкам". По ее мнению, сравнение было не совсем корректным, ведь ИИ соревновался с врачами внутренней медицины, а не с профильными врачами экстренной помощи.

Если сравнивать ИИ с врачами, стоит брать именно тех, кто работает в этой специализации,
– объяснила она.

Кроме того, Пантагани отметила, что главная цель врача в приемном отделении – не сразу установить точный диагноз, а определить, есть ли угроза жизни пациента. Это принципиально другой подход, который сложно воспроизвести алгоритмами.

Поэтому если пытаться подвести сухой итог, то хотя исследование демонстрирует значительный прогресс искусственного интеллекта в медицине, но в то же время оно акцентирует внимание на том, что даже лучшие модели пока остаются инструментом, а не заменой врача.

Как люди уже используют ИИ для самодиагностики?

Несмотря на предостережения врачей, чат-боты уже стали для многих пользователей первым "контактом" с медициной. Люди все чаще обращаются к ИИ, чтобы понять симптомы, получить предварительные объяснения или даже определить возможный диагноз.

По данным исследований, примерно 1 из 6 взрослых регулярно использует чат-боты для поиска информации о здоровье, пишет Healthline. Причины очевидны – скорость, бесплатность и ощущение анонимности. ИИ может мгновенно объяснить сложные медицинские термины, помочь подготовиться к визиту к врачу или подсказать, на что обратить внимание между приемами.

Кроме того, аналитики отмечают, что такие инструменты уже используются для расшифровки анализов, понимания назначенного лечения и даже психологической поддержки, пишет Erictopol.

Впрочем, вместе с популярностью растут и риски. Исследования показывают, что ответы чат-ботов могут быть неточными, противоречивыми или не учитывать индивидуальные особенности пациента. В отдельных проверках оказалось, что такие системы могут давать ложные или вводящие в заблуждение медицинские советы почти в половине случаев, пишет Medical Life Science.

Уже есть реальные инциденты. Например, известно о случаях, как сообщало издание Life Science, когда ИИ уверенно предлагал откровенно опасные "лечебные" методы, если запрос был сформулирован как медицинский.

Еще одна проблема – чрезмерное доверие. Пользователи часто не могут отличить ответы врача от ответа ИИ и склонны считать их одинаково надежными, даже когда информация является ложной. Это повышает риск неправильного самолечения или, наоборот, излишней тревоги.

В целом эксперты отмечают: чат-боты могут быть полезными инструментами для общей информации или подготовки к консультации, но они не способны заменить полноценную медицинскую оценку. Они не видят пациента, не анализируют полный набор данных и не несут ответственности за решение.

Поэтому даже если ИИ подсказывает возможный диагноз или варианты лечения, такие советы следует воспринимать лишь как общие ориентиры. Для постановки точного диагноза и выбора лечения необходимо обращаться к квалифицированному врачу.