Исследование, опубликовано в журнале Science, провели специалисты из Гарвардской медицинской школы (Harvard Medical School) и Медицинского центра "Бет Исраэль Диаконесс" (Beth Israel Deaconess Medical Center). Они проверили, как большие языковые модели, в частности модели от OpenAI, справляются с реальными клиническими случаями в отделении неотложной помощи.
Смотрите также Oracle заставила 30000 человек научить ИИ своей работе, а потом уволила их
Действительно ли ИИ уже превосходит врачей?
В рамках эксперимента исследователи проанализировали 76 пациентов, которые обратились в больницу. Диагнозы, сформулированные двумя врачами внутренней медицины, сравнили с выводами моделей o1 и 4o. Оценивание проводили другие врачи, которые не знали, кому принадлежит каждый диагноз – человеку или алгоритму.
Результаты показали, что модель o1 демонстрировала уровень точности не ниже, а иногда и выше врачей. Наиболее заметная разница возникла на этапе первичного осмотра – когда информации о пациенте минимум, а решение нужно принимать быстро.
В частности, в 67% случаев модель o1 давала точный или близкий к правильному диагноз на этапе триажа. Для сравнения, один врач достиг такого результата в 55% случаев, другой – в 50%.
Мы протестировали модель по практически всем показателям, и она превзошла как предыдущие модели, так и наших врачей в контрольной группе,
– отметил Арджун Манраи, руководитель лаборатории ИИ в Гарварде.
Важно, что исследователи не обрабатывали данные перед передачей – ИИ-модели получали ту же информацию, что и врачи из электронных медицинских записей в момент принятия решения. Об этом говорится в пресс-релизе Гарвардской медицинской школы.
Что об этом думают врачи?
Несмотря на впечатляющие результаты, авторы исследования подчеркивают: речь не идет о готовности ИИ самостоятельно принимать критические решения. В работе прямо указано потребность в "срочных перспективных клинических испытаниях", чтобы проверить эти технологии в реальных условиях.
Есть и другие ограничения. Исследование учитывало только текстовую информацию, тогда как в реальной медицине важную роль играют изображения, анализы и другие типы данных. Предыдущие работы показывают, что современные модели пока хуже работают с нетекстовыми источниками.
Врач Адам Родман (Adam Rodman) обратил внимание на еще одну проблему:
Пока не существует четкой системы ответственности за диагнозы ИИ.
Он также отметил, что пациенты все еще хотят, чтобы именно люди сопровождали их в сложных медицинских решениях.
Критическую позицию выразила и врач неотложной помощи Кристен Пантагани (Kristen Panthagani). В тексте на сайте You Can Know Things она назвала исследование интересным, но таким, что привело к "перегретым заголовкам". По ее мнению, сравнение было не совсем корректным, ведь ИИ соревновался с врачами внутренней медицины, а не с профильными врачами экстренной помощи.
Если сравнивать ИИ с врачами, стоит брать именно тех, кто работает в этой специализации,
– объяснила она.
Кроме того, Пантагани отметила, что главная цель врача в приемном отделении – не сразу установить точный диагноз, а определить, есть ли угроза жизни пациента. Это принципиально другой подход, который сложно воспроизвести алгоритмами.
Поэтому если пытаться подвести сухой итог, то хотя исследование демонстрирует значительный прогресс искусственного интеллекта в медицине, но в то же время оно акцентирует внимание на том, что даже лучшие модели пока остаются инструментом, а не заменой врача.
Как люди уже используют ИИ для самодиагностики?
Несмотря на предостережения врачей, чат-боты уже стали для многих пользователей первым "контактом" с медициной. Люди все чаще обращаются к ИИ, чтобы понять симптомы, получить предварительные объяснения или даже определить возможный диагноз.
По данным исследований, примерно 1 из 6 взрослых регулярно использует чат-боты для поиска информации о здоровье, пишет Healthline. Причины очевидны – скорость, бесплатность и ощущение анонимности. ИИ может мгновенно объяснить сложные медицинские термины, помочь подготовиться к визиту к врачу или подсказать, на что обратить внимание между приемами.
Кроме того, аналитики отмечают, что такие инструменты уже используются для расшифровки анализов, понимания назначенного лечения и даже психологической поддержки, пишет Erictopol.
Впрочем, вместе с популярностью растут и риски. Исследования показывают, что ответы чат-ботов могут быть неточными, противоречивыми или не учитывать индивидуальные особенности пациента. В отдельных проверках оказалось, что такие системы могут давать ложные или вводящие в заблуждение медицинские советы почти в половине случаев, пишет Medical Life Science.
Уже есть реальные инциденты. Например, известно о случаях, как сообщало издание Life Science, когда ИИ уверенно предлагал откровенно опасные "лечебные" методы, если запрос был сформулирован как медицинский.
Еще одна проблема – чрезмерное доверие. Пользователи часто не могут отличить ответы врача от ответа ИИ и склонны считать их одинаково надежными, даже когда информация является ложной. Это повышает риск неправильного самолечения или, наоборот, излишней тревоги.
В целом эксперты отмечают: чат-боты могут быть полезными инструментами для общей информации или подготовки к консультации, но они не способны заменить полноценную медицинскую оценку. Они не видят пациента, не анализируют полный набор данных и не несут ответственности за решение.
Поэтому даже если ИИ подсказывает возможный диагноз или варианты лечения, такие советы следует воспринимать лишь как общие ориентиры. Для постановки точного диагноза и выбора лечения необходимо обращаться к квалифицированному врачу.


