GPT-4 приблизился к врачам по уровню оценки зрения

19 апреля 2024, 11:01
Читати новину українською

Источник:

Financial Times

С развитием языковых моделей растет и заинтересованность в том, какую пользу они могут принести миру. Одно из первых применений, которые рассматривают разработчики и пользователи, помимо оружия, является медицина. Недавнее исследование показало, что GPT от OpenAI демонстрирует почти такое же понимание офтальмологии, как и эксперты в этой области.

Детали

В исследовании, впервые опубликованном в PLOS Digital Health, исследователи протестировали языковые модели GPT-3.5, GPT-4, PaLM 2 от Google и LLaMA от Meta с помощью 87 вопросов с множественным выбором. Пять экспертов-офтальмологов, три офтальмолога-стажера и два неспециализированных младших врача получили такой же экзамен.

Смотрите также Китай создает световые чипы для работы универсального ИИ, умнее человека

Вопросы были взяты из учебника для тестирования студентов-практикантов по всем вопросам – от повышенной чувствительности к физическим поражениям. Содержимое учебника не является общедоступным, поэтому исследователи считают, что языковые модели не могли обучаться на его материалах ранее. ChatGPT, построенный на основе GPT-4 и GPT-3.5, имел три попытки дать окончательный ответ, иначе его попытка обозначалась как нулевая.

  • GPT-4 показал лучшие результаты, чем стажеры и младшие врачи, правильно ответив на 60 из 87 вопросов. Хотя это значительно выше, чем средний показатель младших врачей (37 правильных ответов), он лишь немного опередил средний показатель трех стажеров (59,7). В то время как один эксперт-офтальмолог правильно ответил только на 56 вопросов, пятеро других получили в среднем 66,4 правильных ответов, опередив машину.
  • GPT-3.5 получил 42 балла.
  • PaLM 2 – 49 баллов.
  • LLaMa набрала самый низкий балл – 28, что ниже, чем у младших врачей.

Стоит отметить, что эти испытания проводились летом 2023 года, поэтому с тех пор все языковые модели могли улучшить свои способности. Как минимум стоит отметить, что Google выпустила Gemini, которая работает на нескольких уровнях мощности с разным количеством учебных параметров.

Хотя эти результаты имеют потенциальные преимущества, существует также немало рисков и беспокойств. Авторы работы отмечают, что в исследовании было предложено ограниченное количество вопросов, особенно в определенных категориях, а это означает, что фактические результаты могут быть разными.

Языковые модели также имеют склонность к "галлюцинациям" или вымыслам. Одно дело, если это несущественный факт, но ошибочно утверждать о наличии катаракты или рака - совсем другая история. Таким системам часто не хватает нюансов, что создает дополнительные возможности для неточности.