GPT-4 приблизился к врачам по уровню оценки зрения
Источник:
Financial TimesС развитием языковых моделей растет и заинтересованность в том, какую пользу они могут принести миру. Одно из первых применений, которые рассматривают разработчики и пользователи, помимо оружия, является медицина. Недавнее исследование показало, что GPT от OpenAI демонстрирует почти такое же понимание офтальмологии, как и эксперты в этой области.
Детали
В исследовании, впервые опубликованном в PLOS Digital Health, исследователи протестировали языковые модели GPT-3.5, GPT-4, PaLM 2 от Google и LLaMA от Meta с помощью 87 вопросов с множественным выбором. Пять экспертов-офтальмологов, три офтальмолога-стажера и два неспециализированных младших врача получили такой же экзамен.
Смотрите также Китай создает световые чипы для работы универсального ИИ, умнее человека
Вопросы были взяты из учебника для тестирования студентов-практикантов по всем вопросам – от повышенной чувствительности к физическим поражениям. Содержимое учебника не является общедоступным, поэтому исследователи считают, что языковые модели не могли обучаться на его материалах ранее. ChatGPT, построенный на основе GPT-4 и GPT-3.5, имел три попытки дать окончательный ответ, иначе его попытка обозначалась как нулевая.
- GPT-4 показал лучшие результаты, чем стажеры и младшие врачи, правильно ответив на 60 из 87 вопросов. Хотя это значительно выше, чем средний показатель младших врачей (37 правильных ответов), он лишь немного опередил средний показатель трех стажеров (59,7). В то время как один эксперт-офтальмолог правильно ответил только на 56 вопросов, пятеро других получили в среднем 66,4 правильных ответов, опередив машину.
- GPT-3.5 получил 42 балла.
- PaLM 2 – 49 баллов.
- LLaMa набрала самый низкий балл – 28, что ниже, чем у младших врачей.
Хотя эти результаты имеют потенциальные преимущества, существует также немало рисков и беспокойств. Авторы работы отмечают, что в исследовании было предложено ограниченное количество вопросов, особенно в определенных категориях, а это означает, что фактические результаты могут быть разными.
Языковые модели также имеют склонность к "галлюцинациям" или вымыслам. Одно дело, если это несущественный факт, но ошибочно утверждать о наличии катаракты или рака - совсем другая история. Таким системам часто не хватает нюансов, что создает дополнительные возможности для неточности.