Штучний інтелект Microsoft діагностує складні медичні випадки в чотири рази краще, ніж люди

Основні тези

Microsoft представила систему штучного інтелекту MAI-DxO, яка діагностує складні медичні випадки з точністю 85%, порівняно з 20% у лікарів.
MAI-DxO може взаємодіяти з іншими моделями ШІ, покращуючи їхню продуктивність, і працює в межах бюджетних обмежень, запобігаючи надмірному призначенню тестів.

Компанія Microsoft представила революційну систему штучного інтелекту MAI-DxO, яка демонструє вражаючі результати в діагностиці складних медичних випадків. ШІ правильно визначає діагнози у 85% випадків, тоді як лікарі-практики досягають лише 20% точності.

Прорив у медичній діагностиці

Система Microsoft AI Diagnostic Orchestrator показала неочікувано високі результати під час тестування на складних клінічних випадках, описаних у New England Journal of Medicine (NEJM). Ці медичні кейси відомі своєю діагностичною складністю та інтелектуальною вимогливістю, оскільки зазвичай потребують участі кількох спеціалістів та проведення множинних діагностичних тестів, повідомляє 24 Канал з посиланням на Microsoft.

Дивіться також Anthropic знищила мільйони друкованих книг, щоб створити свої моделі штучного інтелекту Claude

MAI-DxO здатна ставити додаткові запитання, призначати аналізи та встановлювати діагнози. Але її додатковим плюсом є те, що вона може взаємодіяти зі сторонніми моделями ШІ від інших розробників. Зазначається, що нова система значно покращила діагностичну продуктивність усіх протестованих сторонніх моделей, а найкращі результати були досягнуті у поєднанні з o3 від OpenAI.

Використовуючи модель o3, MAI-DxO правильно вирішила 85,5% тестових випадків з NEJM.
Для порівняння, Microsoft залучила 21 практикуючого лікаря зі США та Великої Британії з досвідом роботи від 5 до 20 років. На тих самих завданнях медики показали середню точність лише 20%.

Для подальшої оцінки можливостей Microsoft розробила особливий тест під назвою Sequential Diagnosis Benchmark (SD Bench) – спеціальне випробування для ШІ, котре перетворює 304 випадки, описані в NEJM, у поетапні діагностичні сценарії. Моделі можуть ставити запитання та призначати обстеження, оновлюючи свої висновки в міру надходження нової інформації.

Крім діагностичних функцій, система може працювати в межах визначених бюджетних обмежень, запобігаючи надмірному призначенню тестів.

Microsoft вбачає потенціал цих інструментів у кардинальній трансформації охорони здоров'я, даючи пацієнтам можливість самостійно управляти рутинними аспектами лікування та забезпечуючи лікарів передовою підтримкою прийняття рішень у складних випадках.

Попри багатообіцяючі результати, дослідження є лише першим кроком. Перед безпечним впровадженням генеративного ШІ в медичну практику необхідно зібрати додаткові докази з реальних клінічних середовищ. Також потрібні відповідні системи управління та регуляторні рамки для забезпечення надійності й безпеки моделей. Для досягнення цих цілей Microsoft співпрацює з медичними організаціями для тестування та валідації підходів перед широким впровадженням.