Як пояснюють дослідники в статті, яка зараз проходить рецензування, ШІ-модель під назвою MinD-Video, була "навчена" на загальнодоступних даних фМРТ (зокрема, на даних, отриманих у випадках, коли людині показували відео під час запису її мозкової активності) і на розширеній моделі ШІ-генератора зображень Stable Diffusion.

Цікаво Штучний інтелект навчили читати думки та відтворювати їх у тексті без імплантування в мозок

Результати

Використовуючи це поєднання, дослідники змогли створити "високоякісні" реконструкції відео, які перед цим показували учасникам експерименту. Для цього вони зчитували дані мозкової активності в момент перегляду.

За словами авторів, їхня модель змогла реконструювати ці відео з середньою точністю 85% на основі "різних семантичних і піксельних метрик".

Оригінал і реконструкція
Оригінал і реконструкція / Фото Chen

Розуміння інформації, прихованої в нашій складній мозковій діяльності, є великою загадкою в когнітивній нейронауці. Ми показуємо, що високоякісні відео з довільною частотою кадрів можуть бути реконструйовані за допомогою Mind-Video,
– йдеться в статті.

Ця робота ґрунтується на попередніх спробах дослідників використовувати ШІ для відтворення зображень, аналізуючи лише мозкові хвилі. Нові відеорендеринги ШІ, в цілому, досить вражаючі, хоча й не є повністю точними. На нинішньому етапі розвитку технології вона дає змогу вловити основну суть того, що бачить людина, але не передає всіх деталей. Кілька порівнянь оригінальних і "реконструйованих" відео можна знайти на вебсайті дослідників.

  • Відео з медузою технологія інтерпретувала в кліп, де плаває риба.
  • Так само рибу можна побачити замість відео з черепахою.
  • Відео з натовпом людей, які йдуть жвавою вулицею, перетворилося на таку ж багатолюдну сцену, але зі значно більш яскравими кольорами.

Хоча ці дослідження захоплюють, ми все ще далекі від майбутнього, в якому зможемо надіти шолом і отримати ідеально точний відеопотік, згенерований штучним інтелектом, про все, що відбувається навколо нас.