Microsoft перевіряє, чи не вкрала DeepSeek дані OpenAI для навчання свого ШІ

Основні тези

Microsoft ще з осені розслідує підозри щодо несанкціонованого використання даних OpenAI китайською компанією DeepSeek для навчання свого ШІ.
DeepSeek, можливо, отримала доступ до даних OpenAI через API, що порушує умови надання послуг OpenAI і може бути віднесене до витоку даних.

Китайський штучний інтелект від компанії DeepSeek зумів створити неабиякий галас і залишається в центрі уваги й досі. Він швидко піднявся на вершину чартів App Store і сколихнув фінансовий ринок. Модель R1 особливо привернула увагу, а глава OpenAI навіть похвалив її, назвавши "вражаючою". Проте існує припущення, що DeepSeek схитрувала й, можливо, вкрала розробки самої OpenAI.

Microsoft розслідує, чи не були дані DeepSeek отримані несанкціонованим способом

Модель штучного інтелекту з відкритим вихідним кодом під назвою R1, яка імітує людське мислення, захопила ринок ШІ в США, де завжди домінували OpenAI, Google та Meta. Попри те, що модель була розроблена за значно менші гроші – 6 мільйонів доларів у DeepSeek проти 100 мільйонів доларів у конкурентів, – вона все одно якимось чином перевершує великих технологічних гігантів, загрожуючи їхньому бізнесу, повідомляє 24 Канал з посиланням на Bloomberg.

Дивіться також Meta розбере на атоми китайський ШІ від DeepSeek, щоб зрозуміти, як він усіх перевершує

Тому Microsoft разом із OpenAI взялися з'ясовувати, чи мала DeepSeek доступ до даних OpenAI. Насправді як пише джерело, все почалося ще восени, коли дослідники безпеки Microsoft виявили, що особи, пов'язані з китайським стартапом, витягли значний обсяг даних через API OpenAI. Хоча розробники можуть платити за ліцензію, щоб використовувати моделі OpenAI та інтегрувати їх у свої програми, така діяльність порушує умови надання послуг OpenAI і потенційно може бути віднесена до категорії витоку даних.

Оскільки Microsoft є ключовим технологічним партнером і найбільшим інвестором OpenAI, вона повідомила розробника ChatGPT про підозрілу активність, яка може бути спробою обійти обмеження на обсяг даних, до яких можна отримати доступ, і в цьому випадку є явним порушенням.

Поки що ні OpenAI, ні Microsoft не зробили офіційних заяв щодо розслідування, яке триває. Якщо це виявиться правдою, то може стати проблемою для нового сервісу, і стрімкий успіх компанії, особливо в американському ШІ-просторі, може похитнутися.

В мережі багато іронізують з цього приводу, зазначаючи, що сама OpenAI крала ліцензовані дані, щоб навчити свій ШІ – книги, журнали, публікації в інтернеті, роботи художників та інші матеріали. Тепер же вона обурюється, що хтось украв крадене.

Нагадаємо, вчора OpenAI також прямо звинуватила DeepSeek несанкціонованому використанні даних та методі "дистиляції" для навчання своїх ШІ-моделей. Дистиляція – це процес, під час якого одна модель штучного інтелекту багаторазово ставить запитання іншій, щоб навчитися на її відповідях. Це також порушує умови використання продуктів OpenAI.