Укр Рус
4 червня, 12:01
3

Здається, DeepSeek пограбував Google Gemini, щоб навчити свою найновішу ШІ-модель

Основні тези
  • Китайська лабораторія DeepSeek випустила ШІ-модель R1-0528, яка підозрюється у навчанні на даних Google Gemini.
  • Раніше DeepSeek звинувачували у використанні дистиляції для навчання на даних конкуруючих моделей, включаючи OpenAI.
DeepSeek може використовувати дані Google Gemini для навчання свого ШІ DeepSeek може використовувати дані Google Gemini для навчання свого ШІ

Китайська лабораторія DeepSeek нещодавно випустила оновлену версію своєї ШІ-моделі R1 під назвою R1-0528, яка демонструє високі показники на тестах з математики та кодування. Хоча джерело даних, використаних для навчання моделі, не було розкрито, деякі дослідники у сфері штучного інтелекту припускають, що принаймні частина цих даних могла походити від Google Gemini.

Підозри щодо навчання на Gemini

Сем Печ, розробник з Мельбурна, який створює оцінки "емоційного інтелекту" для ШІ, опублікував те, що він вважає доказами навчання останньої моделі DeepSeek на вихідних даних Gemini. За словами Печа, модель DeepSeek R1-0528 надає перевагу словам і виразам, які схожі на ті, що використовує Google Gemini 2.5 Pro. Він поділився цими спостереженнями у своєму дописі на платформі X, повідомляє 24 Канал.

Дивіться також ШІ Огляди від Google вважають, що на дворі все ще 2024 рік 

Хоча це не є неспростовним доказом, інший розробник, відомий як творець "оцінки свободи слова" для ШІ під назвою SpeechMap, також зазначив, що сліди моделі DeepSeek – тобто "думки", які модель генерує під час роботи над висновком – "читаються як сліди Gemini".

DeepSeek уже стикався зі звинуваченнями у навчанні на даних від конкуруючих моделей ШІ раніше. У грудні розробники помітили, що модель DeepSeek V3 часто ідентифікувала себе як ChatGPT, чат-бот від OpenAI. Це могло свідчити про її навчання на логах чатів ChatGPT.

На початку цього року OpenAI повідомила виданню Financial Times, що виявила докази зв'язку DeepSeek з використанням дистиляції. Дистиляція — це техніка, яка використовується для навчання ШІ-моделей шляхом вилучення даних з більших, більш потужних моделей. За інформацією Bloomberg, Microsoft, яка є близьким партнером та інвестором OpenAI, наприкінці 2024 року виявила великий витік даних через акаунти розробників OpenAI. OpenAI вважає, що ці акаунти могли бути пов'язані з DeepSeek.

Дистиляція не є рідкісною практикою. Однак, умови використання сервісів OpenAI прямо забороняють клієнтам використовувати вихідні дані компанії для створення конкуруючих моделей ШІ.

Довести буде складно

Довести використання даних від інших моделей у навчальних наборах даних стало складнішим через "забруднення", яке є наслідком збору інформації з відкритого інтернету. Відкритий веб, який є основним джерелом даних для навчання ШІ-компаній, дедалі більше наповнюється контентом, згенерованим ШІ. Контент-ферми використовують чат-боти для створення клікбейту, а потім наповнюють цим такі платформи, як Reddit та X. Після цього інші моделі ШІ вчаться вже на цьому згенерованому контенті, а не на звичайних текстах, створених людиною. Це "забруднення" ускладнює ретельну фільтрацію вихідних даних з навчальних наборів.

Попри це, експерти, такі як Натан Ламберт, дослідник неприбуткового інституту досліджень штучного інтелекту AI2, вважають, що навчання DeepSeek на даних від Google Gemini є дуже ймовірним. Ламберт зазначив у своєму дописі на X, що якби він був розробником DeepSeek, він би "точно створив тонни синтетичних даних" з найкращої моделі API на ринку. Він пояснює, що DeepSeek "відчуває нестачу в графічних процесорах, але має багато грошей". Використання синтетичних даних від потужної моделі є для них ефективною стратегією.