Подозрения относительно обучения на Gemini

Сэм Печ, разработчик из Мельбурна, который создает оценки "эмоционального интеллекта" для ИИ, опубликовал то, что он считает доказательствами обучения последней модели DeepSeek на исходных данных Gemini. По словам Печа, модель DeepSeek R1-0528 предпочитает слова и выражения, которые похожи на те, что использует Google Gemini 2.5 Pro. Он поделился этими наблюдениями в своей заметке на платформе X, сообщает 24 Канал.

Смотрите также ИИ Обзоры от Google считают, что на дворе все еще 2024 год

Хотя это не является неопровержимым доказательством, другой разработчик, известный как создатель "оценки свободы слова" для ИИ под названием SpeechMap, также отметил, что следы модели DeepSeek – то есть "мысли", которые модель генерирует во время работы над выводом – "читаются как следы Gemini".

DeepSeek уже сталкивался с обвинениями в обучении на данных от конкурирующих моделей ИИ ранее. В декабре разработчики заметили, что модель DeepSeek V3 часто идентифицировала себя как ChatGPT, чат-бот от OpenAI. Это могло свидетельствовать о ее обучении на логах чатов ChatGPT.

В начале этого года OpenAI сообщила изданию Financial Times, что обнаружила доказательства связи DeepSeek с использованием дистилляции. Дистилляция – это техника, которая используется для обучения ИИ-моделей путем извлечения данных из более, мощных моделей. По информации Bloomberg, Microsoft, которая является близким партнером и инвестором OpenAI, в конце 2024 года обнаружила большую утечку данных через аккаунты разработчиков OpenAI. OpenAI считает, что эти аккаунты могли быть связаны с DeepSeek.

Дистилляция не является редкой практикой. Однако условия использования сервисов OpenAI прямо запрещают клиентам использовать исходные данные компании для создания конкурирующих моделей ИИ.

Доказать будет сложно

Доказать использование данных от других моделей в учебных наборах данных стало сложнее из-за "загрязнения", которое является следствием сбора информации из открытого интернета. Открытый веб, который является основным источником данных для обучения ИИ-компаний, все больше наполняется контентом, сгенерированным ИИ. Контент-фермы используют чат-боты для создания кликбейта, а затем наполняют этим такие платформы, как Reddit и X. После этого другие модели ИИ учатся уже на этом сгенерированном контенте, а не на обычных текстах, созданных человеком. Это "загрязнение" затрудняет тщательную фильтрацию исходных данных из учебных наборов.

Несмотря на это, эксперты, такие как Натан Ламберт, исследователь неприбыльного института исследований искусственного интеллекта AI2, считают, что обучение DeepSeek на данных от Google Gemini является очень вероятным. Ламберт отметил в своей заметке на X, что если бы он был разработчиком DeepSeek, он бы "точно создал тонны синтетических данных" с лучшей модели API на рынке. Он объясняет, что DeepSeek "испытывает недостаток в графических процессорах, но имеет много денег". Использование синтетических данных от мощной модели является для них эффективной стратегией.