Компания Meta обучала свой ИИ на пиратском контенте, взятом с торрентов

Александр Гайдамашко

Meta загрузила пиратские книги с торрентов, чтобы обучить собственный ИИ

Meta AI / Met

Еще несколько лет назад компанию Марка Цукерберга обвинили в том, что она якобы использовала пиратский контент с торрентов для обучения своей большой языковой модели Llama. В Украине этот ИИ недоступен, но в США его уже давно и активно испытывают местные пользователи. В ходе судебных слушаний вина Meta была доказана. Вот как все было.

Документы свидетельствуют, что Meta AI обучали на пиратском контенте

Дело, известное как "Кадри и другие против Meta Platforms", было начато в 2023 году писателями Ричардом Кадри и Кристофером Голденом. Они утверждали, что Meta использовала защищенный авторским правом контент без разрешения. В процессе защиты компания сначала передала суду документы с отредактированной информацией, но судья Винс Чхабрия из Окружного суда Северного округа Калифорнии постановил, что она должна предоставить оригиналы. Когда это произошло, правда наконец раскрылась, сообщает 24 Канал со ссылкой на 9to5Mac.

Документы раскрывают разговоры между сотрудниками о Meta AI и Llama. В одном из разговоров инженер говорит, что "торрентирование с корпоративного ноутбука [Meta] кажется неправильным", а это в свою очередь подтверждает, что компания таки использовала пиратский контент для обучения ИИ. В другом разговоре говорится, что "MZ", то есть Марк Цукерберг, дал разрешение на использование пиратских материалов.

Доказательства свидетельствуют, что разработчики использовали контент из LibGen, огромной библиотеки пиратских книг, журналов и научных статей. LibGen создали в России в 2008 году и с тех пор платформа подверглась многочисленным судебным искам за нарушение авторских прав, хотя никто не знает, кто на самом деле управляет этим пиратским хабом. Компания также брала контент из других "теневых библиотек" для обучения ИИ.

Компания утверждает, что использовала публичные материалы в соответствии с правовой доктриной "добросовестного использования", которая позволяет использовать защищенный авторским правом контент без разрешения при определенных обстоятельствах, которые анализируются в каждом конкретном случае. Она также заявила, что это было просто "использование текста для статистического моделирования языка и генерирования оригинальных высказываний".

Пока непонятно, что может грозить Meta, если суд окончательно решит, что компания виновата.

Это не первый случай, когда крупные компании обвиняют в обучении моделей искусственного интеллекта с помощью контента, защищенного авторским правом. В прошлом году расследование показало, что модель OpenELM, созданная Apple, включала субтитры из более чем 170 000 видео на YouTube. Хотя сначала это заставило людей поверить, что Apple использует защищенный авторским правом контент для обучения Apple Intelligence, позже компания объяснила, что OpenELM – это модель с открытым исходным кодом, создана для исследовательских целей, а ее база данных не используется для обучения Apple Intelligence. По словам Apple, функции искусственного интеллекта, доступные на iOS и macOS, тренируются "на лицензированных данных, включая данные, отобранные для улучшения конкретных функций, а также на общедоступных данных", собранных компанией.