Документы свидетельствуют, что Meta AI обучали на пиратском контенте
Дело, известное как "Кадри и другие против Meta Platforms", было начато в 2023 году писателями Ричардом Кадри и Кристофером Голденом. Они утверждали, что Meta использовала защищенный авторским правом контент без разрешения. В процессе защиты компания сначала передала суду документы с отредактированной информацией, но судья Винс Чхабрия из Окружного суда Северного округа Калифорнии постановил, что она должна предоставить оригиналы. Когда это произошло, правда наконец раскрылась, сообщает 24 Канал со ссылкой на 9to5Mac.
Смотрите также Meta кардинально меняет модерацию соцсетей, отключает проверку фактов и вводит заметки сообществ
Документы раскрывают разговоры между сотрудниками о Meta AI и Llama. В одном из разговоров инженер говорит, что "торрентирование с корпоративного ноутбука [Meta] кажется неправильным", а это в свою очередь подтверждает, что компания таки использовала пиратский контент для обучения ИИ. В другом разговоре говорится, что "MZ", то есть Марк Цукерберг, дал разрешение на использование пиратских материалов.
Доказательства свидетельствуют, что разработчики использовали контент из LibGen, огромной библиотеки пиратских книг, журналов и научных статей. LibGen создали в России в 2008 году и с тех пор платформа подверглась многочисленным судебным искам за нарушение авторских прав, хотя никто не знает, кто на самом деле управляет этим пиратским хабом. Компания также брала контент из других "теневых библиотек" для обучения ИИ.
Компания утверждает, что использовала публичные материалы в соответствии с правовой доктриной "добросовестного использования", которая позволяет использовать защищенный авторским правом контент без разрешения при определенных обстоятельствах, которые анализируются в каждом конкретном случае. Она также заявила, что это было просто "использование текста для статистического моделирования языка и генерирования оригинальных высказываний".
Пока непонятно, что может грозить Meta, если суд окончательно решит, что компания виновата.
Это не первый случай, когда крупные компании обвиняют в обучении моделей искусственного интеллекта с помощью контента, защищенного авторским правом. В прошлом году расследование показало, что модель OpenELM, созданная Apple, включала субтитры из более чем 170 000 видео на YouTube. Хотя сначала это заставило людей поверить, что Apple использует защищенный авторским правом контент для обучения Apple Intelligence, позже компания объяснила, что OpenELM – это модель с открытым исходным кодом, создана для исследовательских целей, а ее база данных не используется для обучения Apple Intelligence. По словам Apple, функции искусственного интеллекта, доступные на iOS и macOS, тренируются "на лицензированных данных, включая данные, отобранные для улучшения конкретных функций, а также на общедоступных данных", собранных компанией.