Документи свідчать, що Meta AI навчали на піратському контенті

Справа, відома як "Кадрі та інші проти Meta Platforms", була започаткована у 2023 році письменниками Річардом Кадрі та Крістофером Голденом. Вони стверджували, що Meta використовувала захищений авторським правом контент без дозволу. У процесі захисту компанія спочатку передала суду документи з відредагованою інформацією, але суддя Вінс Чхабрія з Окружного суду Північного округу Каліфорнії постановив, що вона повинна надати оригінали. Коли це сталося, правда нарешті розкрилася, повідомляє 24 Канал з посиланням на 9to5Mac.

Дивіться також Meta кардинально міняє модерацію соцмереж, відключає перевірку фактів і вводить нотатки спільнот

Документи розкривають розмови між співробітниками про Meta AI та Llama. В одній з розмов інженер каже, що "торрентування з корпоративного ноутбука [Meta] здається неправильним", а це своєю чергою підтверджує, що компанія таки використовувала піратський контент для навчання ШІ. В іншій розмові йдеться про те, що "MZ", тобто Марк Цукерберг, дав дозвіл на використання піратських матеріалів.

Докази свідчать про те, що розробники використовували контент з LibGen, величезної бібліотеки піратських книг, журналів і наукових статей. LibGen створили у Росії в 2008 році й з того часу платформа зазнала численних судових позовів за порушення авторських прав, хоча ніхто не знає, хто насправді керує цим піратським хабом. Компанія також брала контент з інших "тіньових бібліотек" для навчання ШІ.

Google Не покладайтесь на випадок у стрічці Додайте 24 Канал у вибрані в Google Додати

Компанія стверджує, що використовувала публічні матеріали відповідно до правової доктрини "добросовісного використання", яка дозволяє використовувати захищений авторським правом контент без дозволу за певних обставин, які аналізуються в кожному конкретному випадку. Вона також заявила, що це було просто "використання тексту для статистичного моделювання мови й генерування оригінальних висловлювань".

Поки що незрозуміло, що може загрожувати Meta, якщо суд остаточно вирішить, що компанія винна.

Це не перший випадок, коли великі компанії звинувачують у навчанні моделей штучного інтелекту за допомогою контенту, захищеного авторським правом. Торік розслідування показало, що модель OpenELM, створена Apple, включала субтитри з більш ніж 170 000 відео на YouTube. Хоча спочатку це змусило людей повірити, що Apple використовує захищений авторським правом контент для навчання Apple Intelligence, пізніше компанія пояснила, що OpenELM – це модель з відкритим вихідним кодом, створена для дослідницьких цілей, а її база даних не використовується для навчання Apple Intelligence. За словами Apple, функції штучного інтелекту, доступні на iOS і macOS, тренуються "на ліцензованих даних, включаючи дані, відібрані для поліпшення конкретних функцій, а також на загальнодоступних даних", зібраних компанією.