Компанія Meta навчала свій ШІ на піратському контенті, взятому з торрентів

Олександр Гайдамашко

Основні тези

Meta звинуватили у використанні піратського контенту з торрентів для навчання ШІ Llama.
Тепер це не просто звинувачення, а було підтверджено в ході судового розслідування.
Документи свідчать, що Meta використовувала контент з LibGen та інших "тіньових бібліотек", але компанія заявляє про "добросовісне використання" для статистичного моделювання.

Meta завантажила піратські книги з торрентів, щоб навчити власний ШІ

Meta AI / Met

Ще кілька років тому компанію Марка Цукерберга звинуватили в тому, що вона нібито використовувала піратський контент з торрентів для навчання своєї великої мовної моделі Llama. В Україні цей ШІ недоступний, але у США його вже давно й активно випробовують місцеві користувачі. Під час судових слухань провину Meta було доведено. Ось як усе було.

Документи свідчать, що Meta AI навчали на піратському контенті

Справа, відома як "Кадрі та інші проти Meta Platforms", була започаткована у 2023 році письменниками Річардом Кадрі та Крістофером Голденом. Вони стверджували, що Meta використовувала захищений авторським правом контент без дозволу. У процесі захисту компанія спочатку передала суду документи з відредагованою інформацією, але суддя Вінс Чхабрія з Окружного суду Північного округу Каліфорнії постановив, що вона повинна надати оригінали. Коли це сталося, правда нарешті розкрилася, повідомляє 24 Канал з посиланням на 9to5Mac.

Дивіться також Meta кардинально міняє модерацію соцмереж, відключає перевірку фактів і вводить нотатки спільнот

Документи розкривають розмови між співробітниками про Meta AI та Llama. В одній з розмов інженер каже, що "торрентування з корпоративного ноутбука [Meta] здається неправильним", а це своєю чергою підтверджує, що компанія таки використовувала піратський контент для навчання ШІ. В іншій розмові йдеться про те, що "MZ", тобто Марк Цукерберг, дав дозвіл на використання піратських матеріалів.

Докази свідчать про те, що розробники використовували контент з LibGen, величезної бібліотеки піратських книг, журналів і наукових статей. LibGen створили у Росії в 2008 році й з того часу платформа зазнала численних судових позовів за порушення авторських прав, хоча ніхто не знає, хто насправді керує цим піратським хабом. Компанія також брала контент з інших "тіньових бібліотек" для навчання ШІ.

Компанія стверджує, що використовувала публічні матеріали відповідно до правової доктрини "добросовісного використання", яка дозволяє використовувати захищений авторським правом контент без дозволу за певних обставин, які аналізуються в кожному конкретному випадку. Вона також заявила, що це було просто "використання тексту для статистичного моделювання мови й генерування оригінальних висловлювань".

Поки що незрозуміло, що може загрожувати Meta, якщо суд остаточно вирішить, що компанія винна.

Це не перший випадок, коли великі компанії звинувачують у навчанні моделей штучного інтелекту за допомогою контенту, захищеного авторським правом. Торік розслідування показало, що модель OpenELM, створена Apple, включала субтитри з більш ніж 170 000 відео на YouTube. Хоча спочатку це змусило людей повірити, що Apple використовує захищений авторським правом контент для навчання Apple Intelligence, пізніше компанія пояснила, що OpenELM – це модель з відкритим вихідним кодом, створена для дослідницьких цілей, а її база даних не використовується для навчання Apple Intelligence. За словами Apple, функції штучного інтелекту, доступні на iOS і macOS, тренуються "на ліцензованих даних, включаючи дані, відібрані для поліпшення конкретних функцій, а також на загальнодоступних даних", зібраних компанією.