Anthropic уничтожила миллионы книг, чтобы создать свои модели искусственного интеллекта Claude

Александр Гайдамашко

Основные тезисы

Anthropic уничтожила миллионы печатных книг для обучения моделей искусственного интеллекта, применив деструктивный метод сканирования.
Судья постановил, что деструктивное сканирование является добросовестным использованием, поскольку книги были законно приобретены и не распространялись после оцифровки.

Anthropic уничтожила миллионы книг для создания ИИ Claude

Клод от Антропика / Anthropic

Компания Anthropic, которая создала чат-бота Claude, потратила огромные суммы денег на физическое сканирование печатных книг для последующего обучения моделей искусственного интеллекта. В процессе этого миллионы экземпляров были разрезаны, оцифрованы и выброшены. Об этом стало известно из судебных документов.

Данные любой ценой

В феврале 2024 года Anthropic наняла Тома Терви, бывшего руководителя партнерских отношений проекта сканирования книг Google Books. Ему поручили получить "все книги мира". Этот стратегический шаг был направлен на воспроизведение успешного подхода Google к оцифровке книг, который выдержал юридические вызовы, связанные с авторскими правами, и установил ключевые прецеденты добросовестного использования. Но в отличие от Google Books, который в основном использовал запатентованный неразрушающий процесс сканирования, Anthropic применила деструктивный метод, сообщает 24 Канал со ссылкой на ArsTechnica.

Низкая стоимость деструктивного процесса, вероятно, преобладала над необходимостью сохранения физических книг. Это стало следствием критической потребности в качественных данных, вызванной гонкой на рынке ИИ.

Интересно, что судья постановил: такая деструктивная операция сканирования квалифицируется как добросовестное использование. Это стало возможным только потому, что Anthropic сначала легально приобрела книги, уничтожила каждую печатную копию после сканирования и хранила цифровые файлы внутренне, не распространяя их. Судья сравнил этот процесс с "сохранением пространства" через преобразование формата и признал его трансформационным.

Потребность в высококачественных данных

Основной движущей силой таких действий является ненасытный спрос индустрии ИИ на высококачественный текст. Чтобы понять, почему Anthropic стремилась сканировать миллионы книг, важно знать, что исследователи ИИ создают большие языковые модели (LLM), такие как ChatGPT и Claude, путем подачи миллиардов слов в нейронную сеть. Во время обучения система ИИ многократно обрабатывает текст, строя статистические связи между словами и понятиями. Качество обучающих данных напрямую влияет на возможности полученной модели ИИ. Модели, обученные на хорошо отредактированных книгах и статьях, обычно генерируют более последовательные и точные ответы, чем те, что тренированы на низкокачественном тексте.

Издатели юридически контролируют контент, который компании ИИ отчаянно хотят, однако не всегда хотят вести переговоры о лицензии. Но закон имеет лазейку: купив физическую книгу, можно делать с этой копией все, что угодно, включая ее уничтожение. Это означало, что покупка физических книг предоставляла законный путь для получения данных.

Покупка подержанных физических книг полностью обошла лицензирование, одновременно обеспечивая высококачественный, профессионально отредактированный текст, необходимый моделям ИИ. Деструктивное сканирование оказалось самым быстрым способом оцифровки миллионов томов. Компания потратила "много миллионов долларов" на эту операцию покупки и сканирования, часто покупая подержанные книги оптом. Далее книги вынимали из переплетов, страницы обрезали до нужных размеров, сканировали в PDF-файлы, а потом все бумажные оригиналы выбрасывали.