Данные любой ценой

В феврале 2024 года Anthropic наняла Тома Терви, бывшего руководителя партнерских отношений проекта сканирования книг Google Books. Ему поручили получить "все книги мира". Этот стратегический шаг был направлен на воспроизведение успешного подхода Google к оцифровке книг, который выдержал юридические вызовы, связанные с авторскими правами, и установил ключевые прецеденты добросовестного использования. Но в отличие от Google Books, который в основном использовал запатентованный неразрушающий процесс сканирования, Anthropic применила деструктивный метод, сообщает 24 Канал со ссылкой на ArsTechnica.

Смотрите также Популярные модели ИИ готовы отключить людям кислород, если это поможет им выжить

Низкая стоимость деструктивного процесса, вероятно, преобладала над необходимостью сохранения физических книг. Это стало следствием критической потребности в качественных данных, вызванной гонкой на рынке ИИ.

Интересно, что судья постановил: такая деструктивная операция сканирования квалифицируется как добросовестное использование. Это стало возможным только потому, что Anthropic сначала легально приобрела книги, уничтожила каждую печатную копию после сканирования и хранила цифровые файлы внутренне, не распространяя их. Судья сравнил этот процесс с "сохранением пространства" через преобразование формата и признал его трансформационным.

Потребность в высококачественных данных

Основной движущей силой таких действий является ненасытный спрос индустрии ИИ на высококачественный текст. Чтобы понять, почему Anthropic стремилась сканировать миллионы книг, важно знать, что исследователи ИИ создают большие языковые модели (LLM), такие как ChatGPT и Claude, путем подачи миллиардов слов в нейронную сеть. Во время обучения система ИИ многократно обрабатывает текст, строя статистические связи между словами и понятиями. Качество обучающих данных напрямую влияет на возможности полученной модели ИИ. Модели, обученные на хорошо отредактированных книгах и статьях, обычно генерируют более последовательные и точные ответы, чем те, что тренированы на низкокачественном тексте.

Издатели юридически контролируют контент, который компании ИИ отчаянно хотят, однако не всегда хотят вести переговоры о лицензии. Но закон имеет лазейку: купив физическую книгу, можно делать с этой копией все, что угодно, включая ее уничтожение. Это означало, что покупка физических книг предоставляла законный путь для получения данных.

Покупка подержанных физических книг полностью обошла лицензирование, одновременно обеспечивая высококачественный, профессионально отредактированный текст, необходимый моделям ИИ. Деструктивное сканирование оказалось самым быстрым способом оцифровки миллионов томов. Компания потратила "много миллионов долларов" на эту операцию покупки и сканирования, часто покупая подержанные книги оптом. Далее книги вынимали из переплетов, страницы обрезали до нужных размеров, сканировали в PDF-файлы, а потом все бумажные оригиналы выбрасывали.