Во всем мире заканчиваются данные для обучения искусственного интеллекта

Александр Гайдамашко

Источник:

The Conversation

Разработчики искусственного интеллекта начинают испытывать нехватку обучающих данных

Иллюстративное фото / Freepik

Исследователи предупреждают, что в ближайшем будущем может закончиться запас данных для обучения искусственного интеллекта. Это может сильно замедлить развитие всей отрасли, особенно генеративных речевых моделей.

ИИ сталкивается с проблемой

Для обучения мощных, точных и качественных алгоритмов ИИ требуется большое количество данных. Например, ChatGPT обучался на 570 гигабайтах текстовых данных, или около 300 миллиардах слов. Алгоритм стабильной диффузии, на котором основаны многие нейросети для создания изображений, включая DALL-E, Lensa и Midjourney, обучен на наборе данных LIAON-5B, состоящем из 5,8 миллиарда пар "изображение-текст". Если алгоритм обучается на недостаточном количестве данных, он будет выдавать неточные и некачественные результаты.

Качество обучающих данных также имеет большое значение. Низкокачественные данные, например сообщения в соцсетях (привет, Илоне Маск) или фотографии низкого разрешения, легко получить, но их недостаточно для обучения высокоэффективных моделей ИИ. Тексты, взятые из социальных сетей, могут быть необъективными или пристрастными, содержать дезинформацию и даже незаконный контент.

Именно поэтому разработчики ИИ стремятся использовать высококачественный контент:

Книги.
Интернет-статьи.
Научные работы.
"Википедию".
Отфильтрованный веб-контент и другие подобные тексты, написанные и отредактированные, как правило, компетентными людьми.

Индустрия обучает системы ИИ на все более широких наборах данных, поэтому сегодня у нас такие высокоэффективные модели, как ChatGPT или DALL-E 3. Однако запасы данных в интернете растут гораздо медленнее, чем потребности в обучении искусственного интеллекта.

По оценкам аудиторско-консалтинговой группы PwC, к 2030 году ИИ может принести мировой экономике до 15,7 триллиона долларов. Однако нехватка пригодных для использования данных может затормозить развитие отрасли. Впрочем, ситуация может оказаться не столь плохой, как прогнозируется.

Исправить ситуацию можно, например, благодаря усовершенствованию алгоритмов, позволяющих эффективнее использовать уже имеющиеся данные. По всей вероятности, в ближайшие годы разработчики смогут обучать высокопроизводительные системы ИИ, используя меньший объем данных и, возможно, меньшую вычислительную мощность.
Разработчики также смогут несколько расширить количество доступных материалов несколькими дополнительными путями, такими как создание синтетических данных с помощью других ИИ, оцифровка миллионов текстов, созданных прессой до появления интернета, или же заключение соглашений с правообладателями текстового контента и оплата им за учебные данные. Но ясно, что и это рано или поздно закончится.