Восемь ученых разработали "Индекс прозрачности базовой модели", чтобы оценить, насколько открыты 10 самых популярных моделей ИИ. Результаты показали, что большинство информации о том, как они устроены и работают, скрыто от общественности.

Смотрите также О чем люди говорят с искусственным интеллектом: исследователи подытожили миллион диалогов

Кто худший

Понимание прозрачности ИИ-моделей нужно не просто так. Оно помогает использовать искусственный интеллект ответственно и эффективно, развивать его быстрее и качественнее, а также повышает безопасность. Посредством этих данных ученые и разработчики ускоряют прогресс в отрасли, а пользователи понимают, как использовать модель и не получить от нее вреда.

Индекс, оценивающий прозрачность, опирается на 100 подробных показателей. Они охватывают все аспекты модели, от потраченных на создание ресурсов (данные, на которых проводилось обучение, труд, вычислительные мощности) до особенностей самой модели (возможности, риски, объем данных) и последующего использования (канал распространения, политика использования, география потребителей).

Результаты оказались удручающими: в среднем каждая модель ИИ набрала всего 37 баллов прозрачности из 100.

  • Популярный ChatGPT признали прозрачным только на 47%.
  • Такой же результат у Stable Diusion 2.
  • Чуть лучше показали тебя BLOOMZ (52%) и Llama 2 от компании Meta (57%).
  • Google со своим PaLM 2 получил результат на уровне 41%.
  • Менее известные модели ИИ – Claude 2, Command, Jurassic-2, Inection-1 – демонстрируют от 39 до 20 процентов открытости.
  • Худшей в этом плане оказалась компания Amazon. Ее Titan Text является очень закрытым и набрал всего 13 процентов.

Рейтинг прозрачности систем искусственного интеллекта
Рейтинг прозрачности систем искусственного интеллекта / Скриншот 24 Канала/Графика Stanford Center for Research on Foundation Models

Следует отметить, что исследователи обсуждали результаты теста с представителем каждой компании и давали им возможность аргументированно оспорить оценки. Если исследователи сочли, что доводы разработчиков убедительны, они повышали оценку. Однако даже этот подход показал, что компании не спешат быть честными и открытыми с пользователями.