Новая высокоскоростная модель искусственного интеллекта, о которой впервые упомянули еще на презентации I/O 2023, коснется почти каждой части бизнеса поискового гиганта. В прошлом году компания отставала от OpenAI, своего главного конкурента на этом рынке, но теперь попытается доказать, что ее ИИ является лучшим в своем классе и может полностью изменить наш способ использования ИИ.

Смотрите также Сколько энергии тратит искусственный интеллект, чтобы сгенерировать одно изображение

10 важнейших вещей, которые мы узнали о Gemini от Google

  • Первое и самое главное, что нужно знать: Gemini получит целых три версии, которые будут охватывать от центров обработки данных до телефонов. Gemini Ultra – самая большая и мощная модель для сверхсложных задач. Сейчас версия Ultra доступна только для отобранных тестировщиков, экспертов по безопасности и основных бизнес-партнеров. Остальные из нас не увидят Gemini до начала следующего года. Gemini Pro – универсальная модель для широкого круга задач. Gemini Nano – модель для выполнения задач прямо на устройстве, без соединения с серверами, что обеспечит пользователям конфиденциальность их данных.
  • Gemini Pro будет интегрирован в Google Bard. Это должно вывести чат-бот на новый уровень и, возможно, сделать его даже лучше, чем ChatGPT. Сегодня Bard показывает несколько худшие результаты работы, чем технология OpenAI, хотя и внедряет некоторые функции раньше, чем Google. Пока Gemini в составе Bard работает только с английским языком, но в дальнейшем компания расширит поддержку до других языков. Нынешняя версия чат-бота поддерживает и другие языки.
  • Смартфоны Pixel получат встроенную поддержку Gemini Nano. Если точнее, то Pixel 8 Pro уже работает с этим ИИ, но пока возможности его ограничены. Gemini Nano теперь управляет функцией Summarize в приложении Android Recorder на Pixel 8 Pro. Google заявляет, что искусственный интеллект также будет использовать функцию Android Smart Reply, но только если вы используете клавиатуру Google, и только в WhatsApp. В следующем году Gemini появится в большем количестве приложений для обмена сообщениями и в других частях операционной системы.
  • Собственные тесты Google показывают, что Gemini лучше всего, что есть в арсенале OpenAI. Компания показала две таблицы, в которых сравнила свою технологию с языковой моделью GPT-4, и в подавляющем большинстве случаев лучшие результаты демонстрирует именно Gemini. В частности, в тестах MMLU он показал 90% корректных ответов, тогда как ChatCPT – 86,4 процента. MMLU или Massive Multitask Language Understanding - это стандартный отраслевой тест, который измеряет возможности ИИ с помощью различных задач, которые объединяют 57 предметов, таких как математика, физика, история, право, медицина и этика. Интересно, что в MMLU Gemini от Google обогнал даже человека.

Тестирование Gemini от Google
Тестирование Gemini от Google показывает его преимущество над ближайшим конкурентом, GPT-4 / Фото Google

Мы также видим победу в двух из трех тестов на осмысление и способность делать выводы в обоих тестах по математике и обоих тестах по написанию программного кода.

  • Google запускает платную версию Bard. Gemini Pro сейчас уже работает в Bard, но если вы хотите общаться с наилучшей версией искусственного интеллекта Gemini Ultra, вам придется заплатить. Этот подход напоминает OpenAI, которая предлагает ChatGPT 3.5 бесплатно всем желающим, а за ChatGPT 4 просит 20 долларов. Платная версия получит название Bard Advanced, но ее цена пока неизвестна.

Смотрите также Microsoft обновляет своего чат-бота и ИИ-помощника Copilot в GPT-4 Turbo и DALL-E 3

  • Bard получит голос. Сейчас единственный чат-бот, который может говорить с вами, – это ChatGPT. Но скоро это изменится. Google заявляет, что добавит Bard к Google Assistant где-то в следующем году. Пока непонятно, как именно это будет выглядеть и какая именно из трех версий Gemini ляжет в основу нового Ассистента. Но пока мы будем этого ждать, у нас уже будет возможность говорить с искусственным интеллектом с помощью голоса, как это было показано в видеоролике. Такая функция выводит технологию на совершенно новый уровень, ведь теперь мы будем иметь не только ограниченные и заранее подготовленные ответы, которые мы получаем сегодня, а каждый раз уникальные разговоры с чат-ботом.
  • Gemini обрабатывает изображения, видео и аудио так же хорошо, как и текст. Google много говорит о "мультимодальных" возможностях Gemini и "мультимодальной производительности", что означает, что он может воспринимать и выдавать различные виды информации, такие как текст, изображения, видео и аудио. По словам компании, Gemini учился работать с различными носителями информации с самого начала, а не осваивал новые возможности уже постфактум. Google поделился видео, где Бард на базе Gemini помогает студенту с домашним заданием по физике, начиная с фотографии задания с вопросами, написанными от руки. Затем ИИ плавно переходит к письменным советам с уравнениями и пошаговыми ответами.

На опубликованном сравнении видно, что Gemini побеждает GPT-4 в абсолютно всех тестах в изображениях, видео и аудио.

Сравнение возможностей мультимодальности
Сравнение возможностей мультимодальности Gemini и GPT-4 / Фото Google

  • Gemini обеспечивает работу нового сверхмощного инструмента кодирования. В составе ИИ работает обновленный инструмент AlphaCode 2. По словам компании, он "прекрасно решает конкурентные задачи по программированию, которые выходят за рамки кодирования и включают сложную математику и теоретическую информатику".
  • Gemini – в каждой части Google. Gemini не просто собирается улучшить Bard и встроить ИИ в телефоны. Google заявила, что новая модель будет использоваться во всех важнейших продуктах компании, включая Chrome, поиск, рекламу и другие. Реальных сроков нет. Google лишь сообщила, что эти продукты получат мощность Gemini "в ближайшие месяцы".
  • Gemini освежит облачный бизнес Google, который приносит компании одни из самых больших прибылей. Обычный пользователь никогда не задумывается об этой стороне интернета, но Google Cloud предлагает разнообразные услуги для бизнеса, включая хранение данных, аналитику данных и машинное обучение, а также набор инструментов для управления. Огромная часть технологической стороны мира бизнеса работает на Google Cloud, и Gemini откроет следующую эру этой платформы.

Смотрите также Google создал "гиперкомпьютер" для работы с искусственным интеллектом

Gemini – многообещающая технология, которая должна понравиться нам всем. На одном из опубликованных видео, можно видеть несколько примеров его работы. Например, он хорошо определяет, на что смотрит его камера. Человек сначала рисует линии, просто обычную схему, а ИИ понимает, что имеется в виду, распознавая в этом утку. Когда человек подносит к камере игрушечного утенка и спрашивает, из чего он сделан, ИИ предполагает, что это что-то твердое, например, металл. Но когда человек сжимает его, алгоритм сразу же исправляется и говорит, что, учитывая новые данные, это может быть резина. Он также хорошо распознает математические уравнения, письмо от руки и многое другое. И все это он способен озвучивать голосом, ведя с вами беседу.

Google также утверждает, что Gemini является одной из самых безопасных моделей ИИ на сегодня, поэтому пользователям, которые обеспокоены этим вопросом, не стоит волноваться.