Техно Искусственный интеллект Большой день ИИ: что показала Google на презентации I/O 2024

15 мая 2024, 13:01

12 мин

Большой день ИИ: что показала Google на презентации I/O 2024

Александр Гайдамашко

Google I/O 2024 – все об искусственном интеллекте, который показала компания

Google I/O / Google

Компания Google провела масштабную презентацию программных продуктов, которые в основном касались искусственного интеллекта. Если вы боялись, что ей нечем будет ответить на невероятные новые возможности ChatGPT, продемонстрированные за день до того, то можно не волноваться, ведь языковая модель Gemini и ее новые способности поражают не меньше. Собрали основное в едином большом материале.

Мы уже рассказали об одном из главных анонсов на Google I/O, который касался интеграции искусственного интеллекта в Поиск. Он позволит не прочесывать многочисленные ссылки в поисках нужного ответа, а переложить эту обязанность на ИИ. Он прочитает информацию в интернете, найдет ответ на наш вопрос, скомпонует ее в короткий текст и выдаст прямо на главной странице. Как это уже будет работать и какие новые возможности предложит, читайте в отдельном материале. Здесь же мы коснемся других функций, программ, сервисов и интеграций, которые Google активно разрабатывает.

Новая модель Gemini 1.5 Flash AI

Компания выпускает новую модель под названием Gemini 1.5 Flash, которая, по ее словам, оптимизирована для скорости и эффективности. Она, по словам компании, прекрасно справляется с подведением итогов, чат-приложениями, подписью к изображениям и видео, извлечением данных из длинных документов и таблиц и другими задачами.

Демис Хассабис, генеральный директор Google DeepMind говорит, что Google создал Gemini 1.5 Flash, потому что разработчикам нужна была более легкая и дешевая модель, чем версия Pro, которую Google анонсировал в феврале. Gemini 1.5 Pro является более эффективной и мощной, чем оригинальная модель Gemini, анонсированная компанией в конце прошлого года.

Gemini 1.5 Flash находится между Gemini 1.5 Pro и Gemini 1.5 Nano, наименьшей моделью Google, которая работает локально на устройствах. Несмотря на меньший вес, чем у Gemini Pro, она столь же мощная. В Google заявили, что этого удалось достичь благодаря процессу под названием "дистилляция", когда важнейшие знания и навыки с Gemini 1.5 Pro были перенесены на меньшую модель. Это означает, что Gemini 1.5 Flash получит те же мультимодальные возможности Pro, а также его длинное контекстное окно – объем данных, который модель ИИ может усвоить за один раз – в один миллион токенов. Это, по словам Google, означает, что Gemini 1.5 Flash сможет анализировать документ на 1 500 страниц или базу кода из более чем 30 000 строк одновременно.

Gemini 1.5 Flash не предназначается для потребителей. Вместо этого это быстрый и дешевый способ для разработчиков создавать собственные продукты и услуги с искусственным интеллектом, интегрируя в свои продукты технологию Google.

Флагманская модель Gemini 1.5 Pro становится быстрее и мощнее

Кроме запуска Gemini 1.5 Flash, Google также обновляет Gemini 1.5 Pro. Компания заявила, что "улучшила" возможности модели писать код, рассуждать и анализировать аудио и изображения. Но самое большое обновление еще впереди – Google объявила, что удвоит существующее контекстное окно модели до двух миллионов токенов позже в этом году. Это сделает ее способной обрабатывать два часа видео, 22 часа аудио, более 60 000 строк кода или более 1,4 миллиона слов одновременно.

Veo и Imagen 3 – новейшие модели с искусственным интеллектом для создания медиа

Также Google анонсировал свои сервисы для создания медиа с искусственным интеллектом:

Veo, который может создавать "высококачественные" видео с разрешением 1080p.

Imagen 3, фреймворк для преобразования текста в изображение.

Ни один из них не звучит особо революционно, но это способ для Google начать борьбу с генератором видео Sora от OpenAI и Dall-E 3, инструментом, который практически стал синонимом изображений, созданных искусственным интеллектом.

Google утверждает, что Veo имеет "углубленное понимание естественного языка и визуальной семантики", чтобы создать любое видео по вашему описанию. Ролики, созданные искусственным интеллектом, могут длиться "более минуты". Veo также способен понимать кинематографические и визуальные приемы, например, концепцию таймлапса.

Один из роликов, созданных в Veo: видео

Чтобы доказать, что Veo не собирается воровать работу художников, Google также сотрудничает с Дональдом Гловером и его творческой студией Gilga, чтобы продемонстрировать возможности модели. В очень коротком рекламном видео мы видим, как Гловер и команда используют текст для создания видео, где кабриолет подъезжает к дому, а парусник скользит по океану. По словам Google, Veo может имитировать физику реального мира лучше, чем предыдущие модели, а также улучшает качество воспроизведения видео высокой четкости.

Демонстрация Veo: Видео

Veo уже доступен для некоторых создателей в инструменте VideoFX от Google, и компания заявляет, что он также появится в YouTube Shorts и других продуктах впоследствии. Если Veo станет встроенной частью YouTube, то это по крайней мере будет та функция, которой Google сможет наконец обойти TikTok.

По Imagen 3, Google дает привычные обещания: Это "самая качественная" модель преобразования текста в изображения компании, с "невероятным уровнем детализации" для "фотореалистичных, реалистичных изображений" и меньшим количеством артефактов. Настоящим испытанием, конечно, станет проверка того, как новая модель обрабатывает подсказки по сравнению с Dall-E 3. По словам Google, Imagen 3 лучше обрабатывает текст, чем раньше, и он также умнее обрабатывает детали из длинных подсказок.

Google также сотрудничает с такими исполнителями, как Wyclef Jean и Bjorn, чтобы протестировать свою Music AI Sandbox – набор инструментов, которые могут помочь в создании песен и музыки. Мы увидели лишь краткий взгляд на это, но вот один из демонстрационных роликов, где музыка создана с помощью ИИ от Google:

Цифровые водяные знаки к видео и тексту, созданных ИИ

Поскольку Google начинает выпускать новейшие инструменты для генерации видео, компания говорит, что имеет план обеспечить прозрачность происхождения своих все более реалистичных клипов, созданных ИИ. Все видео, созданные новой моделью Veo, будут иметь цифровые водяные знаки благодаря системе SynthID от Google. Кроме того, SynthID сможет ставить водяные знаки на сгенерированный искусственным интеллектом текст, который поступает от Gemini. Технология встраивает незаметные водяные знаки в контент, созданный ИИ, чтобы инструменты обнаружения ИИ могли распознать их, но таким образом, чтобы эти знаки остались незаметными для пользователя.

Gemini будет доступен на боковой панели Google Workspace

Google добавляет автоматизацию на основе искусственного интеллекта Gemini к большему количеству задач в Workspace. Задачи Gemini в Workspace – сэкономить ваше время и усилия, потраченные на поиск файлов, электронных писем и других данных из различных приложений.

Gemini в Google Workspace
Gemini в Google Workspace / Фото Google

Обновленная боковая панель Workspace, которая впервые появится в Gmail, Документах, Таблицах, Слайдах и Диске, позволит вам общаться с Gemini о вашем контенте. Его память позволяет организовывать, понимать и контекстуализировать ваши данные из разных приложений, не выходя из того, в котором вы находитесь. Это включает в себя такие вещи, как сравнение вложений, подведение итогов, ответы на вопросы, анализ длинных цепочек электронных писем или выделение ключевых моментов из записей встреч.

Другим примером, который предоставил Google, было планирование встречи семьи в смоделированной ситуации, когда человек попросил информацию о гостинице. С помощью боковой панели Workspace вы можете попросить Gemini найти Google Документ с информацией о бронировании, используя подсказку: "Какое название отеля и электронный адрес менеджера по продажам указаны в @Family Reunion 2024?" Google уверяет, что найдет документ и даст вам быстрый ответ, что позволит вам вставить его в ответ, сэкономив время.

Изменения, связанные с электронной почтой, произойдут и в мобильном приложении Gmail. "Вскоре Gemini сможет анализировать потоки электронной почты и предоставлять обобщенный обзор с ключевыми моментами непосредственно в приложении Gmail, так же, как вы можете это делать на боковой панели", – сообщили в компании.

Новые инструменты обнаружения мошенничества

Также внедряются новые инструменты обнаружения мошенничества во время телефонных звонков на смартфонах с Android. Набор инструментов, представленный на Google I/O 2024, все еще находится на стадии тестирования, но использует ИИ, чтобы выявлять мошенников посреди разговора. Искусственный интеллект будет постоянно искать шаблоны разговоров, которые обычно ассоциируются с мошенничеством. После обнаружения мошенничества вы получите оповещение в режиме реального времени на телефон.

Google приводит пример "представителя банка", который запрашивает личную информацию, например, PIN-коды и пароли. Это необычные банковские запросы, поэтому искусственный интеллект обозначит их.

Все происходит на устройстве, поэтому разговор остается частным, уверяет компания.

Эта функция появится в Android 15 не сразу, и компания говорит, что поделится подробностями позже в этом году.

ИИ сообщает о возможном мошенничестве и сразу предлагает завершить разговор
ИИ сообщает о возможном мошенничестве и сразу предлагает завершить разговор / Фото Engadget

Gemini Live

Gemini Live – это новый способ общения с ИИ, который уже присутствует в ChatGPT. Фактически это функция живого разговора с искусственным интеллектом, в которой вы используете свой голос и естественную речь, а не текстовые запросы.
Gemini Live
Gemini Live / Скриншот 24 Канала

Судя по всему, Gemini Live будет отдельным приложением. Google предложил несколько потенциальных вариантов использования: вы можете пообщаться с Gemini Live, чтобы подготовиться к собеседованию, где он может задать вам соответствующие вопросы о вакансиях, что вас интересуют. Он также может дать вам советы по публичным выступлениям, если вы хотите подготовить речь.

Вы сможете говорить в собственном темпе или даже прерывать его ответы, если захотите. В идеале, это должно быть похоже на разговор с человеком, а не просто на озвучивание команд умного ассистента или генеративных запросов ИИ.

Project Astra

Что касается Project Astra – это тоже еще один способ использования ИИ, которые предполагает применение камеры, чтобы искусственный интеллект ответил вам на вопросы, связанные с тем, что вы видите.

Демонстрация Project Astra: видео

В видеопримере пользовательница наводит камеру на комнату и просит найти предметы, которые могут продуцировать звуки. ИИ очень быстро определяет, что это может быть колонка. После этого автор ролика прямо на экране рисует стрелку, которая указывает на одну из деталей колонки и просит сказать, как она называется, продолжая держать камеру наведенной.

В одном из следующих вопросов автор ролика показывает искусственному интеллекту часть кода на экране и просит сказать, что этот код делает после его запуска.

Все это происходит в режиме реального времени.

Как Project Astra, так и Gemini Live имеют свои аналоги в ChatGPT и были представлены позавчера, но в составе одного сервиса. Предположительно, Google позже также объединит все эти функции под одной крышей.

Circle to Search поможет ученикам решать домашние задания по математике и физике

Функция сможет показывать пошаговые инструкции для "ряда задач по физике и математике". Для этого нужно лишь активировать функцию, а затем обвести задачу.

Компания заявляет, что эта способность Circle to Search стала возможной благодаря новому семейству моделей искусственного интеллекта под названием LearnLM, которые были специально созданы и настроены для обучения. Компания также планирует внести коррективы в эту функцию и выпустить обновленную версию позже в этом году, которая сможет решать еще более сложные задачи, "связанные с символьными формулами, диаграммами, графиками и т.д.".

Поиск проблемы с помощью видео

Теперь вы сможете снять видео, демонстрирующее ту или иную проблему, загрузить его в Gemini и спросить, как это решить. В продемонстрированном примере человек купил проигрыватель, но игла никак не хотела становиться на пластинку. Он снимает тот факт, что игла слетает в сторону, забрасывает это в ИИ, и тот быстро находит решение.

Если ИИ таки не сможет понять, что вы пытаетесь выяснить, вы можете добавить текст или нарисовать стрелки на экране, указывающие на проблему.

Функция Ask Photos позволяет быстро найти что-то в Google Photos по вашему запросу

Если вы имеете большую коллекцию фотографий, порой бывает трудно найти что-то конкретное, особенно, если снимок сделали много лет назад. Ask Photos облегчит задачу благодаря ИИ. Формулируйте вопрос с помощью текста или голоса. Например, попросите найти фото, где вы позируете на фоне цветов, или фотографируетесь с котом.

Gemini может выявлять содержание изображений, понимая, что на них изображено. Все происходит на устройстве, не передавая данные на серверы.