Gemini 2.5 Pro Experimental уже доступна на платформе для разработчиков Google AI Studio, а также в приложении Gemini для подписчиков тарифного плана Gemini Advanced стоимостью 20 долларов в месяц. В будущем, как заявляет Google, все новые модели ИИ будут иметь встроенные возможности рассуждения, сообщает 24 Канал со ссылкой на блог Google.
Смотрите также Включите эту новую функцию вашей мобильной клавиатуры, которую все ждали годами
Лучший из лучших
С тех пор как в сентябре 2024 года OpenAI запустила первую модель мышления ИИ o1, технологическая индустрия соревновалась, чтобы сравниться или превзойти возможности этой модели в своих разработках. Сегодня Anthropic, DeepSeek, Google и xAI имеют модели рассуждений, которые используют дополнительную вычислительную мощность и время для проверки фактов и рассуждений над проблемами перед тем, как предоставить ответ.
Методы рассуждений помогли моделям ИИ достичь новых высот в решении математических и кодировочных задач. Многие в мире технологий считают, что модели рассуждений станут ключевым компонентом ИИ-агентов – автономных систем, способных выполнять задачи практически без вмешательства человека. Однако эти модели также и более дорогие.
Google и раньше экспериментировал с моделями рассуждений ИИ, выпустив в декабре "мыслящую" версию Gemini. Но Gemini 2.5 – это самая серьезная попытка компании превзойти модели OpenAI серии "o".
Разработчики утверждают, что Gemini 2.5 Pro превосходит предыдущие передовые модели ИИ, а также некоторые из ведущих конкурирующих моделей ИИ по нескольким показателям. В частности, компания говорит, что разработала Gemini 2.5 для создания визуально привлекательных веб-приложений и приложений с агентным кодированием.
Gemini 2.5 – это модель мышления, разработанная для решения все более сложных задач. Наша первая модель 2.5, Gemini 2.5 Pro Experimental, опережает общепринятые бенчмарки со значительным отрывом и демонстрирует сильные рассуждения и возможности кода,
– говорится в заявлении компании.
- В тесте Aider Polyglot, который измеряет возможности редактирования кода, Gemini 2.5 Pro набрал 68,6%, опередив лучшие модели искусственного интеллекта от OpenAI, Anthropic и китайской лаборатории DeepSeek.
- В другом тесте, измеряющем способности разработчиков программного обеспечения, SWE-bench Verified, Gemini 2.5 Pro набрал 63,8%, опередив o3-mini от OpenAI и R1 от DeepSeek, но отстает от Claude 3.7 Sonnet компании Anthropic, который набрал 70,3%.
- На так называемом "последнем экзамене человечества", мультимодальном тесте, состоящем из тысяч различных вопросов по математике, гуманитарным и естественным наукам, Gemini 2.5 Pro набрал 18,8%, что является лучшим результатом, чем у большинства конкурирующих флагманских моделей.
Результаты тестов / Фото Google
Gemini 2.5 Pro Experimental также лидирует в математических тестах и тестах генерации кода AIME 2025 и LiveCodeBench v5. Компания утверждает, что 2.5 представляет собой "большой скачок" в производительности кодирования по сравнению с предыдущей версией.
Сравнение различных моделей от разных разработчиков / Фото Google
Модель Google воспринимает запросы с помощью текста, аудио, видео и изображений, но выдает результат только текстом. Ее знания обрываются в январе 2025 года.
Google заявляет, что Gemini 2.5 Pro поставляется с контекстным окном на 1 миллион токенов, что означает, что ИИ-модель может воспринимать примерно 750 000 слов за один проход. Это больше, чем вся серия книг "Властелин колец". Вскоре Gemini 2.5 Pro будет поддерживать вдвое большую длину входных данных – 2 миллиона токенов.
Google не опубликовал цены на API для Gemini 2.5 Pro. Компания говорит, что предоставит больше информации в ближайшие недели.