29 апреля, 17:26
6

ChatGPT наконец-то может ответить на вопрос, который был ему не под силу все 4 года

Основні тези
  • OpenAI объявила, что ChatGPT научился правильно считать буквы в словах, но пользователи указывают на новые ошибки.
  • GPT-5.5 представлена как новая модель с улучшенными возможностями для выполнения сложных задач и работой с различными типами данных.

OpenAI с гордостью объявила, что ChatGPT наконец-то научился правильно считать буквы в словах. Однако радость, кажется, оказалась несколько преждевременной.

Действительно ли ИИ научился считать?

Одним из самых известных примеров того, как ChatGPT уверенно ошибается, был простой вопрос: сколько раз буква "R" встречается в слове "strawberry"? Правильный ответ – трижды, но долгое время чат-бот упорно утверждал другое и даже отказывался признавать ошибку, когда пользователи его исправляли. Похожая проблема случалась и в других крупных языковых моделях, пишет 9to5Google.

Смотрите также Докодировались: ИИ-агент Claude удалил всю базу данных компании за 9 секунд

29 апреля компания OpenAI похвасталась в своем аккаунте в Twitter/X, что "наконец" справилась с этой задачей. Вместе с этим компания привела еще один пример решенной проблемы: ранее на вопрос "Я хочу помыть машину, но автомойка находится всего в 50 метрах – стоит ли мне идти пешком или ехать туда?" ChatGPT нередко советовал идти пешком, несмотря на очевидную абсурдность такого совета, потому что машину нужно взять с собой. Сейчас обе эти задачи чат-бот выполняет правильно.

Не все так просто

Но энтузиазм компании остыл почти мгновенно. В ответах под сообщением OpenAI пользователи начали приводить примеры новых сбоев той же природы. Например, на вопрос пользователя Натана Эспинозы о количестве букв "R" в слове "cranberry" ChatGPT снова выдает неправильный ответ, утверждая, что их только одна, хотя на самом деле их также три.

Все это наводит на мысль, что компания не решила проблему системно, а просто вручную "вшила" правильные ответы для нескольких конкретных примеров.

Практика так называемых "hardcoded" решений – когда модель фактически заучивает ответ на определенный конкретный вопрос, а не учится понимать логику – не является чем-то новым в мире искусственного интеллекта. Однако выглядит по меньшей мере иронично, когда компания публично празднует "победу", которая на самом деле маскирует неизменный системный недостаток.

Все чат-боты ошибаются

Проблема ошибок больших языковых моделей остается одной из самых серьезных в отрасли. Чат-бот не только ошибается – он делает это с уверенностью, а в случае возражений может еще и настаивать на ложной версии, убеждая пользователя в своей правоте.

На фоне колоссальных ресурсов – финансовых, энергетических, вычислительных – которые поглощает развитие ИИ, такое поведение выглядит как серьезное несоответствие между затратами и результатом.

OpenAI выпустила GPT-5.5

Хотя компания в своей публикации не говорит, о какой модели идет речь, стоит напомнить, что OpenAI только что выпустила GPT-5.5. Это флагманская модель, представлена 23 апреля 2026 года как преемник GPT-5.4. Она позиционируется не просто как очередной апдейт, а как переход к более "агентному" типу ИИ, который не только отвечает на вопросы, но и способен выполнять сложные многошаговые задачи с планированием и контролем ошибок.

В линейке GPT-5.5 есть несколько вариантов%

  • Базовая модель "GPT-5.5" – это универсальный вариант для сложной работы с большим контекстом до примерно 1 миллиона токенов и поддержкой инструментов типа веб-поиска, работы с файлами и даже управления компьютером, указано на сайте OpenAI.
  • Есть также "GPT-5.5 Pro" – более "тяжелая" версия, которая использует больше вычислений для более глубокого мышления, но работает медленнее и дороже.
  • В ChatGPT также отдельно выделяют режим "Thinking", который оптимизирован под сложные задачи с длинной цепью рассуждений.

Ключевое изменение – это уровень reasoning и способность работать как агент. GPT-5.5 лучше планирует действия, разбивает задачи на этапы и может самостоятельно выполнять рабочие процессы, например: исследование, написание кода, анализ данных или взаимодействие с софтом. В тестах на "рабочие сценарии" (а не просто вопросы-ответы) модель показывает очень высокие результаты. Например, около 84,9% в бенчмарках, имитирующих реальные профессии, пишет OpenAI в своем объявлении.

Отдельно стоит обратить внимание на мультимодальность нового уровня. Если предыдущие поколения комбинировали разные модели (текст + изображение и т.д.), то GPT-5.5 работает с текстом, изображениями, аудио и видео в единой архитектуре. Это означает, что она лучше понимает контекст между различными типами данных, а не просто "переводит" их один в один, отмечает Vellum.

В практическом использовании наибольший скачок виден в программировании и так называемой knowledge work. Модель значительно лучше справляется с дебагом, рефакторингом, написанием тестов и поддержкой больших кодовых баз. Издание TechRadar заметило, что новое поколение также эффективнее с точки зрения затрат токенов и времени – в корпоративных сценариях заявляют до десятков раз лучшую эффективность по сравнению с предыдущими поколениями.

Еще одно направление – научные исследования. GPT-5.5 уже не просто отвечает на вопросы, а способна проходить полный цикл: формулировать гипотезы, анализировать данные, проверять предположения и корректировать подход. Уже есть примеры, где модель помогала находить новые математические доказательства или работать с биоинформатикой на уровне, близком к исследователю.

Где уже можно опробовать GPT-5.5

С точки зрения продукта, GPT-5.5 интегрирована в ChatGPT, API и корпоративные решения. Она поддерживает "tool use" – то есть может вызывать внешние инструменты, работать с файлами, браузером или даже интерфейсом компьютера. Это критично для перехода от чатботов к "цифровым агентам", которые реально выполняют работу, а не просто генерируют текст.

Важная деталь – эффективность и экономика. GPT-5.5 оптимизирована так, чтобы выполнять сложные задачи дешевле в масштабе, что делает ее пригодной для массового корпоративного использования. Это один из ключевых факторов, почему компании начинают внедрять такие модели во внутренние процессы.

Связанные темы: