Компания DeepMind говорит, что ее новый ИИ работает лучше, чем золотые медалисты олимпиад

DeepMind решает задачи по геометрии лучше золотых призеров математической олимпиады

DeepMind разрабатывает ИИ для Google / Google

Система искусственного интеллекта AlphaGeometry2, разработанная исследовательской лабораторией Google DeepMind, как утверждают, превзошла среднестатистического золотого призера олимпиады в решении задач по геометрии. Это усовершенствованная версия оригинальной модели AlphaGeometry, которую DeepMind выпустила ровно год назад.

Значительный прогресс

В недавно опубликованном исследовании ученые DeepMind, которые стоят за AlphaGeometry2, утверждают, что их ИИ может решить 84% всех задач по геометрии за последние 25 лет на Международной математической олимпиаде (IMO), математическом конкурсе для старшеклассников. Почему DeepMind интересует математическая олимпиада для старшеклассников? В лаборатории считают, что ключ к созданию более способного искусственного интеллекта может лежать в открытии новых способов решения сложных геометрических задач, в частности задач по евклидовой геометрии, сообщает 24 Канал со ссылкой на отчет, опубликованный на сайте препринтов arxiv.org.

Доказательство математических теорем или логическое объяснение того, почему теорема (например, теорема Пифагора) является истиной, требует как рассуждений, так и способности выбирать возможные пути решения из ряда вариантов. Эти навыки решения проблем очень полезны для более мощного искусственного интеллекта. Поэтому, создавая модель, которая сможет решать математические уравнения, ученые одновременно приближаются к универсальному ИИ, который является мечтой всей отрасли и сможет сравниться или превзойти человека.

AlphaGeometry2 имеет несколько основных элементов, включая языковую модель из семейства моделей искусственного интеллекта Gemini от Google и "символьный движок". Модель Gemini помогает движку, который использует математические правила для вывода решений задач, находить обоснованные доказательства для заданной геометрической теоремы.

Олимпиадные задачи по геометрии базируются на диаграммах, которые требуют добавления "конструкций", таких как точки, линии или круги, прежде чем их можно будет решить. Модель Gemini в AlphaGeometry2 предусматривает, какие конструкции могут быть полезными для добавления к диаграмме, на которые ссылается движок, чтобы сделать выводы.

Фактически модель Gemini в AlphaGeometry2 предлагает шаги и конструкции на формальном математическом языке для символьного движка, который, придерживаясь определенных правил, проверяет эти шаги на логическую последовательность. Алгоритм поиска позволяет AlphaGeometry2 параллельно проводить несколько поисков решений и сохранять возможные полезные результаты в общей базе знаний.

AlphaGeometry2 считает задачу "решенной", когда получает доказательство, которое объединяет предложения модели Gemini с известными принципами символьного движка.

Из-за сложности перевода доказательств в формат, понятный ИИ, существует дефицит пригодных для использования учебных данных по геометрии. Поэтому DeepMind создал собственные синтетические данные для обучения языковой модели AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.

Результаты нового ИИ

Команда DeepMind отобрала 45 геометрических задач из олимпиад IMO за последние 25 лет (с 2000 по 2024 год), включая линейные уравнения и уравнения, требующие перемещения геометрических объектов по плоскости. Затем они "переложили" их в больший набор из 50 задач. По техническим причинам некоторые задачи пришлось разделить на две.

Конечно, есть ограничения:

Техническая особенность не позволяет AlphaGeometry2 решать задачи с переменным количеством точек, нелинейные уравнения и неравенства.
AlphaGeometry2 технически не является первой ИИ-системой, достигшей уровня золотой медали в геометрии, хотя она является первой, достигшей этого с набором задач такого размера.
AlphaGeometry2 также показала худшие результаты на другом наборе более сложных задач IMO. Для дополнительного испытания команда DeepMind отобрала задачи – всего 29 – которые были номинированы математическими экспертами для экзаменов IMO, но еще не появлялись на соревнованиях. AlphaGeometry2 смог решить только 20 из них.