Укр Рус
10 лютого, 12:31
4

Компанія DeepMind каже, що її новий ШІ працює краще, ніж золоті медалісти олімпіад

Основні тези
  • AlphaGeometry2, новий ШІ від DeepMind, перевершив середній результат золотих медалістів математичних олімпіад у розв'язанні геометричних задач, вирішивши 84% задач Міжнародної математичної олімпіади.
  • Система використовує мовну модель Gemini та "символьний рушій" для пошуку розв'язків та обґрунтувань геометричних задач, але має обмеження у розв'язанні задач зі змінною кількістю точок та складнішими задачами.

Система штучного інтелекту AlphaGeometry2, розроблена дослідницькою лабораторією Google DeepMind, як стверджують, перевершила середньостатистичного золотого призера олімпіади в розв'язанні задач з геометрії. Це вдосконалена версія оригінальної моделі AlphaGeometry, яку DeepMind випустила рівно рік тому.

Значний прогрес

У нещодавно опублікованому дослідженні вчені DeepMind, які стоять за AlphaGeometry2, стверджують, що їхній ШІ може розв'язати 84% всіх задач з геометрії за останні 25 років на Міжнародній математичній олімпіаді (IMO), математичному конкурсі для старшокласників. Чому DeepMind цікавить математична олімпіада для старшокласників? У лабораторії вважають, що ключ до створення більш здібного штучного інтелекту може лежати у відкритті нових способів розв'язування складних геометричних задач, зокрема задач з евклідової геометрії, повідомляє 24 Канал з посиланням на звіт, опублікований на сайті препринтів arxiv.org.

Дивіться також Штучний інтелект виявився вражаюче точним у передбаченні магнітних бур

Доведення математичних теорем або логічне пояснення того, чому теорема (наприклад, теорема Піфагора) є істиною, вимагає як міркувань, так і здатності вибирати можливі шляхи розв'язання з низки варіантів. Ці навички вирішення проблем є дуже корисними для потужнішого штучного інтелекту. Тому, створюючи модель, яка зможе розв'язувати математичні рівняння, вчені одночасно наближаються до універсального ШІ, який є мрією всієї галузі й зможе зрівнятися або й перевершити людину.

AlphaGeometry2 має кілька основних елементів, включаючи мовну модель з сімейства моделей штучного інтелекту Gemini від Google і "символьний рушій". Модель Gemini допомагає рушієві, котрий використовує математичні правила для виведення розв'язків задач, знаходити обґрунтовані доведення для заданої геометричної теореми.

Олімпіадні задачі з геометрії базуються на діаграмах, які потребують додавання "конструкцій", таких як точки, лінії або кола, перш ніж їх можна буде розв'язати. Модель Gemini в AlphaGeometry2 передбачає, які конструкції можуть бути корисними для додавання до діаграми, на які посилається движок, щоб зробити висновки.

Фактично модель Gemini в AlphaGeometry2 пропонує кроки та конструкції формальною математичною мовою для символьного рушія, котрий, дотримуючись певних правил, перевіряє ці кроки на логічну послідовність. Алгоритм пошуку дозволяє AlphaGeometry2 паралельно проводити декілька пошуків рішень і зберігати можливі корисні результати в загальній базі знань.

AlphaGeometry2 вважає задачу "розв'язаною", коли отримує доведення, яке поєднує пропозиції моделі Gemini з відомими принципами символьного рушія.

Через складність перекладу доведень у формат, зрозумілий ШІ, існує дефіцит придатних для використання навчальних даних з геометрії. Тому DeepMind створив власні синтетичні дані для навчання мовної моделі AlphaGeometry2, згенерувавши понад 300 мільйонів теорем і доведень різної складності.

Результати нового ШІ

Команда DeepMind відібрала 45 геометричних задач з олімпіад IMO за останні 25 років (з 2000 по 2024 рік), включаючи лінійні рівняння та рівняння, що вимагають переміщення геометричних об'єктів по площині. Потім вони "переклали" їх у більший набір з 50 задач. З технічних причин деякі задачі довелося розділити на дві.

Згідно з дослідженням, AlphaGeometry2 розв'язала 42 з 50 задач, подолавши середній бал золотих медалістів 40,9.

Звичайно, є обмеження:

  • Технічна особливість не дозволяє AlphaGeometry2 розв'язувати задачі зі змінною кількістю точок, нелінійні рівняння та нерівності.
  • AlphaGeometry2 технічно не є першою ШІ-системою, яка досягла рівня золотої медалі в геометрії, хоча вона є першою, яка досягла цього з набором задач такого розміру.
  • AlphaGeometry2 також показала гірші результати на іншому наборі складніших задач IMO. Для додаткового випробування команда DeepMind відібрала задачі – загалом 29 – які були номіновані математичними експертами для іспитів IMO, але ще не з'являлися на змаганнях. AlphaGeometry2 зміг розв'язати лише 20 з них.