Що таке GPT-4o
Сьогодні ChatGPT має два способи доступу. Існує безкоштовний рівень, заснований на GPT 3.5, який є потужним, але не має розширених функцій, таких як завантаження файлів, користувацькі GPT, доступ до інтернету і багато іншого. Існує також платний рівень, який використовує найновішу модель, GPT-4. Тепер же OpenAI відкриває доступ до GPT-4o, нової моделі, яка ще швидша за GPT-4, і при цьому дозволяє запустити багато преміум-функцій для безкоштовних користувачів.
Дивіться також ChatGPT може стати хорошою альтернативою Google з новою функцією пошуку
Сем Альтман каже, що GPT-4o "за своєю суттю є мультимодельним" (власне, буква "о" тут означає "omni", тобто мультимодальні можливості моделі), що відображає здатність використовувати текст, зображення, відео та голос як вхідні дані для взаємодії. Усе це, за словами компанії, наближає нас до "набагато більш природної взаємодії людини з комп'ютером". Ви можете спілкуватися з ШІ як за допомогою лише одного виду даних, так і за допомогою комбінації тексту, аудіо та фото, а потім отримаєте згенеровані вихідні дані також у всіх трьох форматах.
Крім того, нова модель коштуватиме вдвічі дешевше для користувачів API (для тих, хто, наприклад, хоче підключити його до свого сайту, для робочих потреб чи іншого).
Функції, тепер доступні для користувачів безкоштовного ChatGPT, включатимуть наступне:
- Інтелектуальні можливості рівня GPT-4.
- Доступ до інтернету.
- Розширений аналіз даних та створення діаграм.
- Обговорюйте зроблені фотографії в чаті, запитуючи про різні деталі на знімках.
- Завантажуйте файли для допомоги в їх узагальненні, написанні або аналізі.
- Відкриття та використання файлів GPT та GPT Store.
- Створіть більше корисних можливостей за допомогою функції "Пам'ять".
Все це звучить не дуже переконливо й ніби не тягне на революційність, але зачекайте, далі йдуть демонстрації. Нам, зокрема, показали конкретні приклади застосування. Модель здатна розпізнавати емоції, дозволяє переривати мову посеред розмови і реагує майже так само швидко, як людина під час розмови, а також має приємний голос, який володіє інтонаціями та передає жвавість і настрій.
Дивіться також GPT-4 наблизився до лікарів за рівнем оцінки зору
Що вміє GPT-4o
Під час презентації OpenAI продемонструвала, як GPT-4o перекладає розмовну мову в реальному часі. Ведучі презентації попросили ChatGPT у режимі розмови слухати, що йому кажуть англійською, а потім пояснити співрозмовнику, який володіє лише італійською, що було щойно сказано. Після того, як друга людина відповідала італійською, ШІ пояснив, що було у її відповіді. Все це відбулося не в дослівному перекладі, а звичайно природною мовою, яка повністю передала суть.
Ще одне демонстраційне відео показує інші застосування цієї функції. Наприклад, попросити ШІ розказати щось про будівлю, яку видно в цей момент на відео, надати історичні дані про Букінгемський палац. ChatGPT також правильно визначив, що дивиться на качок, і розповів, що вони роблять, а потім допомагає користувачу віднайти на вулиці таксі і зупинити конкретну машину.
Однією з вражаючих нових демонстрацій оновлення ChatGPT стало використання живого відео для отримання підказок від ШІ у режимі реального часу і в звичайній розмовній манері. В одному з відео чоловік вітається зі штучним інтелектом, починає з ним розмову, а потім просить оцінити місце, яке в цей момент видно через камеру смартфона. ШІ відповідає, описуючи свої припущення щодо того, яким може бути призначення кімнати. Що цікаво, машина вгадала спочатку, що там буде якась презентація з анонсом, а потім і те, що це анонс нового продукту OpenAI.
Розмова продовжується далі, і штучний інтелект генерує здивовану реакцію і відповідні інтонації, чуючи, що анонс стосується його самого.
Також було продемонстровано взаємодію з лінійними рівняннями (ШІ допоміг розв'язати рівняння на папері в режимі реального часу), а також із тим, як ChatGPT дивиться на чиєсь обличчя (після того, як йому було сказано не брати до уваги попередні зображення) і використовує це зображення для визначення настрою людини. Ще одна вражаюча демонстрація – як ШІ надає рекомендації щодо глибокого дихання одному з керівників OpenAI, просто прислухаючись до його дихання!
Наступною вражаючою демонстрацією була прокачана аудіовзаємодія з ChatGPT. Тепер користувач може не лише перебивати фрази ШІ, а й значно краще керувати чат-ботом за допомогою голосу, використовуючи такі команди, як "бути більш драматичним" або "звучати більше як робот", регулюючи звучання голосу ChatGPT. Ось, як це працює на практиці:
Ще одна корисна можливість – це асистент у відеодзвінках:
GPT-4o також може конспектувати ваші віртуальні зустрічі, виокремлюючи голоси різних людей і транскрибуючи в текст кожну окрему фразу спікерів, розділяючи їх за особами.
Також у наявності:
- Розуміння/налагодження програмного коду за допомогою голосових команд.
- Розміщення логотипа чи іншого зображення/знака на зображенні.
- Перетворення фото в карикатуру, стилізований малюнок та інша обробка знімків.
- Створення постерів з ваших фото, навіть якщо це два окремі зображення, які треба поєднати в одне.
- Синтез анімованих 3D-об'єктів.
- Додавання тесту до зображень, навіть якщо це багато рядків.
Дивіться також ChatGPT тепер можна використовувати без реєстрації: як це працює
Більше про GPT-4o
У OpenAI заявили, що GPT-4o навчався на тексті, зоровому сприйнятті та аудіо, а це означає, що всі вхідні та вихідні дані обробляються однією нейронною мережею. Це відрізняється від попередніх моделей компанії, GPT-3.5 і GPT-4, які дозволяли користувачам ставити запитання, просто розмовляючи, але потім транскрибували мову в текст. Це позбавляло інтонації та емоцій і робило взаємодію повільнішою.
OpenAI робить нову модель доступною для всіх, включаючи безкоштовних користувачів ChatGPT, протягом наступних кількох тижнів, а також випускає десктопну версію ChatGPT, спочатку для Mac, до якої платні користувачі отримали доступ учора. Це вельми дивно, враховуючи, що Microsoft, яка розробила ОС Windows, вклала в компанію і в цей ШІ понад 10 мільярдів доларів.
Оголошення OpenAI відбулося за день до Google I/O, щорічної конференції для розробників. На ній ми також очікуємо чогось цікавого про штучний інтелект Gemini. Тож тепер особливо цікаво, чи матиме Google чим відповісти.