Нова ШІ-модель Dolly з відкритим кодом дозволить безплатно створити конкурентів ChatGPT

Олександр Гайдамашко

Джерело:

ArsTechnica

З'явилася перша повністю безплатна мовна модель Dolly для створення аналогів ChatGPT

Dolly / Databricks

Постачальник рішень для аналітики великих даних і машинного навчання Databricks оголосив про вихід Dolly 2.0, моделі генеративного штучного інтелекту наступного покоління з відкритим вихідним кодом, яка має схожі з ChatGPT можливості.

Dolly 2.0, як і попередниця Dolly, що вийшла кілька тижнів тому, використовує менший набір даних, ніж є у більшості великих мовних моделей. Dolly мала 6 мільярдів параметрів, а в Dolly 2.0 їх удвічі більше – 12 мільярдів. Для порівняння, у GPT-3 – 175 мільярдів параметрів. Повідомляють, що Dolly 2.0 було побудовано на високоякісному наборі даних.

Цікаво Ілон Маск купив тисячі відеокарт – імовірно, для свого проєкту розробки штучного інтелекту

Що пропонує нова мовна модель

Відмінною особливістю нових моделей генеративного ШІ є можливість використовувати власний набір даних навчання для створення зв'язних речень і відповідей на запитання користувачів. І Dolly 2.0 може робити це, навіть попри набагато менший обсяг вихідних даних, ніж у моделей OpenAI. Це дає змогу використовувати модель на власних серверах без необхідності ділитися даними зі сторонніми організаціями.

Ми вважаємо, що такі моделі, як Dolly, допоможуть демократизувати LLM, перетворивши їх із того, що можуть собі дозволити далеко не всі компанії, на товар, яким може володіти кожна компанія і який можна налаштовувати для поліпшення своїх продуктів,
– заявили в Databricks.

Керівник Databricks у коментарі виданню SiliconANGLE підкреслив, що підприємства "можуть монетизувати Dolly 2.0". Компанія пропонує Dolly 2.0 під ліцензією Creative Commons, з повністю відкритими початковим кодом і набором даних для навчання databricks-dolly-15k, який містить 15 тисяч високоякісних пар запитів і відповідей, створених людиною. Усе це можна вільно використовувати, змінювати й доповнювати, а також задіяти в комерційних проєктах, нічого нікому не сплачуючи.

Як стверджує Databricks, наразі Dolly 2.0 є єдиною моделлю, яка не має ліцензійних обмежень. Інші моделі, включно з Alpaca, Koala, GPT4All і Vicuna, не можна використовувати в комерційних цілях через використання навчальних даних, наданих їм із певними умовами.

Цікаво, що початковий варіант Dolly було навчено на даних Stanford Alpaca з використанням API OpenAI, тож її не можна було використовувати з комерційною метою.