Джерело зображення: створено інструментом Unbounded AI
Stability AI відомий своєю генеративною моделлю Stable Diffusion тексту в зображення, але це ще не все, у чому зацікавлений стартап генеративного AI. Стабільність ШІ проникає у світ генерації коду.
8 серпня Stability AI оголосила про перший публічний випуск StableCode, своєї нової відкритої великої мовної моделі (LLM), розробленої, щоб допомогти користувачам генерувати код для мов програмування. StableCode має три різні рівні: базову модель для загальних випадків використання, модель інструкцій і модель довгого контекстного вікна, яка може підтримувати до 16000 токенів.
*Джерело: ШІ стабільності (Порівняння ШІ стабільності з іншими моделями з аналогічною кількістю параметрів і кількістю навчених токенів. ШІ стабільності використовує популярний еталонний тест Human зі стандартними показниками pass@1 і pass@10.)*
Моделі StableCode користуються перевагами початкових наборів даних мов програмування з проекту BigCode з відкритим кодом із додатковою фільтрацією та тонким налаштуванням, які надає Stability AI. Спочатку StableCode підтримуватиме розробку на мовах програмування Python, Go, Java, Java, C, Markdown і C++.
«Ми хочемо використати цю модель, щоб зробити щось подібне до Stable Diffusion, яка має на меті допомогти всім у світі стати художником, — сказав Крістіан Лафорте, директор із дослідження стабільності штучного інтелекту, в ексклюзивному інтерв’ю VentureBeat. — Ми хочемо використовувати модель StableCode робити те ж саме: загалом дозволити будь-кому, хто має гарну ідею, написати програму для вирішення цієї проблеми».
StableCode: на основі BigCode і великих ідей
Навчання будь-якого LLM покладається на дані, а для StableCode ці дані надходять із проекту BigCode. Використання BigCode як основи для інструменту генеративного коду ШІ LLM не є новою ідеєю. HuggingFace і ServiceNow запустили відкритий StarCoder LLM ще в травні цього року, основою якого є BigCode.
Головний дослідник зі стабільності ШІ Натан Купер пояснив в ексклюзивному інтерв’ю VentureBeat, що навчання для StableCode передбачало інтенсивну фільтрацію та очищення даних BigCode.
«Нам дуже подобається BigCode, вони зробили багато чудової роботи з керування даними, моделюванням і навчанням моделям», — сказав Купер. «Ми взяли їхній набір даних і застосували додаткові фільтри якості, а також створили версію моделі з великим контекстним вікном, яку потім навчили на нашому кластері».
За словами Купера, Stability AI виконує ряд етапів навчання на додаток до базової моделі BigCode. Ці кроки включають послідовне навчання певній мові програмування. Згідно з описом на офіційному веб-сайті, StableCode навчив модель за допомогою 560 мільярдів кодових токенів на своєму високопродуктивному обчислювальному кластері.
«Це використовує підхід, дуже схожий на сферу природної мови: спочатку попереднє навчання загальної моделі, а потім її тонке налаштування для конкретного набору завдань, у цьому випадку мови», — сказав Купер.
StableCode Більша довжина токена змінить правила гри в генерацію коду
На додаток до основи BigCode, версія StableCode з довгим контекстом приносить користувачам значні переваги.
Версія StableCode з довгим контекстним вікном має контекстне вікно з 16 000 токенів, яке, за словами Stability AI, більше, ніж будь-яка інша модель. Довші контекстні вікна дозволяють використовувати більш спеціалізовані та складні підказки для генерації коду, пояснив Купер. Це також означає, що користувачі можуть переглядати StableCode базу коду помірного розміру з кількома файлами, щоб допомогти зрозуміти та створити новий код.
«Ви можете використовувати це довше вікно контексту, щоб дозволити моделі дізнатися більше про вашу кодову базу та про те, які функції визначені в інших файлах, — сказав Купер. кодову базу та вимоги».
Краще створення коду з RoPE
Як і всі сучасні генеративні моделі штучного інтелекту, StableCode базується на трансформаторних нейронних мережах.
Замість використання методу ALiBi (Attention with Linear Biases) для локалізації виходу в моделі трансформатора (який StarCoder використовує у своїй відкритій генеративній моделі кодування ШІ), StableCode використовує метод під назвою RoPE.
За словами Купера, підхід ALiBi в моделі трансформатора, як правило, більше впливає на поточні токени, ніж на минулі. На його думку, це не ідеальний підхід для коду, оскільки, на відміну від природної мови, код не має фіксованої наративної структури з початком, серединою та кінцем. Функціональність коду можна визначити для будь-якої точки процесу застосування.
«Я не думаю, що сам код відповідає ідеї, що цей компроміс є важливішим зараз, ніж був раніше, тому ми використовуємо ... RoPE, [який] не має такого упередження».
Наразі StableCode знаходиться на ранніх стадіях, і мета першого випуску — зрозуміти, як цю модель сприйматимуть і використовуватимуть розробники.
«Ми залучатимемо спільноту та співпрацюватимемо з нею, щоб побачити, які цікаві напрямки вони придумають, і досліджувати простір генеративного розробника», — сказав Купер.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Stability AI виходить у сферу програмування та випускає StableCode, інструмент із вікном контексту до 16 000 токенів
Автор: Шон Майкл Кернер
Джерело: VentureBeat
Stability AI відомий своєю генеративною моделлю Stable Diffusion тексту в зображення, але це ще не все, у чому зацікавлений стартап генеративного AI. Стабільність ШІ проникає у світ генерації коду.
8 серпня Stability AI оголосила про перший публічний випуск StableCode, своєї нової відкритої великої мовної моделі (LLM), розробленої, щоб допомогти користувачам генерувати код для мов програмування. StableCode має три різні рівні: базову модель для загальних випадків використання, модель інструкцій і модель довгого контекстного вікна, яка може підтримувати до 16000 токенів.
Моделі StableCode користуються перевагами початкових наборів даних мов програмування з проекту BigCode з відкритим кодом із додатковою фільтрацією та тонким налаштуванням, які надає Stability AI. Спочатку StableCode підтримуватиме розробку на мовах програмування Python, Go, Java, Java, C, Markdown і C++.
«Ми хочемо використати цю модель, щоб зробити щось подібне до Stable Diffusion, яка має на меті допомогти всім у світі стати художником, — сказав Крістіан Лафорте, директор із дослідження стабільності штучного інтелекту, в ексклюзивному інтерв’ю VentureBeat. — Ми хочемо використовувати модель StableCode робити те ж саме: загалом дозволити будь-кому, хто має гарну ідею, написати програму для вирішення цієї проблеми».
StableCode: на основі BigCode і великих ідей
Навчання будь-якого LLM покладається на дані, а для StableCode ці дані надходять із проекту BigCode. Використання BigCode як основи для інструменту генеративного коду ШІ LLM не є новою ідеєю. HuggingFace і ServiceNow запустили відкритий StarCoder LLM ще в травні цього року, основою якого є BigCode.
Головний дослідник зі стабільності ШІ Натан Купер пояснив в ексклюзивному інтерв’ю VentureBeat, що навчання для StableCode передбачало інтенсивну фільтрацію та очищення даних BigCode.
«Нам дуже подобається BigCode, вони зробили багато чудової роботи з керування даними, моделюванням і навчанням моделям», — сказав Купер. «Ми взяли їхній набір даних і застосували додаткові фільтри якості, а також створили версію моделі з великим контекстним вікном, яку потім навчили на нашому кластері».
За словами Купера, Stability AI виконує ряд етапів навчання на додаток до базової моделі BigCode. Ці кроки включають послідовне навчання певній мові програмування. Згідно з описом на офіційному веб-сайті, StableCode навчив модель за допомогою 560 мільярдів кодових токенів на своєму високопродуктивному обчислювальному кластері.
«Це використовує підхід, дуже схожий на сферу природної мови: спочатку попереднє навчання загальної моделі, а потім її тонке налаштування для конкретного набору завдань, у цьому випадку мови», — сказав Купер.
StableCode Більша довжина токена змінить правила гри в генерацію коду
На додаток до основи BigCode, версія StableCode з довгим контекстом приносить користувачам значні переваги.
Версія StableCode з довгим контекстним вікном має контекстне вікно з 16 000 токенів, яке, за словами Stability AI, більше, ніж будь-яка інша модель. Довші контекстні вікна дозволяють використовувати більш спеціалізовані та складні підказки для генерації коду, пояснив Купер. Це також означає, що користувачі можуть переглядати StableCode базу коду помірного розміру з кількома файлами, щоб допомогти зрозуміти та створити новий код.
«Ви можете використовувати це довше вікно контексту, щоб дозволити моделі дізнатися більше про вашу кодову базу та про те, які функції визначені в інших файлах, — сказав Купер. кодову базу та вимоги».
Краще створення коду з RoPE
Як і всі сучасні генеративні моделі штучного інтелекту, StableCode базується на трансформаторних нейронних мережах.
Замість використання методу ALiBi (Attention with Linear Biases) для локалізації виходу в моделі трансформатора (який StarCoder використовує у своїй відкритій генеративній моделі кодування ШІ), StableCode використовує метод під назвою RoPE.
За словами Купера, підхід ALiBi в моделі трансформатора, як правило, більше впливає на поточні токени, ніж на минулі. На його думку, це не ідеальний підхід для коду, оскільки, на відміну від природної мови, код не має фіксованої наративної структури з початком, серединою та кінцем. Функціональність коду можна визначити для будь-якої точки процесу застосування.
«Я не думаю, що сам код відповідає ідеї, що цей компроміс є важливішим зараз, ніж був раніше, тому ми використовуємо ... RoPE, [який] не має такого упередження».
Наразі StableCode знаходиться на ранніх стадіях, і мета першого випуску — зрозуміти, як цю модель сприйматимуть і використовуватимуть розробники.
«Ми залучатимемо спільноту та співпрацюватимемо з нею, щоб побачити, які цікаві напрямки вони придумають, і досліджувати простір генеративного розробника», — сказав Купер.