Fonte da imagem: Gerada pela ferramenta Unbounded AI
A Stability AI é conhecida por seu modelo generativo Stable Diffusion text-to-image, mas isso não é tudo o que a startup de IA generativa está interessada em desenvolver. Stability AI está entrando no mundo da geração de código.
Em 8 de agosto, a Stability AI anunciou o primeiro lançamento público do StableCode, seu novo Large Language Model (LLM) aberto, projetado para ajudar os usuários a gerar código para linguagens de programação. O StableCode tem três níveis diferentes: um modelo básico para casos de uso geral, um modelo de instrução e um modelo de janela de contexto longo que pode suportar até 16.000 tokens.
*Fonte: Stability AI (comparação de Stability AI com outros modelos com número similar de parâmetros e número de tokens treinados. Stability AI usa o popular benchmark Human com métricas pass@1 e pass@10 padrão.)*
Os modelos StableCode se beneficiam dos conjuntos de dados de linguagem de programação inicial do projeto BigCode de código aberto, com filtragem adicional e ajuste fino fornecidos pela Stability AI. Inicialmente, o StableCode oferecerá suporte ao desenvolvimento nas linguagens de programação Python, Go, Java, Java, C, Markdown e C++.
“Queremos usar esse modelo para fazer algo semelhante ao Stable Diffusion, que visa ajudar todos no mundo a se tornarem artistas”, disse Christian Laforte, diretor de pesquisa de Stability AI, em entrevista exclusiva ao VentureBeat. “Queremos usar o modelo StableCode para fazer a mesma coisa: basicamente deixar qualquer pessoa com uma boa ideia escrever um programa para resolver este problema."
StableCode: Desenvolvendo BigCode e Grandes Ideias
O treinamento de qualquer LLM depende de dados e, para StableCode, esses dados vêm do projeto BigCode. Usar o BigCode como base para uma ferramenta de código AI generativa LLM não é uma ideia nova. A HuggingFace e a ServiceNow lançaram o StarCoder LLM aberto em maio deste ano, cuja base é o BigCode.
O principal cientista de pesquisa da Stability AI, Nathan Cooper, explicou em uma entrevista exclusiva ao VentureBeat que o treinamento para o StableCode envolveu extensa filtragem e limpeza dos dados do BigCode.
“Gostamos muito do BigCode, eles fizeram um trabalho incrível em governança de dados, governança de modelos e treinamento de modelos”, disse Cooper. "Pegamos o conjunto de dados e aplicamos filtros de qualidade adicionais e também construímos uma grande versão de janela de contexto do modelo, que foi então treinada em nosso cluster."
A Stability AI executa uma série de etapas de treinamento, além do modelo principal do BigCode, disse Cooper. Essas etapas incluem treinamento sucessivo em uma linguagem de programação específica. De acordo com a descrição no site oficial, a StableCode treinou o modelo com 560 bilhões de tokens de código em seu cluster de computação de alto desempenho.
“É preciso uma abordagem muito semelhante ao campo da linguagem natural, primeiro pré-treinando um modelo de uso geral e depois ajustando-o em um conjunto específico de tarefas, neste caso, a linguagem.” disse Cooper.
StableCode Maior comprimento de token mudará as regras do jogo de geração de código
Além da base do BigCode, a versão de longo contexto do StableCode traz benefícios significativos para os usuários.
A versão de janela de contexto longa do StableCode tem uma janela de contexto de 16.000 tokens, que a Stability AI diz ser maior do que qualquer outro modelo. Janelas de contexto mais longas permitem dicas de geração de código mais especializadas e complexas, explicou Cooper. Isso também significa que os usuários podem fazer com que o StableCode examine uma base de código de tamanho moderado com vários arquivos para ajudar a entender e gerar um novo código.
"Você pode usar essa janela de contexto mais longa para permitir que o modelo aprenda mais sobre sua base de código e quais recursos são definidos em outros arquivos", disse Cooper. Base de código e requisitos."
Melhor geração de código com RoPE
Como todos os modelos geradores de IA modernos, o StableCode é baseado em redes neurais transformadoras.
Em vez de usar o método ALiBi (Atenção com vieses lineares) para localizar a saída no modelo do transformador (que o StarCoder usa em seu modelo de codificação AI generativo aberto), o StableCode usa um método chamado RoPE.
A abordagem ALiBi no modelo do transformador tende a pesar mais nos tokens atuais do que nos tokens anteriores, disse Cooper. Em sua opinião, esta não é uma abordagem ideal para o código porque, ao contrário da linguagem natural, o código não possui uma estrutura narrativa fixa com começo, meio e fim. A funcionalidade do código pode ser definida para qualquer ponto no processo de inscrição.
"Não acho que o código em si se encaixe na ideia de que essa troca é mais importante agora do que costumava ser, então usamos... RoPE, [que] não tem esse viés."
Atualmente, o StableCode está em seus estágios iniciais, e o objetivo da primeira versão é entender como o modelo será adotado e usado pelos desenvolvedores.
“Estaremos engajando e colaborando com a comunidade para ver quais direções interessantes eles apresentam e explorar o espaço generativo do desenvolvedor”, disse Cooper.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Stability AI entra no campo da programação e lança StableCode, ferramenta com janela de contexto de até 16.000 tokens
Escrito por: Sean Michael Kerner
Fonte: VentureBeat
A Stability AI é conhecida por seu modelo generativo Stable Diffusion text-to-image, mas isso não é tudo o que a startup de IA generativa está interessada em desenvolver. Stability AI está entrando no mundo da geração de código.
Em 8 de agosto, a Stability AI anunciou o primeiro lançamento público do StableCode, seu novo Large Language Model (LLM) aberto, projetado para ajudar os usuários a gerar código para linguagens de programação. O StableCode tem três níveis diferentes: um modelo básico para casos de uso geral, um modelo de instrução e um modelo de janela de contexto longo que pode suportar até 16.000 tokens.
Os modelos StableCode se beneficiam dos conjuntos de dados de linguagem de programação inicial do projeto BigCode de código aberto, com filtragem adicional e ajuste fino fornecidos pela Stability AI. Inicialmente, o StableCode oferecerá suporte ao desenvolvimento nas linguagens de programação Python, Go, Java, Java, C, Markdown e C++.
“Queremos usar esse modelo para fazer algo semelhante ao Stable Diffusion, que visa ajudar todos no mundo a se tornarem artistas”, disse Christian Laforte, diretor de pesquisa de Stability AI, em entrevista exclusiva ao VentureBeat. “Queremos usar o modelo StableCode para fazer a mesma coisa: basicamente deixar qualquer pessoa com uma boa ideia escrever um programa para resolver este problema."
StableCode: Desenvolvendo BigCode e Grandes Ideias
O treinamento de qualquer LLM depende de dados e, para StableCode, esses dados vêm do projeto BigCode. Usar o BigCode como base para uma ferramenta de código AI generativa LLM não é uma ideia nova. A HuggingFace e a ServiceNow lançaram o StarCoder LLM aberto em maio deste ano, cuja base é o BigCode.
O principal cientista de pesquisa da Stability AI, Nathan Cooper, explicou em uma entrevista exclusiva ao VentureBeat que o treinamento para o StableCode envolveu extensa filtragem e limpeza dos dados do BigCode.
“Gostamos muito do BigCode, eles fizeram um trabalho incrível em governança de dados, governança de modelos e treinamento de modelos”, disse Cooper. "Pegamos o conjunto de dados e aplicamos filtros de qualidade adicionais e também construímos uma grande versão de janela de contexto do modelo, que foi então treinada em nosso cluster."
A Stability AI executa uma série de etapas de treinamento, além do modelo principal do BigCode, disse Cooper. Essas etapas incluem treinamento sucessivo em uma linguagem de programação específica. De acordo com a descrição no site oficial, a StableCode treinou o modelo com 560 bilhões de tokens de código em seu cluster de computação de alto desempenho.
“É preciso uma abordagem muito semelhante ao campo da linguagem natural, primeiro pré-treinando um modelo de uso geral e depois ajustando-o em um conjunto específico de tarefas, neste caso, a linguagem.” disse Cooper.
StableCode Maior comprimento de token mudará as regras do jogo de geração de código
Além da base do BigCode, a versão de longo contexto do StableCode traz benefícios significativos para os usuários.
A versão de janela de contexto longa do StableCode tem uma janela de contexto de 16.000 tokens, que a Stability AI diz ser maior do que qualquer outro modelo. Janelas de contexto mais longas permitem dicas de geração de código mais especializadas e complexas, explicou Cooper. Isso também significa que os usuários podem fazer com que o StableCode examine uma base de código de tamanho moderado com vários arquivos para ajudar a entender e gerar um novo código.
"Você pode usar essa janela de contexto mais longa para permitir que o modelo aprenda mais sobre sua base de código e quais recursos são definidos em outros arquivos", disse Cooper. Base de código e requisitos."
Melhor geração de código com RoPE
Como todos os modelos geradores de IA modernos, o StableCode é baseado em redes neurais transformadoras.
Em vez de usar o método ALiBi (Atenção com vieses lineares) para localizar a saída no modelo do transformador (que o StarCoder usa em seu modelo de codificação AI generativo aberto), o StableCode usa um método chamado RoPE.
A abordagem ALiBi no modelo do transformador tende a pesar mais nos tokens atuais do que nos tokens anteriores, disse Cooper. Em sua opinião, esta não é uma abordagem ideal para o código porque, ao contrário da linguagem natural, o código não possui uma estrutura narrativa fixa com começo, meio e fim. A funcionalidade do código pode ser definida para qualquer ponto no processo de inscrição.
"Não acho que o código em si se encaixe na ideia de que essa troca é mais importante agora do que costumava ser, então usamos... RoPE, [que] não tem esse viés."
Atualmente, o StableCode está em seus estágios iniciais, e o objetivo da primeira versão é entender como o modelo será adotado e usado pelos desenvolvedores.
“Estaremos engajando e colaborando com a comunidade para ver quais direções interessantes eles apresentam e explorar o espaço generativo do desenvolvedor”, disse Cooper.