Sumber gambar: Dihasilkan oleh alat AI Tak Terbatas
Stabilitas AI dikenal dengan model generatif teks-ke-gambar Difusi Stabil, tetapi tidak hanya itu yang tertarik untuk dikembangkan oleh startup AI generatif. Stabilitas AI memasuki dunia pembuatan kode.
Pada 8 Agustus, Stability AI mengumumkan rilis publik pertama StableCode, Model Bahasa Besar (LLM) terbuka baru yang dirancang untuk membantu pengguna menghasilkan kode untuk bahasa pemrograman. StableCode memiliki tiga level berbeda: model dasar untuk kasus penggunaan umum, model instruksi, dan model jendela konteks panjang yang dapat mendukung hingga 16.000 token.
*Sumber: Stabilitas AI (Perbandingan Stabilitas AI dengan model lain dengan jumlah parameter dan jumlah token yang sama yang dilatih. Stabilitas AI menggunakan tolok ukur Manusia yang populer dengan metrik pass@1 dan pass@10 standar.)*
Model StableCode mendapat manfaat dari kumpulan data bahasa pemrograman awal dari proyek BigCode open-source, dengan pemfilteran tambahan dan penyempurnaan yang disediakan oleh Stability AI. Awalnya, StableCode akan mendukung pengembangan dalam bahasa pemrograman Python, Go, Java, Java, C, Markdown, dan C++.
“Kami ingin menggunakan model ini untuk melakukan sesuatu yang mirip dengan Stable Diffusion, yang bertujuan untuk membantu semua orang di dunia menjadi seorang seniman,” kata Christian Laforte, direktur penelitian Stability AI, dalam wawancara eksklusif dengan VentureBeat. model StableCode untuk melakukan hal yang sama: pada dasarnya biarkan siapa pun dengan ide bagus menulis program untuk menyelesaikan masalah ini."
StableCode: Membangun BigCode dan Ide Besar
Pelatihan LLM apa pun bergantung pada data, dan untuk StableCode, data ini berasal dari proyek BigCode. Menggunakan BigCode sebagai dasar untuk alat kode AI generatif LLM bukanlah ide baru. HuggingFace dan ServiceNow meluncurkan StarCoder LLM terbuka pada awal Mei tahun ini, yang dasarnya adalah BigCode.
Ilmuwan peneliti utama Stabilitas AI Nathan Cooper menjelaskan dalam wawancara eksklusif dengan VentureBeat bahwa pelatihan untuk StableCode melibatkan pemfilteran dan pembersihan data BigCode secara ekstensif.
“Kami sangat menyukai BigCode, mereka telah melakukan banyak pekerjaan luar biasa dalam tata kelola data, tata kelola model, dan pelatihan model,” kata Cooper. "Kami mengambil kumpulan data mereka dan menerapkan filter kualitas tambahan, dan juga membuat versi model jendela konteks besar, yang kemudian dilatih di kluster kami."
Stabilitas AI melakukan sejumlah langkah pelatihan selain model inti BigCode, kata Cooper. Langkah-langkah ini termasuk pelatihan berturut-turut dalam bahasa pemrograman tertentu. Menurut deskripsi di situs resminya, StableCode melatih model dengan 560 miliar token kode pada kluster komputasi berkinerja tinggi.
"Dibutuhkan pendekatan yang sangat mirip dengan bidang bahasa alami dengan terlebih dahulu melatih model tujuan umum dan kemudian menyempurnakannya pada serangkaian tugas tertentu, dalam hal ini bahasa," kata Cooper.
StableCode Panjang token yang lebih panjang akan mengubah aturan permainan pembuatan kode
Selain fondasi BigCode, versi konteks panjang dari StableCode memberikan manfaat yang signifikan bagi pengguna.
StableCode versi jendela konteks panjang memiliki jendela konteks 16.000 token, yang menurut Stability AI lebih besar daripada model lainnya. Jendela konteks yang lebih panjang memungkinkan petunjuk pembuatan kode yang lebih khusus dan kompleks, jelas Cooper. Ini juga berarti bahwa pengguna dapat membuat StableCode melihat basis kode berukuran sedang dengan banyak file untuk membantu memahami dan menghasilkan kode baru.
"Anda dapat menggunakan jendela konteks yang lebih panjang ini agar model mempelajari lebih lanjut tentang basis kode Anda dan fitur apa yang ditentukan dalam file lain," kata Cooper. basis kode dan persyaratan."
Pembuatan kode yang lebih baik dengan RoPE
Seperti semua model generatif AI modern, StableCode didasarkan pada jaringan saraf transformator.
Alih-alih menggunakan metode ALiBi (Attention with Linear Biases) untuk melokalkan output dalam model transformator (yang digunakan StarCoder dalam model pengkodean AI generatif terbuka), StableCode menggunakan metode yang disebut RoPE.
Pendekatan ALiBi dalam model transformator cenderung lebih membebani token saat ini daripada token sebelumnya, kata Cooper. Dalam pandangannya, ini bukanlah pendekatan yang ideal untuk kode karena, tidak seperti bahasa alami, kode tidak memiliki struktur naratif yang tetap dengan awal, tengah, dan akhir. Fungsionalitas kode dapat didefinisikan untuk setiap titik dalam proses aplikasi.
"Menurut saya kode itu sendiri tidak sesuai dengan gagasan bahwa pertukaran ini lebih penting sekarang daripada sebelumnya, jadi kami menggunakan ... RoPE, [yang] tidak memiliki bias itu."
Saat ini, StableCode sedang dalam tahap awal, dan tujuan dari rilis pertama adalah untuk memahami bagaimana model tersebut akan dianut dan digunakan oleh pengembang.
“Kami akan terlibat dan berkolaborasi dengan komunitas untuk melihat arah keren apa yang mereka buat dan menjelajahi ruang pengembang generatif,” kata Cooper.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Stabilitas AI memasuki bidang pemrograman dan merilis StableCode, alat dengan jendela konteks hingga 16.000 token
Ditulis oleh: Sean Michael Kerner
Sumber: VentureBeat
Stabilitas AI dikenal dengan model generatif teks-ke-gambar Difusi Stabil, tetapi tidak hanya itu yang tertarik untuk dikembangkan oleh startup AI generatif. Stabilitas AI memasuki dunia pembuatan kode.
Pada 8 Agustus, Stability AI mengumumkan rilis publik pertama StableCode, Model Bahasa Besar (LLM) terbuka baru yang dirancang untuk membantu pengguna menghasilkan kode untuk bahasa pemrograman. StableCode memiliki tiga level berbeda: model dasar untuk kasus penggunaan umum, model instruksi, dan model jendela konteks panjang yang dapat mendukung hingga 16.000 token.
Model StableCode mendapat manfaat dari kumpulan data bahasa pemrograman awal dari proyek BigCode open-source, dengan pemfilteran tambahan dan penyempurnaan yang disediakan oleh Stability AI. Awalnya, StableCode akan mendukung pengembangan dalam bahasa pemrograman Python, Go, Java, Java, C, Markdown, dan C++.
“Kami ingin menggunakan model ini untuk melakukan sesuatu yang mirip dengan Stable Diffusion, yang bertujuan untuk membantu semua orang di dunia menjadi seorang seniman,” kata Christian Laforte, direktur penelitian Stability AI, dalam wawancara eksklusif dengan VentureBeat. model StableCode untuk melakukan hal yang sama: pada dasarnya biarkan siapa pun dengan ide bagus menulis program untuk menyelesaikan masalah ini."
StableCode: Membangun BigCode dan Ide Besar
Pelatihan LLM apa pun bergantung pada data, dan untuk StableCode, data ini berasal dari proyek BigCode. Menggunakan BigCode sebagai dasar untuk alat kode AI generatif LLM bukanlah ide baru. HuggingFace dan ServiceNow meluncurkan StarCoder LLM terbuka pada awal Mei tahun ini, yang dasarnya adalah BigCode.
Ilmuwan peneliti utama Stabilitas AI Nathan Cooper menjelaskan dalam wawancara eksklusif dengan VentureBeat bahwa pelatihan untuk StableCode melibatkan pemfilteran dan pembersihan data BigCode secara ekstensif.
“Kami sangat menyukai BigCode, mereka telah melakukan banyak pekerjaan luar biasa dalam tata kelola data, tata kelola model, dan pelatihan model,” kata Cooper. "Kami mengambil kumpulan data mereka dan menerapkan filter kualitas tambahan, dan juga membuat versi model jendela konteks besar, yang kemudian dilatih di kluster kami."
Stabilitas AI melakukan sejumlah langkah pelatihan selain model inti BigCode, kata Cooper. Langkah-langkah ini termasuk pelatihan berturut-turut dalam bahasa pemrograman tertentu. Menurut deskripsi di situs resminya, StableCode melatih model dengan 560 miliar token kode pada kluster komputasi berkinerja tinggi.
"Dibutuhkan pendekatan yang sangat mirip dengan bidang bahasa alami dengan terlebih dahulu melatih model tujuan umum dan kemudian menyempurnakannya pada serangkaian tugas tertentu, dalam hal ini bahasa," kata Cooper.
StableCode Panjang token yang lebih panjang akan mengubah aturan permainan pembuatan kode
Selain fondasi BigCode, versi konteks panjang dari StableCode memberikan manfaat yang signifikan bagi pengguna.
StableCode versi jendela konteks panjang memiliki jendela konteks 16.000 token, yang menurut Stability AI lebih besar daripada model lainnya. Jendela konteks yang lebih panjang memungkinkan petunjuk pembuatan kode yang lebih khusus dan kompleks, jelas Cooper. Ini juga berarti bahwa pengguna dapat membuat StableCode melihat basis kode berukuran sedang dengan banyak file untuk membantu memahami dan menghasilkan kode baru.
"Anda dapat menggunakan jendela konteks yang lebih panjang ini agar model mempelajari lebih lanjut tentang basis kode Anda dan fitur apa yang ditentukan dalam file lain," kata Cooper. basis kode dan persyaratan."
Pembuatan kode yang lebih baik dengan RoPE
Seperti semua model generatif AI modern, StableCode didasarkan pada jaringan saraf transformator.
Alih-alih menggunakan metode ALiBi (Attention with Linear Biases) untuk melokalkan output dalam model transformator (yang digunakan StarCoder dalam model pengkodean AI generatif terbuka), StableCode menggunakan metode yang disebut RoPE.
Pendekatan ALiBi dalam model transformator cenderung lebih membebani token saat ini daripada token sebelumnya, kata Cooper. Dalam pandangannya, ini bukanlah pendekatan yang ideal untuk kode karena, tidak seperti bahasa alami, kode tidak memiliki struktur naratif yang tetap dengan awal, tengah, dan akhir. Fungsionalitas kode dapat didefinisikan untuk setiap titik dalam proses aplikasi.
"Menurut saya kode itu sendiri tidak sesuai dengan gagasan bahwa pertukaran ini lebih penting sekarang daripada sebelumnya, jadi kami menggunakan ... RoPE, [yang] tidak memiliki bias itu."
Saat ini, StableCode sedang dalam tahap awal, dan tujuan dari rilis pertama adalah untuk memahami bagaimana model tersebut akan dianut dan digunakan oleh pengembang.
“Kami akan terlibat dan berkolaborasi dengan komunitas untuk melihat arah keren apa yang mereka buat dan menjelajahi ruang pengembang generatif,” kata Cooper.