Yapay Zeka Büyük Model Savaşı: Mühendislik Mi Kazanacak Yoksa Algoritma mı?

AI alanındaki yüz model savaşı: Mühendislik sorunu mu yoksa bilimsel zorluk mu?

Geçen ay, AI sektöründe bir "hayvan savaşı" patlak verdi.

Bir taraf, Meta tarafından piyasaya sürülen Llama'dır ve açık kaynak özelliği sayesinde geliştirici topluluğu tarafından büyük ilgi görmektedir. Diğer taraf ise Falcon adında büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldü ve "açık kaynak LLM sıralamasında" zirveye yerleşti.

Bu liste, açık kaynaklı model topluluğu tarafından hazırlanmıştır ve LLM yeteneklerini ölçmek için bir standart sunmakta ve sıralama yapmaktadır. Sıralama temelde Llama ve Falcon'un sırayla liste başı olduğu bir durumdur. Llama 2'nin piyasaya sürülmesiyle, Llama ailesi bir galibiyet elde etti; Eylül ayının başında, Falcon 180B sürümünü piyasaya sürdü ve daha yüksek bir sıralama elde etti.

İlginçtir ki, "Şahin" geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'deki Teknoloji ve İnovasyon Araştırma Enstitüsü'dür. Yetkililer, "Bu oyuna katılmamızın nedeni ana oyuncuları alt üst etmektir" dedi.

180B versiyonunun yayınlandığı ikinci gün, Birleşik Arap Emirlikleri Yapay Zeka Bakanı Omar, "Zaman" dergisinin seçtiği "Yapay Zeka alanındaki en etkili 100 kişi" listesine girdi.

Artık AI alanı "kaos dönemi"ne girdi: maddi güce sahip ülkeler ve şirketler, kendi versiyonları olan ChatGPT'yi oluşturma planlarına sahip. Sadece Körfez ülkeleri arasında birden fazla oyuncu var - Ağustos'ta Suudi Arabistan, yerel üniversiteler için 3000'den fazla H100 satın aldı ve bunu LLM'yi eğitmek için kullandı.

Jinsha Nehri Yatırımcı Zhu Xiaohu daha önce şunları söylemişti: "Bir zamanlar internetin iş modeli yeniliklerini küçümsemiştim, bir engel olmadığını düşünmüştüm: yüzlerce takım savaşı, yüzlerce araç savaşı, yüzlerce yayın savaşı; ama sert teknoloji büyük model girişimlerinin hala yüzlerce model savaşı olduğunu görmek beni şaşırttı..."

Söylenilen yüksek zorlukta sert teknoloji, nasıl oldu da bir ülke bir model ve dönüm başına yüz bin kilo oldu?

Transformer Dünyayı Yutuyor

Amerika'daki girişimler, Çinli teknoloji devleri ve Orta Doğu'daki petrol baronları büyük modellerini hayal edebiliyorsa, bunu o ünlü makaleye borçlular: "Attention Is All You Need."

2017'de, 8 Google bilgisayar bilimcisi bu makalede, Transformer algoritmasını tüm dünyaya açıkladı. Bu makale şu anda yapay zeka tarihindeki en çok atıf yapılan üçüncü makaledir; Transformer'ın ortaya çıkışı, bu yapay zeka dalgasının tetikleyicisi oldu.

Hangi ulustan olursa olsun, mevcut büyük modeller, dünya çapında ses getiren GPT serisi dahil, Transformer'ın omuzlarında yükselmektedir.

Bundan önce, "makineleri okumaya öğretmek" kabul görmüş bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar yazılı metinleri okurken sadece gördükleri kelimelere odaklanmakla kalmaz, aynı zamanda bağlamı da dikkate alarak anlamaya çalışırlar.

Erken dönemlerde sinir ağlarının girdileri birbirinden bağımsızdı ve uzun bir metni veya hatta bir makaleyi anlama yeteneğine sahip değildi, bu yüzden "开水间" ifadesinin "open water room" olarak çevrilmesi gibi sorunlar ortaya çıkıyordu.

2014 yılına kadar, Google'da çalışan ve daha sonra OpenAI'ye geçen bilgisayar bilimcisi Ilya ilk sonuçlarını çıkardı. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve bu sayede bir çeviri platformunun performansı rakiplerinden hızla ayrıştı.

RNN, her nöronunun hem mevcut anın giriş bilgilerini hem de bir önceki anın giriş bilgilerini kabul etmesini sağlayan "döngüsel tasarım"ı önerdi ve böylece sinir ağının "bağlamı birleştirme" yeteneğine sahip olmasını sağladı.

RNN'nin ortaya çıkışı akademik çevrelerde araştırma heyecanını ateşledi, daha sonra Transformer makalesinin yazarı Shahez de bir süre buna kapıldı. Ancak geliştiriciler kısa sürede RNN'nin ciddi bir eksikliği olduğunu fark ettiler:

Bu algoritma sıralı hesaplama kullanır, bu elbette bağlam sorunlarını çözebilir, ancak çalışma verimliliği yüksek değildir ve büyük miktarda parametreyi işlemek zordur.

RNN'nin karmaşık tasarımı, kısa sürede Shazer'i bunaltmaya başladı. Bu nedenle 2015'ten itibaren Shazer ve 7 benzer ilgi alanına sahip kişi, RNN'nin bir alternatifi üzerinde çalışmaya başladı ve bunun sonucunda Transformer ortaya çıktı.

RNN'ye kıyasla, Transformer'ın devrim niteliğindeki iki noktası vardır:

Birincisi, konum kodlaması kullanarak RNN'nin döngüsel tasarımını değiştirdi ve böylece paralel hesaplamayı gerçekleştirdi - bu değişiklik, Transformer'ın eğitim verimliliğini büyük ölçüde artırdı ve büyük verileri işleyebilmesini sağladı, AI'yı büyük model çağına taşıdı; ikincisi, bağlam yeteneğini daha da güçlendirdi.

Transformer birçok eksikliği tek seferde çözdükçe, yavaş yavaş NLP'nin (doğal dil işleme) tek çözümü haline geldi. "Eğer Transformer doğmasaydı, NLP sonsuz bir gece gibi olurdu" hissiyatını uyandırıyor. Hatta İlya, kendi elleriyle yücelttiği RNN'i terk ederek Transformer'a yöneldi.

Başka bir deyişle, Transformer günümüzdeki tüm büyük modellerin atasıdır çünkü onu büyük modelleri bir teorik araştırma sorunu olmaktan çıkarıp tamamen mühendislik sorunu haline getiriyor.

2019'da OpenAI, Transformer tabanlı GPT-2'yi geliştirdi ve akademik dünyayı bir süre şaşırttı. Buna yanıt olarak, Google daha güçlü bir yapay zeka olan Meena'yı hızla piyasaya sürdü.

GPT-2 ile karşılaştırıldığında, Meena'nın temel algoritmasında bir yenilik yoktur, sadece GPT-2'ye göre 8.5 kat daha fazla eğitim parametresi ve 14 kat daha fazla hesaplama gücüne sahiptir. Transformer makalesinin yazarı Szegedy, "şiddetli bir yığın" karşısında büyük bir şok yaşadı ve hemen "Meena dünyayı yutuyor" başlıklı bir not yazdı.

Transformer'ın ortaya çıkması, akademik alandaki temel algoritma yeniliklerinin hızını büyük ölçüde yavaşlattı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmalarında önemli birer kazanç veya kayıp faktörü haline geldi. Biraz teknik yeteneği olan teknoloji şirketleri, büyük bir model oluşturabilir hale geldi.

Bu nedenle, Stanford Üniversitesi'nde konuşma yapan bilgisayar bilimcisi Andrew Ng, şu görüşü dile getirdi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şu anda mevcut olan üretken yapay zeka dahil olmak üzere bir dizi aracın toplamıdır. Tüm bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."

OpenAI elbette LLM'lerin yön göstereni olmaya devam ediyor, ancak yarı iletken analiz kuruluşları, GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip hızla yeniden üretebilir.

Bu analist, diğer büyük teknoloji şirketlerinin de kısa süre içinde GPT-4 performansına eşdeğer büyük modeller geliştirebileceğini öngörüyor.

Cam Üzerinde İnşa Edilen Hendek

Şu anda, "Bai Mo Savaşı" artık bir retorik araç değil, nesnel bir gerçeklik haline geldi.

İlgili raporlar, bu yıl Temmuz itibarıyla, ülkede 130 adet büyük model bulunduğunu, ABD'nin 114 adet modeline göre daha fazla olduğunu ve başarılı bir şekilde virajı geçerek, çeşitli efsanelerin artık yerli teknoloji şirketlerinin isimlendirmesi için yeterli gelmediğini gösteriyor.

Ve ABD-Çin dışında, bir dizi daha zengin ülke de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirdi: Japonya ve BAE dışında, Hindistan hükümetinin öncülük ettiği büyük model Bhashini, Koreli internet şirketi tarafından geliştirilen HyperClova X gibi.

Şu anki durum, sanki o bol köpüklü, "para gücü" ile çarpıştığımız internetin keşif çağlarına geri dönmüş gibi.

Yukarıda belirtildiği gibi, Transformer, büyük modelleri saf bir mühendislik sorunu haline getirdi. Sadece parası ve grafik kartı olan birinin olması yeterli, gerisini parametrelere bırakabilirsiniz. Ancak giriş bileti elde etmek zor değil, bu da herkesin AI çağında BAT olma şansına sahip olduğu anlamına gelmiyor.

Başlangıçta bahsedilen "hayvan savaşları" tipik bir örnektir: Falcon, sıralamada Llama'yı geride bırakmasına rağmen, Meta'ya ne kadar etki ettiği konusunda kesin bir şey söylenemez.

Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak yaparak, toplumla teknolojinin faydalarını paylaşmayı amaçlıyorlar, aynı zamanda halkın zekasını da harekete geçirmeyi umuyorlar. Çeşitli üniversite profesörleri, araştırma kurumları ve KOBİ'ler Llama'yı sürekli kullanıp geliştirirken, Meta bu sonuçları kendi ürünlerinde uygulayabilir.

Açık kaynaklı büyük modeller için, aktif geliştirici topluluğu temel rekabet avantajıdır.

2015 yılında AI laboratuvarı kurulduğunda, Meta açık kaynak ana temasını belirlemişti; Zuckerberg ise sosyal medya işinden kazandığı için "kamu ilişkilerini iyi tutmak" konusunda oldukça tecrübelidir.

Örneğin, Ekim ayında Meta, "Yapay Zeka Versiyonu İçerik Üreticileri Teşvik Programı" düzenledi: Llama 2'yi eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolar hibe alma şansına sahip olacak.

Bugün itibarıyla, Meta'nın Llama serisi açık kaynak LLM'lerin bir gösterge noktası haline gelmiştir.

Ekim ayının başı itibarıyla, bir açık kaynak LLM sıralamasında Top 10'da toplamda 8 tanesi Llama 2 tabanlı olarak geliştirilmiştir ve hepsi onun açık kaynak lisansını kullanmaktadır. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmıştır.

Elbette, Falcon gibi performans artırmak da mümkündür, ancak günümüzde piyasadaki çoğu LLM, GPT-4 ile gözle görülür bir performans farkına sahiptir.

Örneğin, birkaç gün önce, GPT-4, 4.41 puanla AgentBench testinin birincisi oldu. AgentBench standardı, Tsinghua Üniversitesi ile Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi Berkeley tarafından ortaklaşa geliştirilmiştir ve LLM'nin çok boyutlu açık uçlu üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikler, kart savaşları gibi 8 farklı ortamın görevlerini içermektedir.

Test sonuçları, ikinci sıradaki Claude'un yalnızca 2.77 puan aldığını ve farkın hâlâ oldukça belirgin olduğunu gösteriyor. Oysa o büyük gürültüyle tanıtılan açık kaynaklı LLM'lerin test sonuçları genellikle 1 puan civarında dolaşıyor, bu da GPT-4'ün 1/4'ünden bile az.

Bilmeniz gerekir ki, GPT-4 bu yıl Mart ayında piyasaya sürüldü ve bu, dünya genelindeki rakiplerin altı ay kadar süren bir yarışmasının ardından elde edilen bir başarıdır. Bu farkı yaratan ise, OpenAI'nin "zeka yoğunluğu" çok yüksek olan bilim insanları ekibi ve uzun süreli LLM araştırmalarının birikimidir, bu nedenle her zaman önde kalabiliyorlar.

Yani, büyük modellerin temel yetenekleri parametreler değil, ekosistem inşası (açık kaynak) veya saf çıkarım yeteneğidir (kapalı kaynak).

Açık kaynak topluluğu giderek daha aktif hale geldikçe, çeşitli LLM'lerin performansı benzer model mimarileri ve benzer veri setleri kullandıkları için birbirine yaklaşabilir.

Bir diğer daha somut zorluk ise: Midjourney dışında, görünüşe göre hiçbir büyük model para kazanamıyor.

Değerin Sabit Noktası

Bu yılın Ağustos ayında, "OpenAI'nın 2024'ün sonuna kadar iflas edebileceği" başlıklı bir makale oldukça dikkat çekti. Makalenin ana fikri neredeyse bir cümleyle özetlenebilir: OpenAI'nın para harcama hızı çok hızlı.

Metinde, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararlarının hızla genişlediği, yalnızca 2022'de yaklaşık 540 milyon dolar zarar ettiği ve sadece Microsoft yatırımcılarının faturayı ödemesini beklemek zorunda olduğu belirtiliyor.

Makalelerin başlığı kulağa çarpıcı gelse de, birçok büyük model sağlayıcısının durumunu anlatıyor: maliyetler ve gelirler arasında ciddi bir dengesizlik var.

Aşırı yüksek maliyetler, şu anda yapay zeka ile büyük para kazananların sadece Nvidia olduğunu ve en fazla Broadcom'un eklenebileceğini gösteriyor.

Danışmanlık şirketinin tahminlerine göre, NVIDIA bu yılın ikinci çeyreğinde 300.000'den fazla H100 sattı. Bu, AI için olağanüstü yüksek verimlilikte eğitim sağlayan bir AI çipidir ve dünya genelindeki teknoloji şirketleri ve araştırma kurumları tarafından kapış kapış alınıyor. Eğer satılan bu 300.000 H100'ü üst üste koyarsanız, ağırlığı 4.5 adet Boeing 747 uçağına eşdeğer olur.

NVIDIA'nin performansı da bu vesileyle fırladı, yıllık gelir %854 oranında patladı ve bir ara Wall Street'i şaşırttı. Bu arada, şu anda H100'ün ikinci el pazarındaki fiyatı 40-50 bin dolar seviyesine yükselmiş durumda, ancak malzeme maliyeti sadece yaklaşık 3000 doların biraz üzerinde.

Yüksek hesaplama gücü maliyetleri, bir dereceye kadar sektörün gelişimi için bir engel haline gelmiştir. Sequoia Capital, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapı inşasına 200 milyar dolar harcaması bekleniyor; buna karşın, büyük modeller her yıl en fazla 75 milyar dolar gelir elde edebilir ve arada en az 125 milyar dolarlık bir boşluk bulunmaktadır.

Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler üstlendikten sonra nasıl para kazanacaklarını henüz netleştiremedi. Özellikle sektörün iki öncüsü - Microsoft ve Adobe biraz tökezliyor.

Microsoft ve OpenAI, her ay 10 dolar abonelik ücreti olmasına rağmen, tesis maliyetleri nedeniyle Microsoft'un aylık 20 dolar zarar ettiği bir AI kod oluşturma aracı olan GitHub Copilot'u geliştirmek için iş birliği yaptı. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar daha fazla zarar etmesine bile neden olabiliyor. Bu nedenle, 30 dolardan fiyatlandırılan Microsoft 365 Copilot'un daha fazla zarar etmesi olası.

Aynı şekilde, yeni Firefly AI aracını duyuran Adobe, kullanıcıların aşırı kullanımının şirkete zarar vermesini önlemek için hızlı bir şekilde bir puan sistemi de başlattı. Kullanıcılar aylık tahsis edilen puanları aştıklarında, Adobe hizmetin hızını azaltacak.

Microsoft ve Adobe'nin iş senaryolarının net olduğunu ve büyük bir hazır ücretli kullanıcı kitlesine sahip yazılım devleri olduğunu bilmek gerekir. Ancak, çoğu parametre yığınına dayalı büyük modellerin en büyük gereksinimi,

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 8
  • Share
Comment
0/400
TheShibaWhisperervip
· 07-12 03:20
Duvarda oturup avcı kartalı lama yırtıyor
View OriginalReply0
GasFeeTearsvip
· 07-12 03:06
Parametreler paradan daha faydalı değildir.
View OriginalReply0
OnchainGossipervip
· 07-11 01:47
İki uçağın çarpıştığını sanıyordum, işte bu.
View OriginalReply0
TeaTimeTradervip
· 07-09 03:48
Büyük modeli solo görmek istiyorum.
View OriginalReply0
BlockDetectivevip
· 07-09 03:45
Büyük model dünyasında ölümsüzlük savaşı komik oldu.
View OriginalReply0
Hash_Banditvip
· 07-09 03:32
'17'deki madencilik savaşları gibi... ama açıkçası çok daha yüksek Stake'lerle.
View OriginalReply0
PonziDetectorvip
· 07-09 03:31
Sıralama savaşlarının arkasında hepsi parametreleri manipüle etmek var.
View OriginalReply0
AirdropFreedomvip
· 07-09 03:29
Bu toprak zenginleri algoritma ile yarışmaya başladılar.
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)