AI大模型の戦い: エンジニアリングの勝利かアルゴリズムの王者か

2025-07-09 03:20:56

AI分野の百モデル戦争：エンジニアリングの問題か、それとも研究の難題か？

先月、AI業界で「動物戦争」が勃発しました。

一方はMetaが発表したLlamaで、そのオープンソースの特性から開発者コミュニティに人気があります。もう一方はFalconという大規模モデルです。今年の5月にFalcon-40Bが登場し、「オープンソースLLMランキング」のトップに立ちました。

このランキングはオープンソースモデルコミュニティによって作成され、LLM能力を測定する基準を提供し、順位付けを行っています。ランキングは基本的にLlamaとFalconが交互にトップを争っています。Llama 2の発売後、Llamaファミリーが一矢報いました；9月初めにはFalconが180Bバージョンを発表し、さらに高い順位を獲得しました。

興味深いことに、"ハヤブサ"の開発者はアラブ首長国連邦の首都アブダビにあるテクノロジー革新研究所です。政府関係者は、「私たちはこのゲームに参加することでコアプレイヤーを覆すためです」と述べています。

180B版のリリースから2日後、アラブ首長国連邦の人工知能大臣オマールが「タイム」誌が選出した「AI分野で最も影響力のある100人」に選ばれました。

現在、AI分野はすでに「群狼が乱舞する」段階に入っています：資金力のある国や企業は、自国版のChatGPTを作る計画を持っています。湾岸諸国の間でも、すでに1つ以上のプレイヤーがいます——8月、サウジアラビアは国内の大学に3000枚以上のH100を購入し、LLMの訓練に使用しました。

金沙江創投の朱啸虎はかつてこう嘲笑した："当時はインターネットのビジネスモデル革新を軽視し、壁がないと思っていた：百団戦、百車戦、百放送戦；まさかハードテクノロジーの大モデルの起業もまた百模型戦になるとは..."

約束された高難度のハードテクノロジーが、どうして一国一模で一亩当たり十万斤になってしまったのか？

トランスフォーマーが世界を飲み込む

アメリカのスタートアップ、中国のテクノロジー大手、中東の石油王たちが大きなモデルを夢見ることができるのは、あの有名な論文《Attention Is All You Need》のおかげだ。

2017年、8人のGoogleのコンピュータ科学者がこの論文で、世界に向けてTransformerアルゴリズムを公開しました。この論文は現在、人工知能の歴史の中で引用数が3番目に多い論文であり、Transformerの登場はこの人工知能ブームのトリガーとなりました。

現在の大規模モデルがどの国籍であれ、世界を驚かせたGPTシリーズを含め、全てはTransformerの肩の上に立っています。

その前に、「機械に読書を教えること」は認められた学術的な難題でした。画像認識とは異なり、人間は文字を読む際に、現在見ている言葉や文だけでなく、文脈を組み合わせて理解します。

初期の神経ネットワークの入力は互いに独立しており、長文や全体の文章を理解する能力を持っていなかったため、「開水間」を「open water room」と翻訳してしまうような問題が発生しました。

2014年までに、Googleで働いていた後、OpenAIに転職したコンピュータ科学者イリヤが最初に成果を上げました。彼はリカレントニューラルネットワーク（RNN）を使用して自然言語を処理し、ある翻訳プラットフォームの性能が競合製品と急速に差をつけました。

RNNは「循環設計」を提案し、各ニューロンが現在の時刻の入力情報を受け取るだけでなく、前の時刻の入力情報も受け取ることができるようにし、神経ネットワークに「文脈を組み合わせる」能力を持たせました。

RNNの出現は学術界の研究熱を引き起こし、後にTransformerの論文の著者であるシャゼルも一時夢中になった。しかし、開発者たちはすぐにRNNには深刻な欠陥があることに気づいた。

このアルゴリズムは順次計算を使用しており、文脈の問題を解決することはできますが、実行効率は高くなく、大量のパラメータを処理するのは難しいです。

RNNの煩雑な設計は、すぐにシャザールをうんざりさせました。そこで2015年から、シャザールと7人の仲間はRNNの代替品の開発に着手し、その成果がTransformerです。

RNNと比較して、Transformerの変革には2つのポイントがあります:

一つは、位置エンコーディングの方法を用いてRNNの循環設計を置き換えたことで、並列計算が実現されました——この変更により、Transformerのトレーニング効率が大幅に向上し、大データを処理できるようになり、AIを大規模モデルの時代に押し上げました。二つ目は、文脈の能力をさらに強化しました。

Transformerは一気に多くの欠陥を解決し、次第にNLP（自然言語処理）の唯一の解として発展していきました。「天がTransformerを生まないなら、NLPは永遠に長い夜のようだ」という感覚を持っている人も多いでしょう。イリヤでさえ、自ら持ち上げたRNNを捨て、Transformerに移行しました。

言い換えれば、Transformerは今日のすべての大規模モデルの祖父であり、彼は大規模モデルを理論研究の問題から純粋なエンジニアリングの問題に変えました。

2019年、OpenAIはTransformerに基づいてGPT-2を開発し、一時は学術界を驚かせました。それに対抗して、GoogleはすぐにMeenaという名前のより強力なAIを発表しました。

GPT-2と比較して、Meenaは基盤となるアルゴリズムの革新がなく、単にGPT-2の8.5倍のトレーニングパラメータと14倍の計算能力を持っています。Transformer論文の著者であるシャザールは、"暴力的な積み重ね"に衝撃を受け、その場で"Meenaが世界を飲み込む"というメモを作成しました。

Transformerの登場により、学術界の基礎アルゴリズムの革新速度は大幅に遅くなりました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要素は、AI競技における重要な勝敗の要因となりつつあります。少しの技術力を持つテクノロジー企業であれば、誰でも大きなモデルを手作りすることができます。

したがって、コンピュータ科学者のアンドリュー・ングはスタンフォード大学で講演を行った際に、次のような見解を示しました："AIは監視学習、非監視学習、強化学習、そして現在の生成的人工知能を含む一連のツールの集まりです。これらはすべて汎用技術であり、電力やインターネットなどの他の汎用技術と類似しています。"

OpenAIは確かにLLMの風向標ですが、半導体分析機関は、GPT-4の競争力はエンジニアリングソリューションに起因していると考えています——もしオープンソースになれば、どんな競合他社でも迅速に再現できるでしょう。

このアナリストは、他の大手テクノロジー企業もGPT-4と同等の性能を持つ大規模モデルを構築できるようになるのは、そう遠くないと予想しています。

ガラスの上に築かれた堀

現在、「百模戦争」はもはや修辞手法ではなく、客観的現実です。

関連報告によると、今年の7月時点で国内の大規模モデルの数は130に達し、米国の114を上回り、カーブを超えた成功を収めており、国内のテクノロジー企業の名前を付けるための神話や伝説が不足しつつある。

そして中国とアメリカを除いて、比較的裕福な国々も初歩的に「一国一模」を実現しました：日本やアラブ首長国連邦の他に、インド政府主導の大規模モデルBhashini、韓国のインターネット企業が作成したHyperClova Xなどがあります。

目の前のこの様子は、まるで泡沫に包まれ、「お金の力」が激突していたインターネットの開拓時代に戻ったかのようです。

前述の通り、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。お金とGPUさえあれば、残りはパラメータに任せられます。しかし、入場券は簡単に手に入るとはいえ、誰もがAI時代のBATになる機会があるわけではありません。

冒頭に挙げた「動物戦争」は典型的なケースです：FalconはランキングでLlamaを上回っていますが、Metaにどれほどの影響を与えたかは難しいところです。

誰もが知っているように、企業が自らの研究成果をオープンソース化するのは、社会全体と技術の恩恵を共有するためだけでなく、人々の知恵を引き出すことを望んでいるからでもあります。大学の教授、研究機関、中小企業がLlamaの使用と改善を進める中、Metaはこれらの成果を自社製品に応用することができます。

オープンソースの大規模モデルにとって、活発な開発者コミュニティこそがそのコア競争力です。

そして2015年にAIラボを設立した際、Metaはオープンソースの基本方針を定めていた。ザッカーバーグはソーシャルメディアビジネスで成功を収めた人物であり、"良好な関係を築く"ことに非常に精通している。

例えば、10月にMetaは特別に"AI版クリエイターインセンティブ"イベントを開催しました：教育、環境などの社会問題を解決するためにLlama 2を使用する開発者は、50万ドルの助成金を得る機会があります。

今日、MetaのLlamaシリーズはオープンソースLLMの風向計となっています。

10月初時点で、あるオープンソースLLMランキングのTop 10の中で、8つがLlama 2を基にしたもので、すべてそのオープンソースライセンスを使用しています。このプラットフォーム上では、Llama 2のオープンソースライセンスを使用したLLMが1500以上存在しています。

もちろん、Falconのように性能を向上させることも悪くはありませんが、今日に至るまで、市場に出回っているほとんどのLLMは依然としてGPT-4と目に見える性能差があります。

例えば、先日、GPT-4は4.41点の成績でAgentBenchテストのトップに立ちました。AgentBench基準は、清華大学とオハイオ州立大学、カリフォルニア大学バークレー校が共同で発表したもので、LLMの多次元オープン生成環境における推論能力と意思決定能力を評価するために使用されます。テスト内容には、オペレーティングシステム、データベース、知識グラフ、カードバトルなど8つの異なる環境のタスクが含まれています。

テスト結果は、2位のClaudeがわずか2.77点であり、差が依然として明らかであることを示しています。壮大なオープンソースLLMについては、そのテストスコアは1点前後で、GPT-4の1/4にも満たないです。

知っておくべきことは、GPT-4は今年の3月に発表されたということで、これは世界中の同業者が半年以上追いつこうとして得た成果です。この差を生み出しているのは、OpenAIの"知能密度"が非常に高い科学者チームと、長年にわたるLLMの研究に蓄積された経験です。したがって、常に先を行くことができます。

つまり、大規模モデルの核心的な能力はパラメータではなく、エコシステムの構築（オープンソース）または純粋な推論能力（クローズドソース）です。

オープンソースコミュニティがますます活発になるにつれて、さまざまなLLMの性能は同じようになる可能性があり、なぜならみんなが似たようなモデルアーキテクチャと似たようなデータセットを使用しているからです。

もう一つの直感的な問題は、Midjourneyを除けば、他の大規模モデルが利益を上げられていないように見えることです。

価値のアンカー

今年8月、一篇題為「OpenAIは2024年末に破産する可能性がある」という奇文が注目を集めました。記事の主旨はほぼ一言で要約できます：OpenAIの資金消耗の速度があまりにも速すぎる。

文中で言及されているように、ChatGPTの開発以降、OpenAIの損失は急速に拡大しており、2022年だけで約5.4億ドルの損失を出しており、マイクロソフトの投資家が支払うのを待つしかない。

記事のタイトルは衝撃的ですが、多くの大規模モデル提供者の現状を語っています：コストと収益のバランスが深刻に崩れています。

過度に高いコストのため、現在人工知能で大金を得ているのはNVIDIAだけで、せいぜいBroadcomが加わる程度です。

コンサルティング会社の予測によると、NVIDIAは今年の第2四半期に30万枚以上のH100を販売した。このAIチップはAIのトレーニング効率が非常に高く、世界中のテクノロジー企業や研究機関が競って購入している。もし販売された30万枚のH100を重ねると、その重さはボーイング747の飛行機4.5機分に相当する。

エヌビディアの業績も勢いを増し、前年同期比で売上が854%暴増し、一時的にウォール街を驚かせました。ちなみに、現在H100は中古市場で4万から5万ドルにまで値が上がっていますが、その材料コストは約3000ドル程度です。

高い計算力コストは、ある程度、業界の発展の阻害要因となっています。セコイアキャピタルは、世界のテクノロジー企業が毎年2000億米ドルを大規模モデルのインフラ構築に費やすと予測しているという試算を行いました。それに対して、大規模モデルは毎年最大で750億米ドルの収益しか生み出せず、その間には少なくとも1250億米ドルのギャップがあります。

さらに、Midjourneyなどの少数の例を除いて、大多数のソフトウェア会社は巨額のコストをかけた後、まだどのように収益を上げるかを考えがついていません。特に業界の2人のリーダーであるマイクロソフトとAdobeは、少し足元がおぼつかない状況です。

マイクロソフトとOpenAIは、AIコード生成ツールGitHub Copilotを共同開発しました。毎月10ドルの月額料金が必要ですが、施設コストのため、マイクロソフトは逆に20ドルの赤字を出してしまいます。ヘビーユーザーは、マイクロソフトに毎月80ドルの赤字を出させることさえできます。これを考慮すると、30ドルのMicrosoft 365 Copilotの価格設定では、もっと赤字になる可能性があります。

偶然にも、Firefly AIツールを発表したAdobeは、ユーザーの過剰使用による会社の損失を防ぐために、迅速に関連するポイントシステムを立ち上げました。月に割り当てられたポイントを超えて使用するユーザーが出た場合、Adobeはサービスを減速させます。

マイクロソフトとAdobeは、ビジネスシーンが明確で、大量の既存の有料ユーザーを持つソフトウェアの巨人であることを知っておくべきです。そして、ほとんどのパラメータが天に積み上げられた大規模モデルでは、最大の応答が

GPT-0.67%

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

10 いいね