# AI時代のブラウザーの再構築:検索エンジンからインテリジェントエージェントへ第三次ブラウザ戦争が静かに展開されている。歴史を振り返ると、1990年代のNetscape、MicrosoftのIE、さらにはオープンソース精神のFirefoxとGoogleのChromeに至るまで、ブラウザの争いはプラットフォームの支配権と技術的パラダイムの変遷を集中して表してきた。Chromeは更新の速さとエコシステムの連携により覇権の地位を獲得し、Googleは検索とブラウザの"二重独占"構造を通じて、情報の入り口のクローズドループを形成した。しかし、今日、この構図は揺らいでいる。大規模言語モデル(LLM)の台頭により、ますます多くのユーザーが検索結果ページで"ゼロクリック"でタスクを完了するようになり、従来のウェブページクリック行動は減少している。同時に、AppleがSafariでデフォルトの検索エンジンを置き換える意向の噂は、Alphabetの利益基盤にさらなる脅威を与え、市場は"検索の正統性"に対する不安を示し始めている。ブラウザ自体も役割の再構築に直面している。それは単にウェブページを表示するツールであるだけでなく、データ入力、ユーザー行動、プライバシーのアイデンティティなど、さまざまな能力の集合体でもある。AIエージェントは強力だが、複雑なページインタラクションを完了し、ローカルのアイデンティティデータを呼び出し、ウェブページ要素を制御するためには、ブラウザの信頼境界と機能サンドボックスを借りる必要がある。ブラウザは人間のインターフェースからエージェントのシステムコールプラットフォームに変わりつつある。現在のブラウザ市場の構造を本当に打破するのは、別の「より良いChrome」ではなく、新しいインタラクション構造です。情報の表示ではなく、タスクの呼び出しです。未来のブラウザはAIエージェントのために設計されなければなりません - 読むだけでなく、書き、実行することもできるように。Browser Useのようなプロジェクトは、ページの構造を意味化し、視覚的インターフェースをLLMが呼び出せる構造化テキストに変換し、ページから命令へのマッピングを実現し、インタラクションコストを大幅に削減しようとしています。市場で主流のプロジェクトが試行を開始しています:PerplexityはネイティブブラウザCometを構築し、AIを用いて従来の検索結果に代替しています;Braveはプライバシー保護とローカル推論を組み合わせ、LLMを用いて検索とブロック機能を強化しました;また、DonutなどのCryptoネイティブプロジェクトは、AIとオンチェーン資産の相互作用の新しい入り口を目指しています。これらのプロジェクトの共通の特徴は、出力層を美化するのではなく、ブラウザの入力端を再構築しようとすることです。起業家にとって、機会は入力、構造、エージェントの三角関係の中に隠れています。ブラウザは未来のエージェントが世界を呼び出すインターフェースとして、誰が構造化され、呼び出し可能で、信頼できる「能力ブロック」を提供できるかが、新しいプラットフォームの一部になることを意味します。SEOからAEO(エージェントエンジン最適化)まで、ページトラフィックからタスクチェーンの呼び出しまで、製品の形態とデザイン思考は再構築されています。第三次ブラウザ戦争は「入力」で発生し、「表示」ではありません。勝敗を決定するのは、もはや誰がユーザーの目を引くかではなく、誰がエージェントの信頼を勝ち取り、呼び出しの入り口を得るかです。# ブラウザの発展の簡単な歴史1990年代初頭、インターネットが日常生活の一部になる前に、Netscape Navigatorが登場しました。それは新しい大陸を開く帆船のように、数百万のユーザーにデジタル世界への扉を開きました。このブラウザは初めてのものではありませんが、真の意味で大衆に向けてインターネット体験を形作った最初の製品です。当時、人々はグラフィカルインターフェースを通じてウェブページをこれほど簡単に閲覧できるようになり、まるで世界全体が突然手の届くところにあるかのようでした。しかし、栄光はしばしば短命です。マイクロソフトはすぐにブラウザーの重要性に気付き、Internet ExplorerをWindowsオペレーティングシステムに強制的にバンドルし、デフォルトブラウザーにすることを決定しました。この戦略は「プラットフォームの殺し技」として知られ、Netscapeの市場支配を直接崩壊させました。多くのユーザーは積極的にIEを選んだわけではなく、システムがデフォルトであったためにそれを受け入れました。IEはWindowsの配布能力を利用して急速に業界の覇者となり、Netscapeは衰退の軌道に陥りました。困難な状況の中で、Netscape のエンジニアは急進的かつ理想主義的な道を選びました - 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。この決定は、技術界における「マケドニア式の譲歩」のようで、旧時代の終焉と新たな力の台頭を予告するものでした。このコードは後に Mozilla ブラウザプロジェクトの基盤となり、最初は Phoenix(意訳:不死鳥の再生)と名付けられましたが、商標の問題で何度も名前が変更され、最終的には Firefox と名付けられました。Firefoxは単なるNetscapeのコピーではなく、ユーザー体験、プラグインエコシステム、安全性などの面で多くのブレークスルーを実現しました。その誕生はオープンソース精神の勝利を象徴し、業界全体に新たな活力を注入しました。FirefoxがNetscapeの「精神的後継者」と表現されることがあり、オスマン帝国がビザンティウムの余韻を受け継いだようです。この比喩は誇張ではありますが、非常に意味深いものです。しかし、Firefoxが正式にリリースされる数年前に、マイクロソフトはすでに6つのバージョンのIEをリリースしており、時間的な優位性とシステムバンドル戦略により、Firefoxは最初から追いかける立場に置かれ、この競争が平等なスタートラインでの公平な競争ではないことが運命づけられていました。その一方で、もう一人の初期プレイヤーも静かに登場しています。1994年に、オペラブラウザが登場しました。これはノルウェーから来たもので、最初は実験的なプロジェクトでした。しかし、2003年の7.0バージョンから、自社開発のPrestoエンジンを導入し、CSS、レスポンシブデザイン、音声コントロール、Unicodeエンコーディングなどの最先端技術をいち早くサポートしました。ユーザー数は限られていましたが、技術的には常に業界の最前線を走っており、「ギークの好み」となりました。同年、アップルはSafariブラウザを発表しました。これは意味深い転換点でした。当時、マイクロソフトは破産寸前のアップルに1.5億ドルを投資し、競争の表面を維持し、独占禁止法の審査を避けました。サファリの誕生時のデフォルト検索エンジンはGoogleでしたが、このマイクロソフトとの歴史的な絡みは、インターネットの巨人たちの間の複雑で微妙な関係を象徴しています:協力と競争は常に影を落とし合っています。2007年、IE7はWindows Vistaと共にリリースされましたが、市場の反応は平凡でした。一方、Firefoxは、より速い更新ペース、よりユーザーフレンドリーな拡張機構、そして開発者に対する自然な魅力に支えられて、市場シェアは約20%に安定して増加しました。IEの支配は徐々に緩み、風向きが変わり始めています。Googleは別のアプローチを取っています。2001年から自社のブラウザを開発する構想を練っていましたが、CEOのエリック・シュミットをプロジェクトに賛成させるのに6年かかりました。Chromeは2008年に誕生し、ChromiumオープンソースプロジェクトとSafariが使用するWebKitエンジンに基づいています。「重い」ブラウザと揶揄されることもありますが、Googleの広告投資とブランド構築の深い技術によって、急速に台頭しました。Chromeの鍵となる武器は機能ではなく、頻繁なバージョンアップのリズム(6週間ごと)と全プラットフォームでの統一された体験です。2011年11月、Chromeは初めてFirefoxを超え、市場シェアは27%に達しました;6ヶ月後にはIEを再び超え、挑戦者から支配者への転換を遂げました。一方で、中国のモバイルインターネットも独自のエコシステムを形成しつつあります。ある有名なブラウザは2010年代初頭に急速に人気を博し、特にインド、インドネシア、中国などの新興市場において、軽量設計やデータ圧縮によるトラフィック節約といった特性を活かし、低価格なデバイスユーザーから支持を得ました。2015年には、世界のモバイルブラウザ市場シェアが17%を突破し、インドでは一時46%に達しました。しかし、この勝利は長続きしませんでした。インド政府が中国のアプリに対する安全審査を強化するにつれて、そのブラウザは重要な市場から撤退を余儀なくされ、徐々にかつての栄光を失っていきました。2020年代に入ると、Chromeの支配的地位が確立され、世界の市場シェアは約65%で安定しています。注目すべきは、Googleの検索エンジンとChromeブラウザは同じAlphabetに属していますが、市場の観点から見ると二つの独立した覇権体系であるということです - 前者は世界の約90%の検索エントリを制御し、後者は大多数のユーザーがネットに入る「第一ウィンドウ」を掌握しています。この二重独占構造を守るために、Googleは多額の投資を惜しまない。2022年、AlphabetはAppleに約200億ドルを支払って、GoogleがSafariのデフォルト検索エンジンとしての地位を維持できるようにした。分析によれば、この支出はGoogleがSafariのトラフィックから得る検索広告収入の36%に相当する。言い換えれば、Googleは自らの城壁を守るために"保護費"を支払っている。しかし、風向きが再び変わった。大規模言語モデル(LLM)の台頭に伴い、従来の検索が影響を受け始めている。2024年、Googleの検索市場シェアは93%から89%に下落し、依然として支配的ではあるが、ひびが入ってきた。さらに破壊的なのは、Appleが独自のAI検索エンジンを発表するという噂である - Safariのデフォルト検索が自社の陣営に移行すれば、これはエコシステムの構造を変えるだけでなく、Alphabetの利益の柱を揺るがす可能性がある。市場は迅速に反応し、Alphabetの株価は170ドルから140ドルに急落し、投資家の恐慌だけでなく、検索時代の未来の方向性に対する深い不安を反映している。ナビゲーターからクロームへ、オープンソースの理想から広告の商業化へ、軽量ブラウザからAI検索アシスタントへ、ブラウザの争いは常に技術、プラットフォーム、コンテンツ、そしてコントロール権に関する戦争です。戦場は常に移り変わりますが、本質は変わりません:入口を掌握する者が未来を定義します。投資家の目には、LLMとAI時代における人々の検索エンジンに対する新たな需要に依拠して、第3次ブラウザ戦争が徐々に展開しているように映っています。以下は、一部の著名なAIブラウザ分野のプロジェクトの資金調達状況です。# 現代ブラウザの古いアーキテクチャブラウザのアーキテクチャについて言及すると、従来の古典的なアーキテクチャは以下の図のようになります:**クライアント - フロントエンドエントリ**HTTPSを介して最近のフロントエンドに到達し、TLSの復号化、QoSサンプリング、地理ルーティングを完了します。異常なトラフィック(DDoS、自動スクレイピング)が検出された場合、このレイヤーでレート制限またはチャレンジを行うことができます。**クエリの理解**フロントエンドは、ユーザーが入力した単語の意味を理解する必要があります。3つのステップがあります:神経スペルチェック、"recpie"を"recipe"に修正すること;類義語の拡張、"how to fix bike"を"repair bicycle"に拡張すること。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判断し、Verticalリクエストを割り当てます。**候補のリコール**ある検索エンジンで使用されるクエリ技術は、逆インデックスと呼ばれています。順序インデックスでは、IDを指定することでファイルをインデックス化できます。しかし、ユーザーは千億以上のファイルの中から目的のコンテンツの番号を知ることはできないため、非常に伝統的な逆インデックスを使用して、コンテンツを通じてどのファイルが対応するキーワードを持っているかを検索します。次に、ベクトルインデックスを使用して意味検索を処理します。これは、クエリの意味に似たコンテンツを検索することを目的としています。それはテキストや画像などのコンテンツを高次元ベクトル(embedding)に変換し、これらのベクトル間の類似性に基づいて検索を行います。たとえば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地作成ガイド」に関連する結果を返すことができます。これは、意味的に類似しているためです。逆インデックスとベクトルインデックスを経て、約十万のウェブページが初期選別されます。**マルチレベルソート**システムは通常、BM25、TF-IDF、ページ品質スコアなどの数千次元の軽量特徴を使用して、10万件規模の候補ページを約1000件に絞り込み、初期候補セットを構成します。このようなシステムは一般に推薦エンジンと呼ばれます。これらは、ユーザーの行動、ページの属性、クエリの意図やコンテキスト信号を含む多種多様なエンティティから生成された膨大な特徴に依存しています。例えば、ある検索エンジンは、ユーザーの履歴、他のユーザーの行動フィードバック、ページのセマンティクス、クエリの意味などの情報を統合し、さらにコンテキスト要素、例えば時間(1日の時間帯、週の特定の日)やリアルタイムニュースなどの外部イベントも考慮します。**深層学習によるメインソート**初期の検索段階では、ある検索エンジンが RankBrain や Neural Matching などの技術を使用して、クエリの意味を理解し、膨大な文書の中から初期的に関連する結果を絞り込みます。RankBrain は 2015 年に導入された機械学習システムで、特に初めて出現するクエリの意味をよりよく理解することを目的としています。クエリと文書をベクトル表現に変換し、それらの間の類似性を計算することで、最も関連性の高い結果を見つけます。たとえば、「ピザ生地の作り方」というクエリに対して、文書内に完全に一致する内容がなくても、
AIとブラウザの未来の競争:検索エンジンからスマートエージェントへの転換の道
AI時代のブラウザーの再構築:検索エンジンからインテリジェントエージェントへ
第三次ブラウザ戦争が静かに展開されている。歴史を振り返ると、1990年代のNetscape、MicrosoftのIE、さらにはオープンソース精神のFirefoxとGoogleのChromeに至るまで、ブラウザの争いはプラットフォームの支配権と技術的パラダイムの変遷を集中して表してきた。Chromeは更新の速さとエコシステムの連携により覇権の地位を獲得し、Googleは検索とブラウザの"二重独占"構造を通じて、情報の入り口のクローズドループを形成した。
しかし、今日、この構図は揺らいでいる。大規模言語モデル(LLM)の台頭により、ますます多くのユーザーが検索結果ページで"ゼロクリック"でタスクを完了するようになり、従来のウェブページクリック行動は減少している。同時に、AppleがSafariでデフォルトの検索エンジンを置き換える意向の噂は、Alphabetの利益基盤にさらなる脅威を与え、市場は"検索の正統性"に対する不安を示し始めている。
ブラウザ自体も役割の再構築に直面している。それは単にウェブページを表示するツールであるだけでなく、データ入力、ユーザー行動、プライバシーのアイデンティティなど、さまざまな能力の集合体でもある。AIエージェントは強力だが、複雑なページインタラクションを完了し、ローカルのアイデンティティデータを呼び出し、ウェブページ要素を制御するためには、ブラウザの信頼境界と機能サンドボックスを借りる必要がある。ブラウザは人間のインターフェースからエージェントのシステムコールプラットフォームに変わりつつある。
現在のブラウザ市場の構造を本当に打破するのは、別の「より良いChrome」ではなく、新しいインタラクション構造です。情報の表示ではなく、タスクの呼び出しです。未来のブラウザはAIエージェントのために設計されなければなりません - 読むだけでなく、書き、実行することもできるように。Browser Useのようなプロジェクトは、ページの構造を意味化し、視覚的インターフェースをLLMが呼び出せる構造化テキストに変換し、ページから命令へのマッピングを実現し、インタラクションコストを大幅に削減しようとしています。
市場で主流のプロジェクトが試行を開始しています:PerplexityはネイティブブラウザCometを構築し、AIを用いて従来の検索結果に代替しています;Braveはプライバシー保護とローカル推論を組み合わせ、LLMを用いて検索とブロック機能を強化しました;また、DonutなどのCryptoネイティブプロジェクトは、AIとオンチェーン資産の相互作用の新しい入り口を目指しています。これらのプロジェクトの共通の特徴は、出力層を美化するのではなく、ブラウザの入力端を再構築しようとすることです。
起業家にとって、機会は入力、構造、エージェントの三角関係の中に隠れています。ブラウザは未来のエージェントが世界を呼び出すインターフェースとして、誰が構造化され、呼び出し可能で、信頼できる「能力ブロック」を提供できるかが、新しいプラットフォームの一部になることを意味します。SEOからAEO(エージェントエンジン最適化)まで、ページトラフィックからタスクチェーンの呼び出しまで、製品の形態とデザイン思考は再構築されています。第三次ブラウザ戦争は「入力」で発生し、「表示」ではありません。勝敗を決定するのは、もはや誰がユーザーの目を引くかではなく、誰がエージェントの信頼を勝ち取り、呼び出しの入り口を得るかです。
ブラウザの発展の簡単な歴史
1990年代初頭、インターネットが日常生活の一部になる前に、Netscape Navigatorが登場しました。それは新しい大陸を開く帆船のように、数百万のユーザーにデジタル世界への扉を開きました。このブラウザは初めてのものではありませんが、真の意味で大衆に向けてインターネット体験を形作った最初の製品です。当時、人々はグラフィカルインターフェースを通じてウェブページをこれほど簡単に閲覧できるようになり、まるで世界全体が突然手の届くところにあるかのようでした。
しかし、栄光はしばしば短命です。マイクロソフトはすぐにブラウザーの重要性に気付き、Internet ExplorerをWindowsオペレーティングシステムに強制的にバンドルし、デフォルトブラウザーにすることを決定しました。この戦略は「プラットフォームの殺し技」として知られ、Netscapeの市場支配を直接崩壊させました。多くのユーザーは積極的にIEを選んだわけではなく、システムがデフォルトであったためにそれを受け入れました。IEはWindowsの配布能力を利用して急速に業界の覇者となり、Netscapeは衰退の軌道に陥りました。
困難な状況の中で、Netscape のエンジニアは急進的かつ理想主義的な道を選びました - 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。この決定は、技術界における「マケドニア式の譲歩」のようで、旧時代の終焉と新たな力の台頭を予告するものでした。このコードは後に Mozilla ブラウザプロジェクトの基盤となり、最初は Phoenix(意訳:不死鳥の再生)と名付けられましたが、商標の問題で何度も名前が変更され、最終的には Firefox と名付けられました。
Firefoxは単なるNetscapeのコピーではなく、ユーザー体験、プラグインエコシステム、安全性などの面で多くのブレークスルーを実現しました。その誕生はオープンソース精神の勝利を象徴し、業界全体に新たな活力を注入しました。FirefoxがNetscapeの「精神的後継者」と表現されることがあり、オスマン帝国がビザンティウムの余韻を受け継いだようです。この比喩は誇張ではありますが、非常に意味深いものです。
しかし、Firefoxが正式にリリースされる数年前に、マイクロソフトはすでに6つのバージョンのIEをリリースしており、時間的な優位性とシステムバンドル戦略により、Firefoxは最初から追いかける立場に置かれ、この競争が平等なスタートラインでの公平な競争ではないことが運命づけられていました。
その一方で、もう一人の初期プレイヤーも静かに登場しています。1994年に、オペラブラウザが登場しました。これはノルウェーから来たもので、最初は実験的なプロジェクトでした。しかし、2003年の7.0バージョンから、自社開発のPrestoエンジンを導入し、CSS、レスポンシブデザイン、音声コントロール、Unicodeエンコーディングなどの最先端技術をいち早くサポートしました。ユーザー数は限られていましたが、技術的には常に業界の最前線を走っており、「ギークの好み」となりました。
同年、アップルはSafariブラウザを発表しました。これは意味深い転換点でした。当時、マイクロソフトは破産寸前のアップルに1.5億ドルを投資し、競争の表面を維持し、独占禁止法の審査を避けました。サファリの誕生時のデフォルト検索エンジンはGoogleでしたが、このマイクロソフトとの歴史的な絡みは、インターネットの巨人たちの間の複雑で微妙な関係を象徴しています:協力と競争は常に影を落とし合っています。
2007年、IE7はWindows Vistaと共にリリースされましたが、市場の反応は平凡でした。一方、Firefoxは、より速い更新ペース、よりユーザーフレンドリーな拡張機構、そして開発者に対する自然な魅力に支えられて、市場シェアは約20%に安定して増加しました。IEの支配は徐々に緩み、風向きが変わり始めています。
Googleは別のアプローチを取っています。2001年から自社のブラウザを開発する構想を練っていましたが、CEOのエリック・シュミットをプロジェクトに賛成させるのに6年かかりました。Chromeは2008年に誕生し、ChromiumオープンソースプロジェクトとSafariが使用するWebKitエンジンに基づいています。「重い」ブラウザと揶揄されることもありますが、Googleの広告投資とブランド構築の深い技術によって、急速に台頭しました。
Chromeの鍵となる武器は機能ではなく、頻繁なバージョンアップのリズム(6週間ごと)と全プラットフォームでの統一された体験です。2011年11月、Chromeは初めてFirefoxを超え、市場シェアは27%に達しました;6ヶ月後にはIEを再び超え、挑戦者から支配者への転換を遂げました。
一方で、中国のモバイルインターネットも独自のエコシステムを形成しつつあります。ある有名なブラウザは2010年代初頭に急速に人気を博し、特にインド、インドネシア、中国などの新興市場において、軽量設計やデータ圧縮によるトラフィック節約といった特性を活かし、低価格なデバイスユーザーから支持を得ました。2015年には、世界のモバイルブラウザ市場シェアが17%を突破し、インドでは一時46%に達しました。しかし、この勝利は長続きしませんでした。インド政府が中国のアプリに対する安全審査を強化するにつれて、そのブラウザは重要な市場から撤退を余儀なくされ、徐々にかつての栄光を失っていきました。
2020年代に入ると、Chromeの支配的地位が確立され、世界の市場シェアは約65%で安定しています。注目すべきは、Googleの検索エンジンとChromeブラウザは同じAlphabetに属していますが、市場の観点から見ると二つの独立した覇権体系であるということです - 前者は世界の約90%の検索エントリを制御し、後者は大多数のユーザーがネットに入る「第一ウィンドウ」を掌握しています。
この二重独占構造を守るために、Googleは多額の投資を惜しまない。2022年、AlphabetはAppleに約200億ドルを支払って、GoogleがSafariのデフォルト検索エンジンとしての地位を維持できるようにした。分析によれば、この支出はGoogleがSafariのトラフィックから得る検索広告収入の36%に相当する。言い換えれば、Googleは自らの城壁を守るために"保護費"を支払っている。
しかし、風向きが再び変わった。大規模言語モデル(LLM)の台頭に伴い、従来の検索が影響を受け始めている。2024年、Googleの検索市場シェアは93%から89%に下落し、依然として支配的ではあるが、ひびが入ってきた。さらに破壊的なのは、Appleが独自のAI検索エンジンを発表するという噂である - Safariのデフォルト検索が自社の陣営に移行すれば、これはエコシステムの構造を変えるだけでなく、Alphabetの利益の柱を揺るがす可能性がある。市場は迅速に反応し、Alphabetの株価は170ドルから140ドルに急落し、投資家の恐慌だけでなく、検索時代の未来の方向性に対する深い不安を反映している。
ナビゲーターからクロームへ、オープンソースの理想から広告の商業化へ、軽量ブラウザからAI検索アシスタントへ、ブラウザの争いは常に技術、プラットフォーム、コンテンツ、そしてコントロール権に関する戦争です。戦場は常に移り変わりますが、本質は変わりません:入口を掌握する者が未来を定義します。
投資家の目には、LLMとAI時代における人々の検索エンジンに対する新たな需要に依拠して、第3次ブラウザ戦争が徐々に展開しているように映っています。以下は、一部の著名なAIブラウザ分野のプロジェクトの資金調達状況です。
現代ブラウザの古いアーキテクチャ
ブラウザのアーキテクチャについて言及すると、従来の古典的なアーキテクチャは以下の図のようになります:
クライアント - フロントエンドエントリ
HTTPSを介して最近のフロントエンドに到達し、TLSの復号化、QoSサンプリング、地理ルーティングを完了します。異常なトラフィック(DDoS、自動スクレイピング)が検出された場合、このレイヤーでレート制限またはチャレンジを行うことができます。
クエリの理解
フロントエンドは、ユーザーが入力した単語の意味を理解する必要があります。3つのステップがあります:神経スペルチェック、"recpie"を"recipe"に修正すること;類義語の拡張、"how to fix bike"を"repair bicycle"に拡張すること。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判断し、Verticalリクエストを割り当てます。
候補のリコール
ある検索エンジンで使用されるクエリ技術は、逆インデックスと呼ばれています。順序インデックスでは、IDを指定することでファイルをインデックス化できます。しかし、ユーザーは千億以上のファイルの中から目的のコンテンツの番号を知ることはできないため、非常に伝統的な逆インデックスを使用して、コンテンツを通じてどのファイルが対応するキーワードを持っているかを検索します。次に、ベクトルインデックスを使用して意味検索を処理します。これは、クエリの意味に似たコンテンツを検索することを目的としています。それはテキストや画像などのコンテンツを高次元ベクトル(embedding)に変換し、これらのベクトル間の類似性に基づいて検索を行います。たとえば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地作成ガイド」に関連する結果を返すことができます。これは、意味的に類似しているためです。逆インデックスとベクトルインデックスを経て、約十万のウェブページが初期選別されます。
マルチレベルソート
システムは通常、BM25、TF-IDF、ページ品質スコアなどの数千次元の軽量特徴を使用して、10万件規模の候補ページを約1000件に絞り込み、初期候補セットを構成します。このようなシステムは一般に推薦エンジンと呼ばれます。これらは、ユーザーの行動、ページの属性、クエリの意図やコンテキスト信号を含む多種多様なエンティティから生成された膨大な特徴に依存しています。例えば、ある検索エンジンは、ユーザーの履歴、他のユーザーの行動フィードバック、ページのセマンティクス、クエリの意味などの情報を統合し、さらにコンテキスト要素、例えば時間(1日の時間帯、週の特定の日)やリアルタイムニュースなどの外部イベントも考慮します。
深層学習によるメインソート
初期の検索段階では、ある検索エンジンが RankBrain や Neural Matching などの技術を使用して、クエリの意味を理解し、膨大な文書の中から初期的に関連する結果を絞り込みます。RankBrain は 2015 年に導入された機械学習システムで、特に初めて出現するクエリの意味をよりよく理解することを目的としています。クエリと文書をベクトル表現に変換し、それらの間の類似性を計算することで、最も関連性の高い結果を見つけます。たとえば、「ピザ生地の作り方」というクエリに対して、文書内に完全に一致する内容がなくても、