OpenLedger Depth Rapport de recherche : Construire une économie d'agents intelligents basée sur OP Stack + EigenDA, axée sur les données et les modèles combinables.
I. Introduction | La transition des couches de modèles de Crypto AI
Les données, les modèles et la puissance de calcul sont les trois éléments clés de l'infrastructure de l'IA, analogues à un carburant (données), un moteur (modèle) et une source d'énergie (puissance de calcul) indispensables. Tout comme le chemin d'évolution de l'infrastructure de l'industrie de l'IA traditionnelle, le domaine de la Crypto IA a également traversé des phases similaires. Au début de 2024, le marché était dominé par des projets de GPU décentralisés, mettant en avant une logique de croissance extensive axée sur la "compétition de puissance de calcul". Cependant, à partir de 2025, l'attention de l'industrie se déplace progressivement vers les couches de modèles et de données, marquant la transition de la Crypto IA d'une concurrence pour les ressources de base vers une construction intermédiaire plus durable et ayant une valeur d'application.
Modèle général (LLM) vs Modèle spécialisé (SLM)
Les modèles de langage de grande taille (LLM) traditionnels reposent fortement sur des ensembles de données massifs et des architectures distribuées complexes, avec une taille de paramètres allant de 70B à 500B, et le coût d'une seule formation peut souvent atteindre des millions de dollars. Le SLM (Specialized Language Model), en tant que paradigme de micro-ajustement léger basé sur un modèle de base réutilisable, est généralement basé sur des modèles open source tels que LLaMA, Mistral, DeepSeek, combiné avec une petite quantité de données professionnelles de haute qualité et des technologies telles que LoRA, permettant de construire rapidement des modèles d'experts possédant des connaissances spécifiques à un domaine, réduisant ainsi considérablement les coûts d'entraînement et les barrières techniques.
Il est important de noter que le SLM ne sera pas intégré dans les poids du LLM, mais fonctionnera en collaboration avec le LLM grâce à des appels via l'architecture Agent, un système de plugins pour le routage dynamique, le module LoRA pour le branchement à chaud, et RAG (génération améliorée par recherche). Cette architecture conserve la large capacité de couverture du LLM tout en renforçant les performances professionnelles grâce à des modules finement ajustés, formant un système intelligent combiné hautement flexible.
La valeur et les limites de Crypto AI au niveau des modèles
Les projets d'IA crypto sont essentiellement difficiles à améliorer directement les capacités fondamentales des modèles de langage de grande taille (LLM), la raison principale étant que
Barrière technologique trop élevée : l'échelle des données, des ressources informatiques et des capacités d'ingénierie nécessaires pour entraîner un modèle de base est extrêmement vaste, et seules des géants technologiques comme les États-Unis et la Chine disposent actuellement de ces capacités.
Limites de l'écosystème open source : bien que des modèles de base grand public comme LLaMA et Mixtral aient été rendus open source, la clé pour faire progresser les modèles reste concentrée sur les institutions de recherche et les systèmes d'ingénierie fermés, l'espace de participation des projets sur la chaîne au niveau des modèles de base est limité.
Cependant, au-dessus des modèles de base open source, les projets Crypto AI peuvent toujours réaliser une extension de valeur en ajustant des modèles de langage spécialisés (SLM) et en combinant la vérifiabilité et les mécanismes d'incitation de Web3. En tant que "couche d'interface périphérique" de la chaîne de valeur de l'IA, cela se manifeste dans deux directions principales :
Couche de vérification de confiance : enregistre les chemins de génération de modèles, les contributions de données et leur utilisation sur la chaîne, renforçant la traçabilité et la résistance à la falsification des sorties de l'IA.
Mécanisme d'incitation : En utilisant le Token natif, pour inciter le téléchargement de données, l'appel de modèles, l'exécution d'agents, etc., construire un cycle vertueux de formation et de service des modèles.
Classification des types de modèles AI et analyse de l'applicabilité de la blockchain
Ainsi, il est clair que les points de chute viables pour les projets de type Crypto AI se concentrent principalement sur l'ajustement léger des SLM de petite taille, l'intégration et la vérification des données en chaîne dans l'architecture RAG, ainsi que le déploiement local et l'incitation des modèles Edge. En combinant la vérifiabilité de la blockchain et le mécanisme de token, Crypto peut offrir une valeur unique pour ces scénarios de modèles à ressources moyennes et faibles, créant une valeur différenciée pour la "couche d'interface" de l'IA.
La chaîne de blockchain AI basée sur des données et des modèles peut enregistrer de manière claire et immuable la source de contribution de chaque donnée et modèle sur la chaîne, améliorant ainsi considérablement la crédibilité des données et la traçabilité de l'entraînement des modèles. En même temps, grâce au mécanisme des contrats intelligents, des récompenses sont automatiquement distribuées lorsque des données ou des modèles sont appelés, transformant le comportement de l'IA en valeur tokenisée mesurable et échangeable, et construisant un système d'incitation durable. De plus, les utilisateurs de la communauté peuvent également évaluer les performances des modèles par le biais de votes avec des jetons, participer à l'élaboration et à l'itération des règles, et améliorer l'architecture de gouvernance décentralisée.
II. Aperçu du projet | La vision de la chaîne AI d'OpenLedger
OpenLedger est l'un des rares projets de blockchain AI sur le marché actuel axé sur les mécanismes d'incitation des données et des modèles. Il a été le premier à proposer le concept de "Payable AI", visant à construire un environnement d'exécution AI équitable, transparent et combinable, incitant les contributeurs de données, les développeurs de modèles et les constructeurs d'applications AI à collaborer sur une même plateforme et à obtenir des revenus on-chain en fonction de leurs contributions réelles.
OpenLedger offre une boucle fermée complète allant de "la fourniture de données" à "le déploiement de modèles" en passant par "l'appel de la répartition des bénéfices", dont les modules principaux comprennent :
Modèle d'usine : Pas besoin de programmation, vous pouvez utiliser LoRA pour un entraînement et un déploiement de modèles personnalisés basés sur LLM open-source.
OpenLoRA : prend en charge la coexistence de milliers de modèles, charge dynamiquement selon les besoins, réduisant considérablement les coûts de déploiement ;
PoA (Proof of Attribution) : mesure de contribution et distribution des récompenses réalisées par des appels en chaîne.
Datanets : un réseau de données structurées destiné à des scénarios verticaux, construit et vérifié par la collaboration de la communauté ;
Plateforme de proposition de modèle (Model Proposal Platform) : marché de modèles en chaîne, modulable, appelable et payant.
Grâce aux modules ci-dessus, OpenLedger a construit une "infrastructure économique d'agents intelligents" basée sur des données et des modèles combinables, favorisant la mise en chaîne de la chaîne de valeur de l'IA.
Dans l'adoption de la technologie blockchain, OpenLedger utilise OP Stack + EigenDA comme fondation pour construire un environnement d'exécution de données et de contrats performant, à faible coût et vérifiable pour les modèles d'IA.
Construire sur OP Stack : Basé sur la technologie Optimism, prend en charge un traitement à haut débit et une exécution à faible coût ;
Règlement sur le réseau principal Ethereum : Assurez la sécurité des transactions et l'intégrité des actifs ;
Compatible EVM : Permet aux développeurs de déployer et d'étendre rapidement avec Solidity.
EigenDA fournit un support de disponibilité des données : réduction significative des coûts de stockage, garantissant la vérifiabilité des données.
Comparé à des chaînes AI généralistes comme NEAR qui se concentrent davantage sur la couche de base et prônent la souveraineté des données avec l'architecture "AI Agents on BOS", OpenLedger se concentre davantage sur la construction de chaînes AI spécialisées axées sur les incitations liées aux données et aux modèles, s'efforçant de rendre le développement et l'appel des modèles traçables, combinables et durables sur la chaîne. C'est une infrastructure d'incitation pour les modèles dans le monde Web3, combinant l'hébergement de modèles de type HuggingFace, la facturation d'utilisation de type Stripe et des interfaces combinables sur la chaîne de type Infura, promouvant la voie vers "le modèle comme actif".
Trois, les composants clés et l'architecture technique d'OpenLedger
3.1 Modèle d'usine, usine de modèles sans code
ModelFactory est une plateforme de micro-ajustement de grands modèles de langage (LLM) dans l'écosystème OpenLedger. Contrairement aux cadres de micro-ajustement traditionnels, ModelFactory offre une interface entièrement graphique, sans nécessiter d'outils en ligne de commande ou d'intégration API. Les utilisateurs peuvent ajuster le modèle en se basant sur des ensembles de données autorisés et vérifiés complétés sur OpenLedger. Cela permet d'atteindre un flux de travail intégré pour l'autorisation des données, l'entraînement des modèles et le déploiement, dont le processus central comprend :
Contrôle d'accès aux données : L'utilisateur soumet une demande de données, le fournisseur examine et approuve, les données sont automatiquement intégrées à l'interface de formation du modèle.
Sélection et configuration du modèle : prend en charge les LLM courants (comme LLaMA, Mistral), configuration des hyperparamètres via l'interface graphique.
Ajustement léger : moteur LoRA / QLoRA intégré, affichage en temps réel de la progression de l'entraînement.
Évaluation et déploiement du modèle : Outils d'évaluation intégrés, support pour l'exportation de déploiement ou d'appels partagés dans l'écosystème.
Interface de validation interactive : Fournit une interface de type chat, facilitant le test direct des capacités de question-réponse du modèle.
Génération de traçabilité RAG : Répondre avec des références d'origine, renforçant la confiance et l'auditabilité.
L'architecture du système Model Factory comprend six grands modules, couvrant l'authentification des identités, les droits d'accès aux données, le réglage fin des modèles, le déploiement des évaluations et la traçabilité RAG, créant une plateforme de services de modèle intégrée, sécurisée et contrôlable, avec des interactions en temps réel et un revenu durable.
Le tableau ci-dessous présente un résumé des capacités des grands modèles linguistiques pris en charge par ModelFactory.
Série LLaMA : l'écosystème le plus vaste, une communauté active et de fortes performances générales, c'est l'un des modèles de base open source les plus populaires actuellement.
Mistral : architecture efficace, performances d'inférence excellentes, adaptée aux déploiements flexibles et aux ressources limitées.
Qwen : Produit par Alibaba, excellent performance des tâches en chinois, capacités générales fortes, idéal pour les développeurs nationaux.
ChatGLM : des effets de conversation en chinois remarquables, adaptés aux services clients de niche et aux scénarios de localisation.
Deepseek : excelle dans la génération de code et le raisonnement mathématique, adapté aux outils d'assistance au développement intelligent.
Gemma : un modèle léger lancé par Google, avec une structure claire, facile à utiliser rapidement et à expérimenter.
Falcon : Ancien étalon de performance, adapté à la recherche fondamentale ou aux tests comparatifs, mais l'activité de la communauté a diminué.
BLOOM : un bon support multilingue, mais des performances de raisonnement plutôt faibles, adapté à la recherche à couverture linguistique.
GPT-2 : modèle classique précoce, adapté uniquement à des fins pédagogiques et de validation, déconseillé pour une utilisation réelle.
Bien que la combinaison de modèles d'OpenLedger n'inclue pas les derniers modèles MoE haute performance ou les modèles multimodaux, sa stratégie n'est pas obsolète, mais plutôt une configuration "priorité à l'utilité" basée sur les contraintes réelles de déploiement sur la chaîne (coût d'inférence, adaptation RAG, compatibilité LoRA, environnement EVM).
Le Model Factory, en tant qu'outil sans code, intègre un mécanisme de preuve de contribution dans tous les modèles, garantissant les droits des contributeurs de données et des développeurs de modèles. Il présente des avantages tels qu'une faible barrière à l'entrée, la possibilité de monétisation et de combinaison, par rapport aux outils de développement de modèles traditionnels :
Pour les développeurs : fournir un parcours complet pour l'incubation, la distribution et les revenus du modèle ;
Pour la plateforme : former un écosystème de circulation et de combinaison d'actifs modélisés ;
Pour les utilisateurs : vous pouvez combiner les modèles ou les agents comme si vous appeliez une API.
3.2 OpenLoRA, la tokenisation des actifs on-chain du modèle finement ajusté
LoRA (Low-Rank Adaptation) est une méthode de réglage de paramètres efficace qui apprend de nouvelles tâches en insérant des "matrices de faible rang" dans un grand modèle pré-entraîné, sans modifier les paramètres du modèle d'origine, réduisant ainsi considérablement les coûts d'entraînement et les besoins de stockage. Les modèles de langage traditionnels (comme LLaMA, GPT-3) ont généralement des milliards, voire des centaines de milliards de paramètres. Pour les utiliser pour des tâches spécifiques (comme les questions juridiques, les consultations médicales), un réglage fin (fine-tuning) est nécessaire. La stratégie clé de LoRA est : "geler les paramètres du grand modèle d'origine et n'entraîner que les nouvelles matrices de paramètres insérées." Ses paramètres sont efficaces, son entraînement est rapide et son déploiement est flexible, ce qui en fait la méthode de réglage la plus adaptée au déploiement et à l'appel combiné des modèles Web3.
OpenLoRA est un cadre d'inférence léger conçu par OpenLedger, spécifiquement pour le déploiement de multiples modèles et le partage de ressources. Son objectif principal est de résoudre les problèmes courants dans le déploiement de modèles d'IA, tels que les coûts élevés, la faible réutilisation et le gaspillage de ressources GPU, tout en promouvant l'exécution de l'"IA payante" (Payable AI).
OpenLoRA système architecture composants clés, basé sur une conception modulaire, couvrant le stockage des modèles, l'exécution des inférences, le routage des requêtes et d'autres étapes clés, réalisant une capacité de déploiement et d'appel de plusieurs modèles de manière efficace et à faible coût :
Module de stockage des adaptateurs LoRA (LoRA Adapters Storage) : Les adaptateurs LoRA ajustés sont hébergés sur OpenLedger, permettant un chargement à la demande, évitant de précharger tous les modèles dans la mémoire vidéo, économisant ainsi des ressources.
Hébergement de modèle et fusion dynamique
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
9
Partager
Commentaire
0/400
FUD_Vaccinated
· 07-10 17:23
Encore une fois, on parle du concept d'IA, sans fin.
Voir l'originalRépondre0
ApyWhisperer
· 07-09 18:35
Cela doit vraiment être une bonne occasion de tirer un bon profit.
Voir l'originalRépondre0
AltcoinOracle
· 07-09 16:59
les motifs ne mentent pas... op stack + eigenDA formant une parfaite distribution wyckoff... changement de paradigme à venir frens
Voir l'originalRépondre0
StableGenius
· 07-08 06:00
meh... un autre jour, une autre "percée" ai/crypto. d'un point de vue empirique, ils ne font que reconditionner de l'ancienne infrastructure, à vrai dire.
Voir l'originalRépondre0
GasFeeTears
· 07-08 05:57
C'est encore une question de concepts.
Voir l'originalRépondre0
MEVVictimAlliance
· 07-08 05:56
Cette méthode ressemble trop à l'eyewash des GPU.
Voir l'originalRépondre0
SlowLearnerWang
· 07-08 05:50
C'est de nouveau le moment pour la partie A de faire des promesses. Que signifie vraiment la compétition en matière de Puissance de calcul ?
Voir l'originalRépondre0
GateUser-0717ab66
· 07-08 05:47
Garder le modèle de puissance de calcul.
Voir l'originalRépondre0
Rugman_Walking
· 07-08 05:46
Est-ce que compter sur la puissance de calcul est fiable ?
OpenLedger : construire une infrastructure économique d'agents intelligents basée sur les données
OpenLedger Depth Rapport de recherche : Construire une économie d'agents intelligents basée sur OP Stack + EigenDA, axée sur les données et les modèles combinables.
I. Introduction | La transition des couches de modèles de Crypto AI
Les données, les modèles et la puissance de calcul sont les trois éléments clés de l'infrastructure de l'IA, analogues à un carburant (données), un moteur (modèle) et une source d'énergie (puissance de calcul) indispensables. Tout comme le chemin d'évolution de l'infrastructure de l'industrie de l'IA traditionnelle, le domaine de la Crypto IA a également traversé des phases similaires. Au début de 2024, le marché était dominé par des projets de GPU décentralisés, mettant en avant une logique de croissance extensive axée sur la "compétition de puissance de calcul". Cependant, à partir de 2025, l'attention de l'industrie se déplace progressivement vers les couches de modèles et de données, marquant la transition de la Crypto IA d'une concurrence pour les ressources de base vers une construction intermédiaire plus durable et ayant une valeur d'application.
Modèle général (LLM) vs Modèle spécialisé (SLM)
Les modèles de langage de grande taille (LLM) traditionnels reposent fortement sur des ensembles de données massifs et des architectures distribuées complexes, avec une taille de paramètres allant de 70B à 500B, et le coût d'une seule formation peut souvent atteindre des millions de dollars. Le SLM (Specialized Language Model), en tant que paradigme de micro-ajustement léger basé sur un modèle de base réutilisable, est généralement basé sur des modèles open source tels que LLaMA, Mistral, DeepSeek, combiné avec une petite quantité de données professionnelles de haute qualité et des technologies telles que LoRA, permettant de construire rapidement des modèles d'experts possédant des connaissances spécifiques à un domaine, réduisant ainsi considérablement les coûts d'entraînement et les barrières techniques.
Il est important de noter que le SLM ne sera pas intégré dans les poids du LLM, mais fonctionnera en collaboration avec le LLM grâce à des appels via l'architecture Agent, un système de plugins pour le routage dynamique, le module LoRA pour le branchement à chaud, et RAG (génération améliorée par recherche). Cette architecture conserve la large capacité de couverture du LLM tout en renforçant les performances professionnelles grâce à des modules finement ajustés, formant un système intelligent combiné hautement flexible.
La valeur et les limites de Crypto AI au niveau des modèles
Les projets d'IA crypto sont essentiellement difficiles à améliorer directement les capacités fondamentales des modèles de langage de grande taille (LLM), la raison principale étant que
Cependant, au-dessus des modèles de base open source, les projets Crypto AI peuvent toujours réaliser une extension de valeur en ajustant des modèles de langage spécialisés (SLM) et en combinant la vérifiabilité et les mécanismes d'incitation de Web3. En tant que "couche d'interface périphérique" de la chaîne de valeur de l'IA, cela se manifeste dans deux directions principales :
Classification des types de modèles AI et analyse de l'applicabilité de la blockchain
Ainsi, il est clair que les points de chute viables pour les projets de type Crypto AI se concentrent principalement sur l'ajustement léger des SLM de petite taille, l'intégration et la vérification des données en chaîne dans l'architecture RAG, ainsi que le déploiement local et l'incitation des modèles Edge. En combinant la vérifiabilité de la blockchain et le mécanisme de token, Crypto peut offrir une valeur unique pour ces scénarios de modèles à ressources moyennes et faibles, créant une valeur différenciée pour la "couche d'interface" de l'IA.
La chaîne de blockchain AI basée sur des données et des modèles peut enregistrer de manière claire et immuable la source de contribution de chaque donnée et modèle sur la chaîne, améliorant ainsi considérablement la crédibilité des données et la traçabilité de l'entraînement des modèles. En même temps, grâce au mécanisme des contrats intelligents, des récompenses sont automatiquement distribuées lorsque des données ou des modèles sont appelés, transformant le comportement de l'IA en valeur tokenisée mesurable et échangeable, et construisant un système d'incitation durable. De plus, les utilisateurs de la communauté peuvent également évaluer les performances des modèles par le biais de votes avec des jetons, participer à l'élaboration et à l'itération des règles, et améliorer l'architecture de gouvernance décentralisée.
II. Aperçu du projet | La vision de la chaîne AI d'OpenLedger
OpenLedger est l'un des rares projets de blockchain AI sur le marché actuel axé sur les mécanismes d'incitation des données et des modèles. Il a été le premier à proposer le concept de "Payable AI", visant à construire un environnement d'exécution AI équitable, transparent et combinable, incitant les contributeurs de données, les développeurs de modèles et les constructeurs d'applications AI à collaborer sur une même plateforme et à obtenir des revenus on-chain en fonction de leurs contributions réelles.
OpenLedger offre une boucle fermée complète allant de "la fourniture de données" à "le déploiement de modèles" en passant par "l'appel de la répartition des bénéfices", dont les modules principaux comprennent :
Grâce aux modules ci-dessus, OpenLedger a construit une "infrastructure économique d'agents intelligents" basée sur des données et des modèles combinables, favorisant la mise en chaîne de la chaîne de valeur de l'IA.
Dans l'adoption de la technologie blockchain, OpenLedger utilise OP Stack + EigenDA comme fondation pour construire un environnement d'exécution de données et de contrats performant, à faible coût et vérifiable pour les modèles d'IA.
Comparé à des chaînes AI généralistes comme NEAR qui se concentrent davantage sur la couche de base et prônent la souveraineté des données avec l'architecture "AI Agents on BOS", OpenLedger se concentre davantage sur la construction de chaînes AI spécialisées axées sur les incitations liées aux données et aux modèles, s'efforçant de rendre le développement et l'appel des modèles traçables, combinables et durables sur la chaîne. C'est une infrastructure d'incitation pour les modèles dans le monde Web3, combinant l'hébergement de modèles de type HuggingFace, la facturation d'utilisation de type Stripe et des interfaces combinables sur la chaîne de type Infura, promouvant la voie vers "le modèle comme actif".
Trois, les composants clés et l'architecture technique d'OpenLedger
3.1 Modèle d'usine, usine de modèles sans code
ModelFactory est une plateforme de micro-ajustement de grands modèles de langage (LLM) dans l'écosystème OpenLedger. Contrairement aux cadres de micro-ajustement traditionnels, ModelFactory offre une interface entièrement graphique, sans nécessiter d'outils en ligne de commande ou d'intégration API. Les utilisateurs peuvent ajuster le modèle en se basant sur des ensembles de données autorisés et vérifiés complétés sur OpenLedger. Cela permet d'atteindre un flux de travail intégré pour l'autorisation des données, l'entraînement des modèles et le déploiement, dont le processus central comprend :
L'architecture du système Model Factory comprend six grands modules, couvrant l'authentification des identités, les droits d'accès aux données, le réglage fin des modèles, le déploiement des évaluations et la traçabilité RAG, créant une plateforme de services de modèle intégrée, sécurisée et contrôlable, avec des interactions en temps réel et un revenu durable.
Le tableau ci-dessous présente un résumé des capacités des grands modèles linguistiques pris en charge par ModelFactory.
Bien que la combinaison de modèles d'OpenLedger n'inclue pas les derniers modèles MoE haute performance ou les modèles multimodaux, sa stratégie n'est pas obsolète, mais plutôt une configuration "priorité à l'utilité" basée sur les contraintes réelles de déploiement sur la chaîne (coût d'inférence, adaptation RAG, compatibilité LoRA, environnement EVM).
Le Model Factory, en tant qu'outil sans code, intègre un mécanisme de preuve de contribution dans tous les modèles, garantissant les droits des contributeurs de données et des développeurs de modèles. Il présente des avantages tels qu'une faible barrière à l'entrée, la possibilité de monétisation et de combinaison, par rapport aux outils de développement de modèles traditionnels :
3.2 OpenLoRA, la tokenisation des actifs on-chain du modèle finement ajusté
LoRA (Low-Rank Adaptation) est une méthode de réglage de paramètres efficace qui apprend de nouvelles tâches en insérant des "matrices de faible rang" dans un grand modèle pré-entraîné, sans modifier les paramètres du modèle d'origine, réduisant ainsi considérablement les coûts d'entraînement et les besoins de stockage. Les modèles de langage traditionnels (comme LLaMA, GPT-3) ont généralement des milliards, voire des centaines de milliards de paramètres. Pour les utiliser pour des tâches spécifiques (comme les questions juridiques, les consultations médicales), un réglage fin (fine-tuning) est nécessaire. La stratégie clé de LoRA est : "geler les paramètres du grand modèle d'origine et n'entraîner que les nouvelles matrices de paramètres insérées." Ses paramètres sont efficaces, son entraînement est rapide et son déploiement est flexible, ce qui en fait la méthode de réglage la plus adaptée au déploiement et à l'appel combiné des modèles Web3.
OpenLoRA est un cadre d'inférence léger conçu par OpenLedger, spécifiquement pour le déploiement de multiples modèles et le partage de ressources. Son objectif principal est de résoudre les problèmes courants dans le déploiement de modèles d'IA, tels que les coûts élevés, la faible réutilisation et le gaspillage de ressources GPU, tout en promouvant l'exécution de l'"IA payante" (Payable AI).
OpenLoRA système architecture composants clés, basé sur une conception modulaire, couvrant le stockage des modèles, l'exécution des inférences, le routage des requêtes et d'autres étapes clés, réalisant une capacité de déploiement et d'appel de plusieurs modèles de manière efficace et à faible coût :