Certainement, je pense qu'il est évident que vous obtenez de nouveaux ordres d'émergence/belle/cohérence avec RL. Mais bien sûr, cela ouvre également la voie à toutes sortes de dommages et de pertes.
Je pense même que RL peut rendre les modèles meilleurs pour "simuler" que les modèles de base ! ( par exemple en les rendant auto-correcteurs de manière agentique )
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
6
Reposter
Partager
Commentaire
0/400
AirdropHunterWang
· Il y a 17h
rl est efficace mais dangereux.
Voir l'originalRépondre0
TokenVelocity
· Il y a 17h
rl a triché, c'est sûr.
Voir l'originalRépondre0
WhaleWatcher
· Il y a 18h
L'auto-correction des modèles pourrait être plus fiable que celle des humains.
Voir l'originalRépondre0
SelfCustodyIssues
· Il y a 18h
rt peut vraiment analyser les deux côtés de manière très compétente, ceux qui comprennent comprennent.
Voir l'originalRépondre0
IfIWereOnChain
· Il y a 18h
Une autre décision au détriment de la sécurité.
Voir l'originalRépondre0
DataPickledFish
· Il y a 18h
Je ne peux que m'entraîner, je ne peux pas écrire de code.
Certainement, je pense qu'il est évident que vous obtenez de nouveaux ordres d'émergence/belle/cohérence avec RL. Mais bien sûr, cela ouvre également la voie à toutes sortes de dommages et de pertes.
Je pense même que RL peut rendre les modèles meilleurs pour "simuler" que les modèles de base ! ( par exemple en les rendant auto-correcteurs de manière agentique )