2025-08-09 03:35:42

Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.

¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)

GET-0.04%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

14 me gusta

Recompensa
14
6
Republicar
Compartir

Comentar

0/400

AirdropHunterWang

· 08-09 04:05

El efecto rl es bueno, pero peligroso.

Ver originalesResponder0

TokenVelocity

· 08-09 04:05

rl está haciendo trampa

Ver originalesResponder0

WhaleWatcher

· 08-09 04:03

La auto-corrección del modelo puede ser más confiable que los humanos.

Ver originalesResponder0

SelfCustodyIssues

· 08-09 03:50

rt realmente analiza ambos lados de manera convincente, los que entienden, entienden.

Ver originalesResponder0

IfIWereOnChain

· 08-09 03:49

Otra decisión que sacrifica la seguridad

Ver originalesResponder0

DataPickledFish

· 08-09 03:42

Solo entrenaré, no escribiré código.

Ver originalesResponder0

Tema
#Gate & WLFI USD1 Points Program
70k Popularidad
#Trump Allows 401(k) Crypto Investing
40k Popularidad
#Join Copy Trading Share to Win $2,000
38k Popularidad
#Show My Alpha Points
76k Popularidad
#SOL Futures Reach New High
22k Popularidad

Anclado