Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.
¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
14 me gusta
Recompensa
14
6
Republicar
Compartir
Comentar
0/400
AirdropHunterWang
· 08-09 04:05
El efecto rl es bueno, pero peligroso.
Ver originalesResponder0
TokenVelocity
· 08-09 04:05
rl está haciendo trampa
Ver originalesResponder0
WhaleWatcher
· 08-09 04:03
La auto-corrección del modelo puede ser más confiable que los humanos.
Ver originalesResponder0
SelfCustodyIssues
· 08-09 03:50
rt realmente analiza ambos lados de manera convincente, los que entienden, entienden.
Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.
¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)