بالتأكيد، أعتقد أنه من الواضح أنك تحصل على طلبات جديدة من الطوارئ/الجمال/التماسك مع RL. ولكن بالطبع، فإنه يفتح أيضًا الطريق أمام جميع أنواع الأضرار والخسائر.


أعتقد حتى أن RL يمكن أن يجعل النماذج أفضل في "المحاكاة" من النماذج الأساسية! ( على سبيل المثال من خلال جعلها تصحح نفسها بشكل وكيل )
GET-0.04%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • إعادة النشر
  • مشاركة
تعليق
0/400
AirdropHunterWangvip
· 08-09 04:05
تأثير rl جيد ولكنه خطير
شاهد النسخة الأصليةرد0
TokenVelocityvip
· 08-09 04:05
rl قد استعمل الغش
شاهد النسخة الأصليةرد0
WhaleWatchervip
· 08-09 04:03
قد يكون تصحيح النموذج الذاتي أكثر موثوقية من الإنسان
شاهد النسخة الأصليةرد0
SelfCustodyIssuesvip
· 08-09 03:50
rt حقًا قادر على تحليل الجانبين بشكل جيد، من يفهم يفهم.
شاهد النسخة الأصليةرد0
IfIWereOnChainvip
· 08-09 03:49
قرار آخر sacrifice الأمان
شاهد النسخة الأصليةرد0
DataPickledFishvip
· 08-09 03:42
سأقوم بالتدريب فقط، لكنني لا أستطيع كتابة الشيفرة.
شاهد النسخة الأصليةرد0
  • تثبيت