📢 Gate廣場獨家活動: #PUBLIC创作大赛# 正式開啓!
參與 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),並在 Gate廣場發布你的原創內容,即有機會瓜分 4,000 枚 $PUBLIC 獎勵池!
🎨 活動時間
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 參與方式
在 Gate廣場發布與 PublicAI (PUBLIC) 或當前 Launchpool 活動相關的原創內容
內容需不少於 100 字(可爲分析、教程、創意圖文、測評等)
添加話題: #PUBLIC创作大赛#
帖子需附帶 Launchpool 參與截圖(如質押記錄、領取頁面等)
🏆 獎勵設置(總計 4,000 枚 $PUBLIC)
🥇 一等獎(1名):1,500 $PUBLIC
🥈 二等獎(3名):每人 500 $PUBLIC
🥉 三等獎(5名):每人 200 $PUBLIC
📋 評選標準
內容質量(相關性、清晰度、創意性)
互動熱度(點讚、評論)
含有 Launchpool 參與截圖的帖子將優先考慮
📄 注意事項
所有內容須爲原創,嚴禁抄襲或虛假互動
獲獎用戶需完成 Gate廣場實名認證
Gate 保留本次活動的最終解釋權
單GPU運行數千環境、800萬步模擬只需3秒,斯坦福開發超強遊戲引擎
現階段,AI 智能體彷彿無所不能,玩遊戲、模仿人類完成各種任務,而這些智能體基本是在復雜環境中訓練而成的。不僅如此,隨著學習任務變得越來越複雜,模擬環境的複雜性也隨之增加,從而增加了模擬環境的成本。
即使擁有超級計算規模資源的公司和機構,訓練好一個可用的智能體也可能需要數天的時間才能完成。
這阻礙了該領域的進展,降低了訓練先進AI 智能體的實用性。為了解決環境模擬的高成本問題,最近的研究努力從根本上重新設計模擬器,以在訓練智能體時實現更高的效率。這些工作共享批量模擬的思想,即在單個模擬器引擎內同時執行許多獨立的環境(訓練實例)。
本文,來自斯坦福大學等機構的研究者,他們提出了一個名為Madrona 的強化學習遊戲引擎,可以在單個GPU 上並行運行數千個環境,將智能體的訓練時間從幾小時縮減到幾分鐘。
具體而言,Madrona 是一款研究型遊戲引擎,專為創建學習環境而設計,可以在單個GPU 上同時運行數千個環境實例,並且以極高的吞吐量(每秒數百萬個聚合步驟)執行。 Madrona 的目標是讓研究人員更輕鬆地為各種任務創建新的高性能環境,從而使AI 智能體訓練的速度提高幾個數量級。
Madrona 具有以下特點:
作者之一、斯坦福大學計算機科學副教授Kayvon Fatahalian 表示,在一款讓多個智能體玩烹飪遊戲Overcooked 上,借助Madrona 遊戲引擎,模擬800 萬個環境步驟的時間從一小時縮短到三秒。
**基於Madrona 搭建的環境模擬器有哪些? **
Madrona 本身不是一個RL 環境模擬器,而是一個遊戲引擎或框架。開發者藉助它可以更容易地實現自己的新的環境模擬器,從而通過在GPU 上運行批次模擬並將模擬輸出與學習代碼緊密結合來實現高性能。
下面是基於Madrona 搭建的一些環境模擬器。
馬德羅納逃生室
Madrona Escape Room 是一個簡單的3D 環境,使用了Madrona 的ECS API 以及物理和渲染功能。在這個簡單任務中,智能體必須學習按下紅色按鈕並推動其他顏色的箱子以通過一系列房間。
Overcooked AI 環境是一個基於協作電子遊戲的多智能體學習環境(多人協作烹飪遊戲),這裡對它進行了高通量Madrona 重寫。
捉迷藏
2019 年9 月,OpenAI 智能體上演了捉迷藏攻防大戰,自創套路與反套路。這裡使用Madrona 對「Hide and Seek」環境進行了復現。
Hanabi 是一個基於Madrona 遊戲引擎的Hanabi 紙牌遊戲的實現,也是一個協作式Dec-POMDP。該環境基於DeepMind 的Hanabi 環境,並支持部分MAPPO 實現。
Cartpole 是一個典型的RL 訓練環境,它與構建在Madrona 遊戲引擎之上的gym 實現有相同的動力學。
GitHub 地址:
Overcooked 烹飪遊戲:一分鐘內訓練最佳智能體
在數千個廚房中煮過頭:在一分鐘內培訓表現最佳的特工
論文作者之一、斯坦福大學本科生Bidipta Sarkar 撰寫博客詳細介紹了訓練智能體玩Overcooked 烹飪遊戲的過程。 Overcooked 是一款流行的烹飪遊戲, 也可以作為協作多智能體研究的基準。
就Overcooked 烹飪遊戲而言,大約需要800 萬步的遊戲經驗,才能訓練一對在Overcooked 狹窄房間佈局(下圖)中收斂到穩定均衡策略的智能體。 Overcooked 的開源實現使用Python 編寫,在8 核AMD CPU 上每秒運行2000 步,因此生成必要的智能體經驗需要花費1 個小時以上。
考慮到Overcooked 是一個簡單的環境,讓模擬速度難住似乎很愚蠢。因此Sarkar 試著看看Overcooked 環境模擬的速度是否可以提升,這就需要用到Madrona 遊戲引擎。
利用Madrona 遊戲引擎,Sarkar 得到了一個原始Overcooked Python 實現的即插即用的GPU 加速版替代。當並行模擬1000 個Overcooked 環境時,GPU 加速後的實現在A40 GPU 上每秒可以生成350 萬步經驗。
作為結果,模擬800 萬個環境步驟的時間從1 小時縮短至了3 秒,從而可以使用A40 GPU 在短短1 分鐘內訓練一個策略。
該模擬器的速度為在Overcooked 中執行廣泛的超參數掃描打開了新的可能性,尤其是在以往訓練單個策略所需的時間內有了訓練多個策略的可能。
最後,Sarkar 意識到與創建GPU 加速環境的現有替代方案(如PyTorch、Taichi Lang、Direct CUDA C++)相比,將Overcooked 移植到Madrona 的過程更加地順利。
博客詳情:
參考鏈接: