TinyZero 是一個基于 veRL 的強(qiáng)化學(xué)習(xí)模型,旨在復(fù)現(xiàn) DeepSeeK-R1 Zero 在倒計(jì)時和乘法任務(wù)中的表現(xiàn)。令人驚訝的是,該項(xiàng)目僅需 30 美元的運(yùn)行成本(使用 2xH200,每小時 6.4 美元,不到 5 小時),就能實(shí)現(xiàn)與 DeepSeeK-R1 Zero 相同的頓悟效果。通過強(qiáng)化學(xué)習(xí)(RL),3B 基礎(chǔ)語言模型(LM)能夠自主開發(fā)自我驗(yàn)證和搜索能力。用戶可以通過簡單的安裝步驟和訓(xùn)練過程,體驗(yàn)到 TinyZero 的強(qiáng)大功能和創(chuàng)新性。 |
|