LLMs之Prover:《DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition》翻譯與解讀
導(dǎo)讀:DeepSeek-Prover-V2通過結(jié)合大型語言模型的推理能力和形式化驗(yàn)證系統(tǒng)的嚴(yán)格性,提出了一種新的形式化定理證明方法。該方法通過子目標(biāo)分解、遞歸求解、課程學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù),有效地提升了模型在各種數(shù)學(xué)基準(zhǔn)測(cè)試中的性能,并縮小了非形式化推理和形式化證明之間的差距,為未來的自動(dòng)定理證明研究奠定了基礎(chǔ)。
>> 背景痛點(diǎn)
● 推理有效性:大型語言模型(LLMs)在數(shù)學(xué)問題求解方面取得了顯著進(jìn)展,這主要得益于推理時(shí)規(guī)模擴(kuò)展,特別是自然語言鏈?zhǔn)剿伎?#xff08;CoT)推理。
● 形式化定理的挑戰(zhàn):盡管自然語言推理在解決競賽級(jí)數(shù)學(xué)問題上很成功,但將其應(yīng)用于形式化定理證明仍然具有根本性的挑戰(zhàn)。
● 非形式化的劣勢(shì)和形式化的特點(diǎn):LLMs的自然語言推理本質(zhì)上是非形式化的,依賴于啟發(fā)式方法、近似和數(shù)據(jù)驅(qū)動(dòng)的猜測(cè)模式,這些模式通常缺乏形式驗(yàn)證系統(tǒng)所需的嚴(yán)格結(jié)構(gòu)。形式化驗(yàn)證系統(tǒng)(如Lean, Isabelle, Coq)基于嚴(yán)格的邏輯基礎(chǔ),每個(gè)證明步驟都必須顯式構(gòu)造和形式驗(yàn)證,不允許任何歧義、隱含假設(shè)或細(xì)節(jié)遺漏。
● 兩者的挑戰(zhàn):如何彌合非形式化的高級(jí)推理與形式化驗(yàn)證系統(tǒng)的句法嚴(yán)格性之間的差距,是神經(jīng)定理證明中長期存在的挑戰(zhàn)。
>> 解決方案
● 提出了DeepSeek-Prover-V2,一個(gè)用于Lean 4形式化定理證明的開源大型語言模型。
● 利用DeepSeek-V3驅(qū)動(dòng)的遞歸定理證明流程收集初始化數(shù)據(jù)。通過提示DeepSeek-V3將復(fù)雜問題分解為一系列子目標(biāo)來啟動(dòng)冷啟動(dòng)訓(xùn)練過程。將已解決子目標(biāo)的證明合成為鏈?zhǔn)剿伎歼^程,并結(jié)合DeepSeek-V3的逐步推理,為強(qiáng)化學(xué)習(xí)創(chuàng)建一個(gè)初始冷啟動(dòng)。
● 將非形式化和形式化數(shù)學(xué)推理集成到一個(gè)統(tǒng)一的模型中。
● 構(gòu)建了一個(gè)簡單的遞歸定理證明pipeline,利用DeepSeek-V3作為子目標(biāo)分解和形式化的統(tǒng)一工具。
● 提示DeepSeek-V3將定理分解為高級(jí)證明草圖,同時(shí)將這些證明步驟形式化為Lean 4中的子目標(biāo)序列。使用較小的7B模型處理每個(gè)子目標(biāo)的證明搜索,從而減少計(jì)算負(fù)擔(dān)。
● 引入課程學(xué)習(xí)框架,利用分解的子目標(biāo)生成推測(cè)性定理,逐步增加訓(xùn)練任務(wù)的難度,以更好地指導(dǎo)模型的學(xué)習(xí)過程。將完整的逐步形式證明與DeepSeek-V3的相應(yīng)鏈式思考配對(duì),以創(chuàng)建冷啟動(dòng)推理數(shù)據(jù)。
● 應(yīng)用強(qiáng)化學(xué)習(xí)階段,以進(jìn)一步加強(qiáng)非形式化數(shù)學(xué)推理和形式證明構(gòu)造之間的聯(lián)系。
>> 核心思路步驟
● 子目標(biāo)分解: 使用DeepSeek-V3將復(fù)雜定理分解為更小的、可管理的子目標(biāo)(lemma)。
● 形式化草圖: 將分解的子目標(biāo)轉(zhuǎn)換為Lean 4的形式化語句,但省略證明細(xì)節(jié),用"sorry"占位符表示。
● 遞歸求解: 使用較小的7B prover模型遞歸地解決每個(gè)子目標(biāo),利用先前的子目標(biāo)作為前提。
● 合成完整證明: 將子目標(biāo)的證明組合成原始問題的完整形式化證明。
● 冷啟動(dòng)數(shù)據(jù)生成: 將完整的形式化證明與DeepSeek-V3的鏈?zhǔn)剿伎歼^程相結(jié)合,創(chuàng)建高質(zhì)量的冷啟動(dòng)訓(xùn)練數(shù)據(jù)。
● 課程學(xué)習(xí): 利用子目標(biāo)生成難度遞增的訓(xùn)練任務(wù),逐步引導(dǎo)prover模型解決更具挑戰(zhàn)性的問題。
● 強(qiáng)化學(xué)習(xí): 使用二元正確/錯(cuò)誤反饋?zhàn)鳛楠?jiǎng)勵(lì)信號(hào),并加入一致性獎(jiǎng)勵(lì),確保生成的證明結(jié)構(gòu)與鏈?zhǔn)剿伎嫉?span style="color:#ff0000">分解一致。
>> 優(yōu)勢(shì)
● DeepSeek-Prover-V2-671B在神經(jīng)定理證明方面達(dá)到了最先進(jìn)的性能。在MiniF2F-test上達(dá)到了88.9%的pass ratio。解決了PutnamBench中的658個(gè)問題中的49個(gè)。在ProverBench的15個(gè)AIME問題中成功解決了6個(gè)。
● 縮小了大型語言模型中形式和非形式數(shù)學(xué)推理之間的差距。
● 通過將一般用途LLM與輕量級(jí)專用7B prover集成,實(shí)現(xiàn)了90.2%的miniF2F-valid成功率。
● CoT推理模式在形式數(shù)學(xué)推理中比非CoT模式具有顯著的性能優(yōu)勢(shì)。
● 7B模型在PutnamBench數(shù)據(jù)集上使用非CoT生成模式表現(xiàn)出色,成功解決了671B版本未解決的13個(gè)問題。
>> 結(jié)論和觀點(diǎn)
● 通過合成冷啟動(dòng)推理數(shù)據(jù),可以有效提升形式化定理證明的能力。
● 遞歸定理證明框架,結(jié)合子目標(biāo)分解和形式化,是一種有前景的方法。
● 課程學(xué)習(xí)和強(qiáng)化學(xué)習(xí)可以進(jìn)一步增強(qiáng)模型在形式化定理證明方面的能力。
● 高容量模型即使在沒有明確CoT提示的情況下,也可能內(nèi)化和外化中間推理。
● 建議未來的工作重點(diǎn)是將該范例擴(kuò)展到類似AlphaProof的系統(tǒng),目標(biāo)是解決代表自動(dòng)定理證明挑戰(zhàn)前沿的IMO級(jí)數(shù)學(xué)問題。
● 建議進(jìn)一步探索如何利用大型語言模型的非形式化推理能力來指導(dǎo)形式化證明的構(gòu)建。
● 建議研究如何設(shè)計(jì)更有效的獎(jiǎng)勵(lì)函數(shù),以鼓勵(lì)模型生成結(jié)構(gòu)良好、易于理解的形式化證明。