如何預期DeepSeek傳言中的R2新模型

快訊 2025年02月26日 11:30 31 admin

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

　　信息平權

　　路透2月25日報道了DeepSeek可能在5月前發布r2。之前DeepSeek研究員Daya在2月初已經說過：RL還在早期，今年會看“顯著進步”（significant?progress）

　　其實在r1論文中也提到過：由于目前RL訓練數據還很少，R1的下個版本會大幅提升。

如何預期DeepSeek傳言中的R2新模型

　　也就是r1論文中的下圖，以及論文所述：隨著RL數據的增加，模型不僅解決復雜推理任務的能力持續穩定提升，且會自然涌現出一些復雜行為能力，比如“反思”、“探索不同方法”。這些能力不是人類設計，而是隨著模型在RL環境中訓練，自然涌現的。

如何預期DeepSeek傳言中的R2新模型

　　粗淺的理解，現在不需要算法上的巨大創新，按照目前路線+更多算力+DS如此強的infra能力，基于目前的V3基座模型，依然可以取得r2/r3。當看到RL提升邊際放緩，再基于新的基座V4，繼續做RL，進一步推進推理模型提升。也就是下面這張圖：（左腳踩右腳示意圖）

如何預期DeepSeek傳言中的R2新模型

　　而參考OpenAI的路線圖，o3已經決定不發布完整模型，GPT-4.5也成了最后一個獨立發布的基座模型，意味著GPT-5（混合模型）開始，越來越黑盒。說白了，以后無論是基座模型還是推理模型本身，都是“原料”而不是“最終產品”，CloseAI和Anthropic一定會雪藏。

如何預期DeepSeek傳言中的R2新模型

　　但DeepSeek要做的，就是在別人繼續閉源的時候，繼續開源。r2應該對標的是o3完整版，而V4至少應該對標GPT-4.5，基于V4+RL的模型，應該對標是未來的所謂“GPT-5”。因此合理預期應該是V4可能會加入多模態能力，但r系列依然是推理模型。且這個過程中，所有的“原料”全部開源，不僅原料開源，按照這次代碼五連發，連制造原材料的“配方”都直接開源。

　　這里面其實沒有什么DeepSeek不知道的秘密，甚至在infra層面遠超北美很多模型大廠。今天我們在討論的：DeepSeek甚至可能比英偉達更懂如何使用GPU。而所謂Research上的創新，OpenAI o系列的靈感也來自于早已發表的“開源”paper，疊加自己的算力優勢和工程探索實現。說到底沒人全靠自己閉門造車，都受益于全世界“開源”研究或實踐的喂養。

　　因此說回來，相比于r2，大家反而應該更期待V4，因為這打開了推理模型另一個level天花板，開辟的是另一條全新跑道。r2是時間表上確定的事情，而V4會是一個驚喜。這都會在今年發生。

　　（完）

　　文章內容有刪減

標簽：言中預期 DeepSeek