新聞 > 科教 > 正文

DeepSeek該降降溫了 哪有什麼神仙技術

最近大火的Deepseek,雖然在某些方面測試取得了不錯的成績,但在相關技術人員看來,也沒有太多的理論創新,全局上了說都是在做工程創新,這種創新和遙遙領先的創新之道很類似,基本上是持續集成前沿科學成果,在實施上作局部工程和工藝優化,然後給消費者呈現一個變臉的不一樣,從而滿足某種高大上的虛榮心。

當然話說回來世界那有那麼多新東西,在理解的基礎上,變個法子也是一種表現式創新。那麼Deepseek到底做了哪些工程和技術集成創新?

1、核心架構還是基於Transformer,工程設計上進行了創新和工藝提升,實現效率優化。架構上,採用了混合專家模型(MoE)、多頭潛注意力(MLA)、多令牌預測(MTP)、長鏈式推理(CoT)、DualPipe算法等設計,並進行了依賴強化學習(RL)而不加入監督微調(SFT)的訓練嘗試。工程上,在數據精度(FP8混合精度)、底層通信等方面進行了優化。這些都是業界已有的技術,但Deepseek做到了理論應用和工程上的平衡。

2、開發了高效的通信內核,優化內部數據傳輸速度,保證數據傳輸效率,並能支持大規模部署,這為訓練成本的優化至關重要。

3、所用語料的標註應該更加精準,估計,這不是某一家標註外包提供的,數學類的問答,深度推理還遠遠不足。

4、親自測試的幾個數學問題,複雜問題,只具備基本計算能力,不具備,深度推理及驗算能力,問幾個迷惑性的邏輯問題,答案會有明顯錯誤。

責任編輯: 李華  來源:哲史微言 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/0129/2167485.html