DeepSeek重塑市場認知 AI界競爭並非零和遊戲 直接比較Meta OpenAI訓練成本不合理?
關於引發此次市場波動的DeepSeek大語言模型,我認為有必要說明,這並非一個突然出現的黑天鵝事件。實際上,這家公司的技術發展一直受到市場關注。其最新推出的開源模型在效能和成本效益方面都展現出驚人的競爭力,這正是導致市場對傳統AI晶片需求預期改變的關鍵因素。這種技術突破可能會重塑整個AI產業鏈的競爭格局,特別是在高端晶片的定價權方面。
從資金流向來看,我觀察到機構投資者開始調整其科技股持倉結構,從單一押注晶片製造商轉向更加多元化的配置策略。這種轉變可能預示著AI產業鏈的價值重新分配正在展開,未來幾個季度可能會看到更多相關企業的估值重估過程。
DeepSeek的技術突破正在重塑市場對AI產業的認知。從2023年12月開始,我在多個專欄中已經持續追蹤這家公司的發展。他們的V3(Wilson 3.0)版本模型推出後,我仔細分析了其測試數據,發現在計算能力、語言處理等多個領域的表現都相當驚人。特別是在與Llama、GPT及Claude等主流模型的對比測試中,DeepSeek不僅毫不遜色,在某些特定領域的表現甚至超越了OpenAI。
進入2024年,DeepSeek又推出了具備深度思考能力的R1模型,這是一個重大突破。我觀察到,R1模型在推理能力方面展現出極強的競爭力,尤其是在數學運算、程式編碼(Programming)以及自然語言(Natural Language)推理等領域,都達到了可以與OpenAI的Q1模型相抗衡的水平。
最令市場震驚的是,DeepSeek披露他們僅用了兩個月時間,以557萬美元的成本就完成了模型訓練。我認為,這個驚人的成本效益比,徹底顛覆了市場原有的認知。過去,業界普遍認為只有擁有龐大資源的科技巨頭才能開發尖端AI模型,但DeepSeek用極少量的晶片就實現了相若的性能,這個成就具有劃時代的意義。
在技術層面上,我注意到市場對DeepSeek的成功有兩種主要解讀。第一種觀點認為,他們可能採用了高質量的合成數據。由於使用了優質的合成數據,自然能夠減少訓練時間和晶片使用量。要知道,傳統的數據標註和監督式微調過程往往需要投入大量人力物力,動輒耗資數億美元。因此,如果DeepSeek確實找到了更有效的數據處理方法,這將是一個重大突破。
另一個值得關注的觀點是關於他們的演算法創新。我發現DeepSeek在大語言模型訓練方面採用了獨特的方法,能夠大幅降低對標註數據的依賴。這一點特別重要,因為AI模型的學習能力主要取決於數據的質量和數量。如果DeepSeek真的開發出了更高效的演算法,這可能會徹底改變整個AI行業的發展軌跡。
從投資角度來看,我認為這些發展對市場的影響深遠。首先,它可能導致AI基礎設施投資預期的重大調整。其次,對於中小型AI企業來說,這無疑是一個利好消息,因為降低的開發門檻意味著他們也有機會參與到高端AI技術的競爭中來。最後,這可能引發新一輪的產業鏈重組,特別是在AI晶片、雲計算等相關領域。
不過,我也要指出,市場對DeepSeek的技術創新仍存在諸多質疑。有分析師擔心其模型的穩定性和可擴展性,也有人質疑其商業化能力。但無論如何,DeepSeek的出現已經在AI產業投資邏輯中投下了一顆重磅炸彈,未來幾個月市場的反應值得我們持續關注。
我最近深入研究了DeepSeek的技術發展,發現他們在2024年1月推出的Jennifer 7B模型具有重大突破性意義。這個模型主要針對圖像生成領域,直接挑戰了目前市場上的兩大主流產品:OpenAI的DALL-E 3和Stable Diffusion。從我的觀察來看,Jennifer 7B在圖像生成質量上不僅可以與這兩個知名模型相媲美,更重要的是,它在運算資源使用效率上展現出了明顯優勢。
通過深入分析DeepSeek的技術架構,我發現一個有趣的現象:雖然市場上有不少人質疑DeepSeek只是OpenAI API的二次封裝,但事實並非如此。經過眾多技術專家的驗證,DeepSeek展現出了獨特的技術創新。不過,我必須指出,DeepSeek並非完全脫離現有的AI技術體系。從他們公開的研究論文可以看出,其核心仍然建立在Transformer架構之上,這是由Google最初開發的基礎框架。
不過,DeepSeek也並非完全基於全新的AI邏輯。從他們公開的研究論文可以看出,其核心架構仍然基於Transformer(最初由Google開發)。但在訓練方法上,DeepSeek採用了一些創新的技術:
1. 混合專家模型(MoE)
2. 多頭潛注意力機制(MHA)
3. 多令牌預測(MTP)
4. 鏈式思維(CoT)
5. GRUE HIT算法用於強化學習
首先是混合專家模型(MoE)的應用。這個技術讓我印象深刻,因為它巧妙地將不同領域的任務分配給專門的「專家」模型處理。這種方式大大提高了計算效率,因為不需要所有專家模型都處理所有類型的任務。
其次,我注意到他們在多頭潛注意力機制(MHA)、多令牌預測(MTP)以及鏈式思維(Chain of Thought,CoT)等方面都有創新。特別是使用GRUE HIT算法來進行強化學習,這與傳統的監督式微調方法有很大的不同。
從效果來看,我發現這種方法雖然在極其深入的專業問題上可能比不上OpenAI的模型,但對於90%的日常應用場景來說,效果已經相當令人滿意。更重要的是,通過減少參數量,DeepSeek實現了更高的成本效益比。
在實際應用中,我觀察到混合專家模型(MoE)的效果特別明顯。這種方法通過將訓練數據按領域分類,讓不同的「專家」模型專注於特定類型的任務,大大降低了對計算資源的需求。這種創新不僅提高了效率,還為AI模型的訓練提供了一個新的思路。據業內人士分析,這些技術與即將推出的GPT-4模型可能採用類似的方向。不過,這個判斷還需要進一步驗證。
這些技術突破不僅展示了DeepSeek的創新能力,也為整個AI行業提供了一個全新的發展方向,特別是在提高AI模型訓練效率方面。
關於未來發展,我認為DeepSeek的這些技術創新可能會對整個AI行業產生深遠影響。特別是他們在提高訓練效率方面的突破,可能會改變目前AI發展過度依賴大量計算資源的現狀。這對於想要進入AI領域的中小型企業來說,無疑是一個好消息。
最後,我要強調的是,雖然DeepSeek的技術令人印象深刻,但AI技術發展日新月異,他們面臨的競爭壓力也在不斷增加。特別是在圖像生成領域,OpenAI和Stability AI等公司也在持續創新。未來幾個月的發展態勢,將會是一個非常值得關注的焦點。
我觀察到,DeepSeek的技術發展體現在幾個關鍵方面。首先是他們的R1和V3版本都採用了強化學習(Reinforcement Learning)的訓練方式,而不是依賴傳統的監督式微調(Supervised Fine-tuning)。這種訓練方法的最大特點,就是不需要依賴人工標註的數據。
以一個具體例子來說明:如果我們要訓練AI回答「全球最高的山是什麼」這個問題,傳統的監督式微調需要人工標註數據,明確標示「喜馬拉雅山」是正確答案。但通過強化學習,AI系統可以通過分析大量山脈數據,包括喜馬拉雅山、太平山、鳳凰山等,自主學習並得出結論。這種自主學習的方式大大提升了訓練效率。
關於訓練成本,市場上有報導指出DeepSeek的訓練成本僅為550萬美元,約是Meta或OpenAI的1/20。但我認為這個比較存在一定偏差。因為如果我們對比相同參數規模的模型,實際上DeepSeek只是將成本壓縮了約1/3。
Meta和OpenAI投入的大量資金主要用於早期研發階段,作為開創者,他們需要投入巨額資源進行從0到1的探索。而後來者能夠借鑒前人經驗,自然可以節省大量成本。加上近期算力成本呈幾何級數下降,直接比較這些數字並不完全合理。
在效能提升方面,我發現這種情況與汽車發動機的發展有些相似。美國汽車製造商傾向於追求更大的排量和馬力,而日本製造商則致力於優化燃油效率。現在的AI發展也呈現類似的分歧:OpenAI走高算力路線,而DeepSeek則追求效能優化。
但有趣的是,這種技術效能的提升可能帶來意想不到的結果。這讓我想起了工業革命時期的「傑文斯悖論」:蒸汽機效率的提升本應減少煤炭消耗,但實際上卻因為使用範圍擴大而導致總體消耗增加。同樣地,AI算力效率的提升和成本的降低,可能不會導致算力需求下降,反而會因為應用場景的擴展而增加總體需求。
這種現象在科技發展史上並不罕見。就像手機發展史一樣,從諾基亞時代開始,正是因為手機變得更加平價,反而帶動了整個市場消費量的顯著增長。我預計,隨著AI算法效率的提升,對數據和算力的需求不會減少,反而會因為應用場景的擴展而進一步增加。
最後,我要強調的是,目前AI領域的競爭態勢並非零和遊戲。DeepSeek代表了開源系統的發展方向,類似於Meta的Llama模型,而OpenAI則代表封閉系統路線。這兩種模式很可能會在未來長期共存,就像Linux和Windows在操作系統領域的共存一樣,服務於不同的應用場景和用戶需求。
從長遠來看,AI技術的發展可能會出現新的突破和範式轉換。正如量子計算可能帶來全新的計算模式一樣,我們也不能排除AI領域出現革命性創新的可能性。這種創新可能會徹底改變目前的技術路線和競爭格局。
我觀察到,DeepSeek的出現為科技市場帶來了重大變革。首先,我們不能簡單地認為這次的技術突破會令某些公司完全喪失競爭力,但對NVIDIA這類公司來說,確實在短期內會帶來相當大的衝擊,特別是考慮到NVIDIA目前的市值已達到極高水平。
從技術層面來看,DeepSeek能夠在普通用戶的個人電腦上運行,這種在個人終端執行推論算法的特性,理論上確實會對NVIDIA的市場地位造成衝擊。我注意到,NVIDIA過去的高股價主要建立在其在高性能芯片領域的壟斷地位之上,這為公司帶來了極為可觀的利潤。
當我們展望未來,如果市場真的能夠使用更經濟實惠或普通的芯片來進行AI推論運算,那麼對NVIDIA的需求很可能不會如之前預期般持續攀升。我們已經看到一些小型的AI模型,甚至可以在智能手機或個人電腦上順暢運行。這種技術發展趨勢無疑會加快AI的普及程度,最終可能使AMD、英特爾等其他芯片公司有機會分得一杯羹。
關於DeepSeek具體使用了多少NVIDIA的芯片進行訓練,我認為目前還沒有確切的答案。考慮到最近1年半以來美國對中國實施的科技制裁日趨嚴格,我推測DeepSeek之前可能已經儲備了相當數量的芯片,這種情況並不令人意外。
我特別關注到這種局面可能帶來的關鍵影響:許多原本計劃開發大型AI模型的公司可能會選擇退出市場。原因在於,要突破現有的技術優勢或顯著降低成本並非易事,這使得自主開發的意願大幅降低。
然而,我觀察到應用類公司反而可能會增加,因為使用AI的整體成本已經大幅下降。這正是為什麼我之前強調軟件類公司可能會在這種情況下受益。
徐立言
www.facebook.com/hsulylab/
免責聲明:本網頁一切言論並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力自行作出投資決定,如因相關言論招致損失,概與本公司無涉。投資涉及風險,證券價格可升可跌。