Taiwan AI Lab 杜奕瑾談DeepSeek 影響及相關問題
AI革命本來就在,產業大爆發,算力需求只會增加
(今天回應的一些記者詢問整理如下)
1. DeepSeek僅是宣傳實力的展現
DeepSeek(DS)在推出後立即引起廣泛關注,並被認為是導致美股大跌的原因之一。
然而,實際上,美股的波動更多是由市場資訊操作引發的,而非純粹DeepSeek本身的技術創新。DeepSeek並非在美股大跌當天才出現,而是其宣稱的多項創新也是開源社群長期技術發展的結果。
相比之下,同時期中國推出的千問(Qwen)並未造成市場波動,DeepSeek的影響力更多來自市場訊息操作的渲染,而非單純的技術突破。
2. DS成果是全球的科技菁英成果?
有觀點認為,美國選擇閉源,而中國公司選擇開源,導致美國在AI競爭中失利。但從技術社群的角度來看,DS宣稱的開源技術發展MoE、CoT、混和精度訓練、模型蒸餾是全球已有的成果。本來就難以簡化成國家競爭。
雖然在最先進技術領域,OpenAI確實選擇不開源其最新的模型,違背了其創立時的開放承諾,這也在開源社群中引發批評。但DS發表的AI技術底層多處仍主要基於Google、Microsoft、Meta、OpenAI、Nvidia等與全球企業過去開源的基礎,包含RL也是OpenAI貢獻非常多研究成果。
3. DeepSeek是否為真開源?
DeepSeek雖然宣稱開源,但是否真正符合開源精神仍有待商榷。開源並不只是將模型權重放到GitHub供下載運行,而是應包括完整的程式碼、訓練數據和完整的技術細節。然而,DeepSeek並未完全公開其訓練數據集和部分核心代碼,使其在開源社群中存有爭議。
DS論文提到其訓練數據來自Common Crawl,但Common Crawl的規模並未達到DeepSeek聲稱的14T tokens,而僅為數十B tokens,這顯示其數據來源可能另有隱藏部分。若DS在數據來源上未完全透明,則其開源性質仍有待進一步驗證。
4. DeepSeek是否真實減少了對高階晶片的需求?
DeepSeek的母公司幻方科技本身擁有強大算力和大量高階晶片,因此DeepSeek的誕生並不意味著不再需要高階晶片。訓練一個規模達671B參數的Foundation Model仍需要大量算力和龐大資源支持。
DeepSeek的技術優勢並未來自基礎模型降低算力需求,而是開放模型推理優化計算方式,使得其在特定應用場景下能夠更有效運作。
5. DS是否成功讓一般公司能否自行訓練基礎模型?
一般企業並不需要自行訓練基礎模型,而是利用已開放的模型進行專業領域的調整與訓練。類似於一流大學培養頂尖畢業生後,企業再進行職場專業訓練。當有優秀的基礎模型一般企業只需針對特定領域進行調適,而非從零開始構建模型。台灣AI Labs也有提供台灣本土可信任的模型服務。
基礎模型的訓練需要龐大的資料、人才和算力,即使是DeepSeek本身,即使重現演算法也無法輕易訓練新一代的基礎模型(如V3或R1)。未來當算力進步的一般組織可以訓練也意味會有更強的基礎模型出現。
值得注意的是,DeepSeek由於並未真正開源並在訓練數據的來源交代不清。雖然論文稱其使用Common Crawl數據,但測試結果顯示,訓練數據可能包含來自ChatGPT的蒸餾內容,這讓DeepSeek的所提出成本分析具有一定的隱藏成分。
6. DeepSeek是否擁有高階算力?
川普與黃仁勳在白宮的會晤引發外界對美國對華晶片禁令的關注。DeepSeek的官方媒體積極參與討論,顯示其可能利用DS文宣戰略來回應美國1月15日對中國新一波的晶片禁令,傳達“掌握算力並不代表掌握AI霸權”的信息。然而,來自其他管道的信息顯示,一般中國公司仍然能夠繞道取得高階晶片。例如,Scale AI的CEO曾透露,DS母公司擁有五萬張H100晶片,高階算力並未完全受制於美國政策。也有消息指出中國可以中國可以租用算力方式取得算力。
7. DeepSeek已經成為外宣工具?
中國的AI模型須符合中國法規,因此在開源模型中往往能觀察到強烈的國家認同與意識形態傾向。DeepSeek尤其明顯,不論是模型上市的宣傳與模型測試的表現。不僅對敏感問題選擇迴避,還能偵測到在回應內容中植入強化官方立場的觀點,形塑輿論風向。這種做法類似於置入中國的政治宣傳,可能反而使其在國際市場面臨更大挑戰。
8. DeepSeek是否可能用於情資、追蹤定位或超限戰?
DeepSeek與其他AI技術一樣,依照中國情報法與演算法相關法規,加上DeepSeek的政治宣特性,傳理論上可能被用於情報蒐集、軍事應用與超限戰。廣泛使用後嚴重程度不亞於社交媒體,義大利已限制使用部分中國AI工具,顯示國際社會對中國AI技術潛在風險的關注。未來,西方國家可能會進一步加強對中國AI技術的監管,以防止其影響全球信息安全與戰略平衡。
留言
張貼留言