國產(chǎn)AI“三英”戰OpenAI:DeepSeek、月之暗面、MiniMax相繼上新 戰況如何?
《科創(chuàng )板日報》1月21日訊(編輯 宋子喬)?OpenAI的GPT系列身后,國產(chǎn)大模型正緊追不舍。
1月20日,DeepSeek正式發(fā)布DeepSeek-R1,并同步開(kāi)源模型權重。據介紹,DeepSeek-R1在后訓練階段大規模使用了強化學(xué)習技術(shù),在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。
根據其公布的測試數據,DeepSeek-R1在美國AIME 2024、MATH-500和SWE-bench Verified測試中的比分均高于OpenAI o1(小K注:前兩個(gè)測試專(zhuān)注于數學(xué)能力,SWE-bench Verified旨在評估AI模型解決現實(shí)世界軟件問(wèn)題的能力)。
同一天,Kimi全新SOTA模型——k1.5多模態(tài)思考模型上線(xiàn)。在long-CoT模式下,Kimi k1.5的數學(xué)、代碼、多模態(tài)推理能力,也達到長(cháng)思考SOTA模型OpenAI o1正式版的水平。官方表示,這應該是全球范圍內,OpenAI之外的公司首次實(shí)現o1正式版的多模態(tài)推理性能。Kimi技術(shù)團隊第一次準備了詳細的技術(shù)報告。
在short-CoT模式下,Kimi k1.5的數學(xué)、代碼、視覺(jué)多模態(tài)和通用能力,大幅超越了全球范圍內短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,領(lǐng)先達到550%。
其他國產(chǎn)大模型同樣表現出色,1月15日,MiniMax發(fā)布全新開(kāi)源模型系列Minimax-01,在多個(gè)標準和內部基準測試中,Minimax-01的性能與GPT-4o、Claude3.5-Sonnet等頂尖模型相當,尤其在長(cháng)上下文處理方面表現突出。
OpenAI分別在2024年5月、9月和12月發(fā)布了GPT-4o、GPT-o1(包括o1-preview和o1-mini,o1正式版推遲到2024年12月發(fā)布)和GPT-o3,目前最強大的模型是o3,具備出色的推理能力、科學(xué)知識掌握更優(yōu)秀、編碼能力更強。
o1緊隨其后,擅長(cháng)編碼、數學(xué)和寫(xiě)作,其多模態(tài)功能支持圖片上傳,允許它將推理應用于視覺(jué),以獲得更詳細、更有用的回復。
以DeepSeek為代表的國產(chǎn)大模型團隊力圖在性能上比肩最先進(jìn)的大模型,定價(jià)則展示了極致性?xún)r(jià)比。
DeepSeek-R1 API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 1元(緩存命中)/4元(緩存未命中);每百萬(wàn)輸出tokens 16元。
與之對比,GPT-o1模型每百萬(wàn)輸入tokens 15美元(約合人民幣110元);每百萬(wàn)輸出tokens 60美元(約合人民幣438元)。OpenAI目前最便宜的模型是GPT-4o mini,其定價(jià)為每百萬(wàn)輸入Tokens 10美元(約合人民幣73元);每百萬(wàn)輸出tokens 20美元(約合人民幣146元)。
國產(chǎn)大模型呼喚國產(chǎn)算力
國內外大模型廠(chǎng)商你追我趕,短時(shí)間內迅速迭代,意味著(zhù)大模型廠(chǎng)商對算力的需求仍在繼續增加。
火山引擎智能算法負責人吳迪此前曾表示,字節跳動(dòng)綜合考慮算力資源儲備、市場(chǎng)未來(lái)用量、模型成本下降等因素判斷,2027年豆包每天Token消耗量會(huì )超過(guò)100萬(wàn)億,將是現在的100倍以上。
1月20日消息稱(chēng),據蕪湖市生態(tài)環(huán)境局官網(wǎng),字節跳動(dòng)(抖音集團)旗下蕪湖江東名邑科技有限公司擬在安徽蕪湖建設火山引擎長(cháng)三角算力中心項目,項目環(huán)境影響評價(jià)文件近日獲受理,并正在實(shí)施批前公示。該項目總投資80億元,設計服務(wù)器機柜數為21824臺,網(wǎng)絡(luò )機柜236臺,一座220kV變電站。
此前有消息稱(chēng),小米正在搭建自己的GPU萬(wàn)卡集群,并對AI大模型進(jìn)行大規模投資。
東莞證券此前表示,未來(lái),隨著(zhù)字節、幻方、小米等國內廠(chǎng)商積極布局AI領(lǐng)域,國產(chǎn)大模型有望快速崛起,推動(dòng)國產(chǎn)算力需求增長(cháng),促進(jìn)國產(chǎn)算力基礎設施建設,我國國產(chǎn)算力產(chǎn)業(yè)鏈有望迎來(lái)發(fā)展機遇。
上海證券也發(fā)布研報稱(chēng),以字節為代表的國產(chǎn)大模型崛起,以及小米等玩家的入局,有望拉動(dòng)國內互聯(lián)網(wǎng)大廠(chǎng)在算力端的支出,國內算力軍備競賽剛剛開(kāi)始,國產(chǎn)算力廠(chǎng)商迎來(lái)發(fā)展機遇。
東方證券表示,算力建設持續性至關(guān)重要,在此背景下,服務(wù)器及液冷廠(chǎng)商、PCB廠(chǎng)商等有望受益。此外,數據存力和運力需求的持續攀升,為存儲、光模塊和光芯片等企業(yè)創(chuàng )造了更多的市場(chǎng)機會(huì ),促使整個(gè)產(chǎn)業(yè)鏈不斷優(yōu)化升級,以滿(mǎn)足日益增長(cháng)的AI算力需求。