亚洲а∨无码2019在线观看_DeepSeek預示算力需求“打骨折”？業(yè)界：別只盯著(zhù)訓練 AI行業(yè)進(jìn)入推理時(shí)代_中訪(fǎng)網(wǎng)

《科創(chuàng )板日報》12月30日訊?日前，深度求索DeepSeek-V3橫空出世，在A(yíng)I行業(yè)內引發(fā)巨震，關(guān)鍵原因之一就是預訓練成本之低——這個(gè)參數量高達671B的大模型，在預訓練階段僅使用2048塊GPU訓練了2個(gè)月，且只花費557.6萬(wàn)美元。與此同時(shí)，DeepSeek-V3相比其他前沿大模型，性能卻足以比肩乃至更優(yōu)。

在這背后，DeepSeek-V3采用了用于高效推理的多頭潛在注意力（MLA）和用于經(jīng)濟訓練的DeepSeekMoE。研發(fā)團隊證明，多Token預測目標（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推測解碼。后訓練方面，DeepSeek V3引入了一種創(chuàng )新方法，將推理能力從長(cháng)思維鏈模型（DeepSeek R1）中，蒸餾到標準模型上。這在顯著(zhù)提高推理性能的同時(shí)，保持了DeepSeek V3的輸出風(fēng)格和長(cháng)度控制。

有觀(guān)點(diǎn)認為，DeepSeek-V3極低的訓練成本或許預示著(zhù)AI大模型對算力投入的需求將大幅下降，甚至有觀(guān)點(diǎn)將27日A股算力概念的下跌與之聯(lián)系在一起。但也有觀(guān)點(diǎn)認為，DeepSeek表現固然優(yōu)秀，但其統計口徑只計算了預訓練，數據的配比需要做大量的預實(shí)驗，合成數據的生成和清洗也需要消耗算力。此外，在訓練上做降本增效不代表算力需求會(huì )下降，只代表大廠(chǎng)可以用性?xún)r(jià)比更高的方式去做模型極限能力的探索。

“最重要的是，我們正式進(jìn)入了分布式推理時(shí)代?！?談及DeepSeek-V3時(shí)，Lepton AI創(chuàng )始人兼CEO賈揚清針對推理方面指出，“一臺單GPU機器（80×8=640G）的顯存已經(jīng)無(wú)法容納所有參數。雖然更新大顯存機器確實(shí)可以裝下模型，但不論如何，都需要分布式推理來(lái)保證性能和未來(lái)擴展?！?/p>

中信證券研報也指出，近日，DeepSeek-V3的正式發(fā)版引起AI業(yè)內廣泛高度關(guān)注，其在保證了模型能力的前提下，訓練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著(zhù)AI大模型的應用將逐步走向普惠，助力AI應用廣泛落地；同時(shí)訓練效率大幅提升，亦將助力推理算力需求高增。

▌AI行業(yè)“下一件大事”？

“我們已經(jīng)達到了數據峰值……AI預訓練時(shí)代無(wú)疑將終結?！?OpenAI聯(lián)合創(chuàng )始人兼前首席科學(xué)家Ilya Sutskever前不久曾如此斷言。

多位AI投資人、創(chuàng )始人和CEO們在接受采訪(fǎng)時(shí)都表示，AI的Scaling Law定律的收益正在逐步衰減。

包括a16z合伙人Anjney Midha、微軟CEO Satya Nadella在內，AI行業(yè)CEO、研究人員和投資人們，已經(jīng)發(fā)出了新的判斷：我們正處于一個(gè)新的Scaling Law時(shí)代——“測試時(shí)間計算時(shí)代”，即“推理時(shí)代”。這項能力讓AI模型在回答問(wèn)題之前，能有更多時(shí)間和算力來(lái)“思考”，“這特別有希望成為下一件大事”?。

▌AI應用崛起呼喚推理算力

為什么推理如此關(guān)鍵？

除了“舊版Scaling Law”效應衰減之外，還有一個(gè)原因就在于A(yíng)I應用——英偉達競爭對手、AI芯片制造商Cerebras曾如此解釋?zhuān)?“快速推理是解鎖下一代AI應用的關(guān)鍵。從語(yǔ)音到視頻，有了快速推理之后，以前無(wú)法實(shí)現的響應式智能應用程序將成為可能?！?/p>

以近期風(fēng)頭大盛的豆包為例，不久前豆包大家族全面更新，豆包大模型應用場(chǎng)景不斷拓展，民生證券指出，這使得對推理算力的需求不斷攀升，主要集中在硬件設備算力需求、數據中心規模擴張需求、通信網(wǎng)絡(luò )需求三方面。

具體而言，豆包大模型將帶來(lái)多少推理端的算力需求增量？分析師根據目前豆包的月活、日活以及日均token調用量為基礎，做出保守、中性、樂(lè )觀(guān)3種假設，預計豆包大模型或將帶來(lái)759、1139、1898億元的AI服務(wù)器資本開(kāi)支需求。

隨著(zhù)AI應用顯著(zhù)帶動(dòng)算力建設，分析師指出，字節算力資本開(kāi)支持續攀升。

另外，上周還有報道指出，小米正在著(zhù)手搭建自己的GPU萬(wàn)卡集群，將對AI大模型大力投入。小米大模型團隊在成立時(shí)已有6500張GPU資源。

當然，字節跳動(dòng)與小米不是個(gè)例，海外科技巨頭也正在大手筆加大資本開(kāi)支。據摩根士丹利預估，海外四大科技巨頭在2025年的資本開(kāi)支可能高達3000億美元，其中亞馬遜964億美元、微軟899億美元、Alphabet 626億美元、Meta 523億美元。

雖說(shuō)目前暫時(shí)無(wú)法明確其中有多少資金將用于A(yíng)I算力建設，但從這些巨頭此前的種種表態(tài)與近年的資本方向可以想到，AI占比不會(huì )太低。

Bloomberg Intelligence最近的一篇報告顯示，企業(yè)客戶(hù)可能會(huì )在2025年進(jìn)行更大規模的AI投資，而AI支出增長(cháng)將更側重于推理側，以實(shí)現投資變現或提升生產(chǎn)力。

隨著(zhù)端側AI放量，豆包、ChatGPT等AI應用快速發(fā)展，多家券商研報指出，算力需求會(huì )加速從預訓練向推理側傾斜，推理有望接力訓練，成為下一階段算力需求的主要驅動(dòng)力。

a16z合伙人Anjney Midha表示，如果推理計算成為擴展AI模型性能的下一個(gè)領(lǐng)域，那么對專(zhuān)門(mén)用于高速推理的AI芯片的需求可能會(huì )大幅增加。如果找到答案與訓練模型一樣需要大量計算，那么AI領(lǐng)域“賣(mài)鏟人”將再次獲勝。

AI財評

從財經(jīng)視角來(lái)看，DeepSeek-V3的低成本預訓練模式預示著(zhù)AI大模型行業(yè)可能迎來(lái)成本效益的顯著(zhù)提升。這一突破不僅可能降低行業(yè)進(jìn)入門(mén)檻，還可能加速AI技術(shù)的普及和應用落地。然而，盡管預訓練成本降低，但推理階段的算力需求預計將大幅增加，尤其是在A(yíng)I應用如豆包等快速發(fā)展的背景下。推理算力的需求增長(cháng)將推動(dòng)相關(guān)硬件和服務(wù)市場(chǎng)的擴展，為AI芯片制造商和數據中心運營(yíng)商帶來(lái)新的增長(cháng)機會(huì )。此外，隨著(zhù)AI應用的廣泛部署，推理算力的需求將成為推動(dòng)資本開(kāi)支的重要因素，尤其是在科技巨頭如字節跳動(dòng)、小米等加大AI投資的背景下?？傮w而言，DeepSeek-V3的出現可能標志著(zhù)AI行業(yè)從訓練到推理的轉變，推理算力的需求將成為未來(lái)AI發(fā)展的關(guān)鍵驅動(dòng)力。

注：本文轉載自科創(chuàng )板日報，轉載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如有侵權行為，請聯(lián)系我們，我們會(huì )及時(shí)刪除。

国产在线精品无码二区欧洲,午夜在线观看免费高清在线,亚洲bt欧美bt日本bt,亚洲精品成人av观看在线,无码精品人妻一区二区三区免费看

DeepSeek預示算力需求“打骨折”？業(yè)界：別只盯著(zhù)訓練 AI行業(yè)進(jìn)入推理時(shí)代

財聯(lián)社

国产在线精品无码二区欧洲,午夜在线观看免费高清在线,亚洲bt欧美bt日本bt,亚洲精品成人av观看在线,无码精品人妻一区二区三区免费看

DeepSeek預示算力需求“打骨折”？業(yè)界：別只盯著(zhù)訓練 AI行業(yè)進(jìn)入推理時(shí)代

財聯(lián)社

DeepSeek預示算力需求“打骨折”？業(yè)界：別只盯著(zhù)訓練 AI行業(yè)進(jìn)入推理時(shí)代