ChatGPT算崩了!GPGPU會(huì )成為算力危機的解藥嗎?
近日大火的聊天機器人程序ChatGPT,最終還是崩了!多位用戶(hù)反映,其網(wǎng)站因為運算量過(guò)大,出現了無(wú)法回復的情況。
翻譯:我們出現了遠超預想的(運算)需求,請再堅持一下并等待我們將系統擴展。
事實(shí)上,ChatGPT出現崩潰只是算力緊張的一個(gè)縮影。近日隨著(zhù)百度、京東、騰訊等國內廠(chǎng)商宣布參與智能聊天機器人領(lǐng)域的競爭,未來(lái)類(lèi)似ChatGPT這樣的程序將越來(lái)越多。人工智能發(fā)展是大勢所趨,全球市場(chǎng)對于算力的需求也將出現快速的增長(cháng)。
GPU的“變種”在算力領(lǐng)域“擠走”CPU
提到算力,首先不得不說(shuō)的就是CPU(Central Processing Unit,中央處理器)。1971年,英特爾生產(chǎn)的4004微處理器將運算器和控制器集成在一個(gè)芯片上,標志著(zhù)CPU的誕生,這也是大規模機器運算的開(kāi)始。后來(lái)從四位運算開(kāi)始,每隔幾年處理器的性能就會(huì )翻倍。
再之后,單純的運算位數增加已不再滿(mǎn)足復雜的運算需求,CPU逐漸向更多核心,更高并行度發(fā)展。典型的代表有英特爾的酷睿系列處理器和AMD的銳龍系列處理器。
CPU最大的特點(diǎn)是全能,作為中央處理器,其性能被平均分為多個(gè)模塊,也因此CPU可以完成絕大多數指令下的任務(wù),整體屬于一款較為均衡的產(chǎn)品。
與此同時(shí),由于電腦顯示器的出現,傳統的GPU(Graphics Processing Unit,圖形處理器)也應運而生。顯示器上的圖形顯示需要大量的重復運算(顯示各種顏色,甚至三維圖像),其對于算力的要求要遠高于以處理指令為主的CPU。因此不同于CPU,GPU更強調了并行計算的方法,這也讓GPU無(wú)論是算力還是運算速度,都要高于CPU。
隨著(zhù)顯示器分辨率的不斷提升,特別是多款大型游戲對于顯示器分辨率的要求越來(lái)越高,GPU的運算性能也在飛速提升,而且提升速度快于CPU。
在這一方面,英偉達占據了GPU市場(chǎng)的頭把交椅,不少人應該都有過(guò)為了某款熱門(mén)游戲,而單獨安裝英偉達顯卡的經(jīng)歷。
很長(cháng)一段時(shí)間以來(lái),CPU負責中央控制和各種運算,GPU負責少量處理和大量重復運算,兩者相輔相成,各自擔負起了對應的職能。
然而,有人看到了GPU相對于CPU高算力的優(yōu)勢,于是一種去掉了GPU圖形處理部分內容,而僅保留了科學(xué)計算,AI訓練、推理任務(wù)等通用計算類(lèi)型的GPGPU(General-Purpose computing on Graphics Processing Units,通用圖形處理器)誕生了。
GPGPU,可以說(shuō)是特化版的運算芯片,GPGPU通過(guò) GPU 多條流水線(xiàn)的并行計算來(lái)實(shí)現大量計算。超長(cháng)流水線(xiàn)的設計以吞吐量的最大化為目標,在對大規模的數據流并行處理方面具有明顯的優(yōu)勢。
如果說(shuō)普通CPU的計算能力是小溪流,那么GPGPU的計算能力就是并行了注入多條河流的大江長(cháng)河。在未來(lái)人工智能爆發(fā)的時(shí)代,其遠優(yōu)于CPU的運算性能,決定了這個(gè)GPU家族的“變種”在算力領(lǐng)域將“擠走”傳統的CPU,大規模應用于算力市場(chǎng)中。
事實(shí)上,此前就有消息表示,ChatGPT已導入了至少1萬(wàn)個(gè)英偉達高端的GPGPU,不論此消息是否屬實(shí),ChatGPT至少很大概率使用了大量的GPGPU,并且好像已投入的部分還不夠用,需要更多。一個(gè)高端GPGPU動(dòng)輒數十上百萬(wàn),這樣看來(lái),GPGPU的市場(chǎng)空間可能會(huì )非常大。
GPGPU生態(tài):英偉達業(yè)內領(lǐng)先,國內生態(tài)初見(jiàn)雛形
事實(shí)上,一般的GPGPU確實(shí)具備了超快速的運算能力,然而,要想達到ChatGPT這種真正具備一定解決問(wèn)題能力的成型AI系統,仍需要大量的開(kāi)發(fā)工作,特別是需要海量的深度學(xué)習支持。AI才能面對并有效處理海量的問(wèn)題。深度學(xué)習與GPU的圖形處理有一些相通的地方,它需要大量的數據來(lái)“訓練”模型。比如一個(gè)貓圖識別AI,需要提供數以萬(wàn)計的貓圖供其“學(xué)習”。而每一張貓圖的學(xué)習又與其他貓圖沒(méi)有先后關(guān)系,每一張貓圖,其實(shí)就相當于一次學(xué)習。
?而如果缺少這些必要的開(kāi)發(fā)學(xué)習支持,否則的話(huà),GPGPU空有大量的運算能力,卻不一定能夠做出正確的運算。例如,前兩天谷歌Bard的發(fā)布會(huì )中,就犯了事實(shí)性的錯誤,在一個(gè)“關(guān)于詹姆斯·韋伯太空望遠鏡(JWST),我可以告訴我9歲的孩子它有哪些新發(fā)現?”的問(wèn)題中,Bard給出的一個(gè)答案是:太陽(yáng)系外行星的第一張照片,是用JWST拍攝的。然而事實(shí)上,2004年,第一張系外行星照片是由歐洲南方天文臺的甚大望遠鏡(VLT)拍攝的。
這種學(xué)習、運算與開(kāi)發(fā)的過(guò)程,往往需要一個(gè)統一的開(kāi)發(fā)架構,架構越優(yōu)秀、越適配GPGPU。開(kāi)發(fā)的效果也會(huì )越好。在這一領(lǐng)域,英偉達的優(yōu)勢比較明顯,英偉達的CUDA(Compute Unified Device Architecture,統一計算架構)集成技術(shù),占據了全球八成以上的GPGPU開(kāi)發(fā)市場(chǎng)。通過(guò)這個(gè)技術(shù),用戶(hù)可利用英偉達的GPU進(jìn)行圖像處理之外的運算。由于絕大多數架構都是針對CPU進(jìn)行編程的,更突顯出了英偉達該架構的稀缺性。
不過(guò),最近英偉達也遇到了越來(lái)越多的挑戰,首先是一款新的架構PyTorch在A(yíng)I開(kāi)發(fā)領(lǐng)域大有后來(lái)居上的架勢,由于其將支持更多GPU,相比于英偉達對GPU領(lǐng)域的壟斷,受到了很多廠(chǎng)家的歡迎。而后續OpenAI(推出ChatGPT的公司)又發(fā)布了一款開(kāi)源的GPU開(kāi)發(fā)架構Triton。其雖然可以看作簡(jiǎn)化版的CUDA,但由于其采用較易編碼的Python進(jìn)行開(kāi)發(fā),且性能不輸CUDA太多,最重要的是:其代碼開(kāi)源也意味著(zhù)開(kāi)發(fā)者享受著(zhù)自由的環(huán)境,因此該開(kāi)發(fā)架構也受到了很多開(kāi)發(fā)者的歡迎。盡管目前Triton還只支持英偉達的GPGPU芯片,但其負責人員表示未來(lái)會(huì )支持更多廠(chǎng)商的芯片,做到真正的自由開(kāi)發(fā)。
國內的GPGPU生態(tài)起步較晚,但近年來(lái)不斷的投入,也在2022年有了一定的成績(jì)。首先是在RISC-V(一種開(kāi)源架構)中國峰會(huì )上,清華大學(xué)集成電路學(xué)院何虎副教授團隊發(fā)布了基于RISC-V的開(kāi)源GPGPU實(shí)現方案,名為“承影”(Ventus),同時(shí)還給出了映射方案、指令集和微架構的實(shí)現。
而上海交大在GPGPU架構領(lǐng)域,同樣取得了不小的突破。2022年8月,上海交大團隊正式對外發(fā)布了自研開(kāi)源GPGPU平臺“青花瓷”?!暗鼐壵嗡鶐?lái)的不確定性在這幾年有增無(wú)減,國產(chǎn)化的勢在必行。利用開(kāi)源及開(kāi)源生態(tài)所創(chuàng )造的芯片,就有可能解決卡脖子的困境。發(fā)布這款芯片的團隊主要成員梁教授表示?!巴ㄟ^(guò)十年的努力打造屬于中國的GPGPU生態(tài),做人人都用得起GPGPU,這是我們的愿景”。
國內GPGPU公司:有所突破,但仍任重道遠
有了多樣的生態(tài),國內的一些GPGPU公司也在研發(fā)的道路上不懈努力,推出了一些有競爭力的產(chǎn)品。
2022年9月,壁仞科技首次展出了BR100系列GPGPU芯片,算力創(chuàng )下全球紀錄。壁仞科技首款通用GPU芯片BR100,基于壁仞科技原創(chuàng )芯片架構研發(fā),采用的是7nm先進(jìn)制程工藝,可容納770億顆晶體管,16位浮點(diǎn)算力達到1000T(1T=1024G)以上、8位定點(diǎn)算力達到2000T以上。BR100芯片在國內率先采用Chiplet(先進(jìn)封裝)技術(shù),使得中國的通用GPU芯片邁入“每秒千萬(wàn)億次計算”新時(shí)代,最為振奮人心的是,這是第一次全球通用GPU算力紀錄由中國企業(yè)制造。
隨后,浪潮AI服務(wù)器成功搭載壁仞科技自研的高端通用GPU,在多項比拼中獲評全球最佳性能,實(shí)現了國產(chǎn)芯片在國際AI賽場(chǎng)上的精彩亮相,取得了歷史性的突破。
在A(yíng)股上市公司當中,目前還沒(méi)有以GPGPU為絕對主業(yè)的公司,但仍有與GPU業(yè)務(wù)有一定關(guān)系的上市公司,其中景嘉微經(jīng)過(guò)多年的研發(fā)積累,公司在傳統GPU設計及特定領(lǐng)域應用方面形成一定的技術(shù)、品牌等綜合優(yōu)勢。公司在半年報中指出,其已在通用GPU(即GPGPU)領(lǐng)域有所延申,正持續研發(fā)并提供相關(guān)產(chǎn)品。
而以CPU為主要產(chǎn)品的海光信息,也已研發(fā)出了基于GPGPU的DPU(Data Processing Unit,中央處理器分散單元)產(chǎn)品,該產(chǎn)品其實(shí)是GPGPU的一種。其兼容“類(lèi) CUDA”環(huán)境,解決了產(chǎn)品推廣過(guò)程中的軟件生態(tài)兼容性問(wèn)題。公司通過(guò)參與開(kāi)源軟件項目,并實(shí)現與 GPGPU 主流開(kāi)發(fā)平臺的兼容。
圖片來(lái)源:海光信息招股說(shuō)明書(shū)
值得注意的是,盡管這兩家公司只是與GPGPU業(yè)務(wù)有一定關(guān)系,但兩家公司近日雙雙大漲,其中2月9日景嘉微20cm漲停,海光信息也大漲超13%。市場(chǎng)或許也已意識到算力爆發(fā)背景下,GPGPU產(chǎn)業(yè)的投資機會(huì )。
除了上述公司外,登臨科技、芯動(dòng)力、沐曦半導體等公司,也正在GPGPU這條賽道上不斷努力著(zhù)。如果這些仍未上市的GPGPU公司選擇上市,投資者也可以關(guān)注他們的動(dòng)態(tài),選擇參與打新或二級市場(chǎng)的投資。
綜合來(lái)看,盡管?chē)鴥冉鼉赡暝贕PGPU領(lǐng)域已取得了很多的突破,但也要看到國外一些大型廠(chǎng)商已在該領(lǐng)域經(jīng)歷了數十年的發(fā)展,積累了豐富的經(jīng)驗和技術(shù),并擁有著(zhù)大量的上下游市場(chǎng)資源。而我國的GPGPU產(chǎn)品不僅在生態(tài)和開(kāi)發(fā)領(lǐng)域面臨著(zhù)國外大廠(chǎng)卡脖子的挑戰,即使是在各自的芯片研發(fā)領(lǐng)域也面臨著(zhù)研發(fā)周期長(cháng)、投入量大、產(chǎn)品成功概率偏低等一系列問(wèn)題。我國以CPU和GPU為代表的高端芯片設計行業(yè)的整體研發(fā)實(shí)力、創(chuàng )新能力和應用推廣能力仍有待提升。面對事關(guān)未來(lái)時(shí)代變革的重要產(chǎn)品,或許需要政府、高校和研發(fā)企業(yè)共同努力,互相共享經(jīng)驗和成果,才能真正在這一領(lǐng)域縮小與國外的差距,實(shí)現真正的國產(chǎn)替代、自主可控。