大模型現狀:一邊速成,一邊參數內卷
當下大模型賽道的現狀:一邊是創(chuàng )業(yè)公司基于開(kāi)源大模型速成,一邊是大廠(chǎng)在各種內卷大模型參數。
據機構不完全統計,目前中國10億參數規模以上的大模型已發(fā)布79個(gè)。在大參數內卷的過(guò)程中,市場(chǎng)開(kāi)始出現另一種聲音“不具備發(fā)展方向的參數提升是沒(méi)有意義的”。
為此,在發(fā)展方向上,當下一部分大模型已經(jīng)聚焦到垂類(lèi)領(lǐng)域應用?;诔汕先f(wàn)的模型發(fā)展,底座或許會(huì )發(fā)生改變,但仔細一想,也總需要有人能夠在垂類(lèi)行業(yè)中跑出來(lái)。
同時(shí),在發(fā)展初期,雖然閉源大模型在質(zhì)量上更優(yōu),也相對安全,但大模型生態(tài)終究需要一定程度的內卷,開(kāi)源實(shí)際上可以助長(cháng)大模型的繁榮。另一個(gè)角度,基于開(kāi)源眾多企業(yè)有了賽道參賽的資格,但也總有人輕易就倒在了第一關(guān)匣——算力短缺。
說(shuō)到底,大模型數量是在以倍數的數量在增長(cháng),但如果片面的看待大模型日益增長(cháng)的數量,那么某種程度上也會(huì )忽略掉背后部分公司對大模型的抉擇、掙扎,甚至是選擇后放棄的可能性。
眾所周知,人工智能三要素是:算力、算法和數據。開(kāi)源只是處于算法階段,之后企業(yè)還需要對其進(jìn)行大量的算力支持和數據訓練,這背后的成本是高昂的。
一、垂直大模型,創(chuàng )業(yè)公司還有盼頭嗎?
在開(kāi)源大模型選擇上,基于成本和定制開(kāi)發(fā)的原因,選擇小參數模型的創(chuàng )業(yè)型企業(yè)不在少數,甚至是該類(lèi)企業(yè)的首選。
一個(gè)是預訓練成本問(wèn)題。
國盛證券曾經(jīng)估算,GPT-3訓練一次的成本約為140萬(wàn)美元,對于一些更大的LLM模型,訓練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。
包括在今年1月,平均每天約有1300萬(wàn)獨立訪(fǎng)客使用ChatGPT,對應芯片需求為3萬(wàn)多片英偉達A100GPU,初始投入成本約為8億美元,每日電費在5萬(wàn)美元左右。
更何況,在大量資金投入之前,還需要大量的數據資源來(lái)支撐模型訓練。為此,另一個(gè)原因是預訓練需求問(wèn)題。
有業(yè)內也曾表達過(guò)對此的看法:“大模型本身的泛化能力仍受限于數據?!?/p>
因為如果一旦對大模型的高質(zhì)量數據篩選和訓練得過(guò)少,大模型的輸出質(zhì)量問(wèn)題是很明顯的,在體驗上,用戶(hù)的體驗感也會(huì )大大降低。
可以說(shuō),在預訓練的過(guò)程中,僅僅是在數據的積累上就已經(jīng)花費了大量的資金與時(shí)間。
更何況,在大模型賽道中,大多數的創(chuàng )業(yè)公司都是圍繞在行業(yè)垂直領(lǐng)域進(jìn)行發(fā)展,付出雖然相對少,但一定不輕松。
具體一點(diǎn)來(lái)說(shuō)就是,如果大模型要改變行業(yè)的商業(yè)模式的話(huà),那么對此最簡(jiǎn)單的判定標準就是,該類(lèi)大模型是否具備的行業(yè)數據足夠多,例如要對藏在暗處的黑產(chǎn)要有足夠的了解,才能不被黑產(chǎn)所用,處于安全被動(dòng)的狀態(tài)。
另一個(gè)判定的標準就是,大模型在運行之時(shí)所處理的數據,最終輸出的質(zhì)量如何。
說(shuō)到底,想要基于開(kāi)源模型去打破模型壟斷,還需要對大量的數據進(jìn)行足夠的優(yōu)化提升,并且對基礎設施的投入足夠完善。
如今的開(kāi)源大模型實(shí)際上更像是網(wǎng)絡(luò )時(shí)代的Android,沒(méi)有大廠(chǎng)的落地場(chǎng)景、數據積累等優(yōu)勢的創(chuàng )業(yè)公司,發(fā)展起來(lái)很不容易,但仍然存在機會(huì )。
事實(shí)上,達摩院也曾將“大小模型協(xié)作發(fā)展”視為未來(lái)趨勢之一。
就連創(chuàng )業(yè)公司追一科技相信“垂直大模型是堅實(shí)的機會(huì ),就像發(fā)現美洲大陸這件事遠不只成就了一人而已”。
于是如今我們可以看到眾多創(chuàng )業(yè)公司開(kāi)始選擇入局大模型賽道,其中包括毫末智行、創(chuàng )新奇智、元語(yǔ)智能等AI創(chuàng )業(yè)公司所推出的DriveGPT雪湖·海若、奇智孔明、ChatYuan元語(yǔ)等大模型。
不過(guò),國內雖然尚未有產(chǎn)品面向C端,但基于B端,大廠(chǎng)已經(jīng)開(kāi)始實(shí)現初步落地的過(guò)程中。
據悉,目前大廠(chǎng)都在計劃通過(guò)云的方式對外輸出大模型的能力,云計算成為A大模型落地的最佳方式,模型即服務(wù)(MaaS)越發(fā)受到關(guān)注,而這也將帶來(lái)大模型成本的降低。
那么,創(chuàng )業(yè)公司還存在盼頭嗎?
二、勝負在于產(chǎn)品體驗與市場(chǎng)需求相匹配?
根據權威雜志《Fast Company》預測,OpenAI 2023年的收入將達到2億美元,包括提供API數據接口服務(wù)、聊天機器人訂閱服務(wù)費等。
很顯然,各行業(yè)對大模型的需求是存在的,但基于安全性的考慮,加之to B對大模型亦步亦趨的態(tài)度,大模型當下安全系數有限。于是,在相對基礎,需求量高的對話(huà)、文檔內容生成、問(wèn)答,包括協(xié)同辦公中對話(huà)、文檔生成等眾多場(chǎng)景,互聯(lián)網(wǎng)大廠(chǎng)也在優(yōu)先做。
例如,現在人類(lèi)只需要把商品的信息告訴AI,讓AI自動(dòng)生成多種風(fēng)格的商品帶貨腳本和風(fēng)格,再配個(gè)數字人主播,就可以幫企業(yè)把貨給賣(mài)出去。據百度介紹,相比真人直播,數字直播可實(shí)現7*24小時(shí)不間斷直播,轉化率為無(wú)人直播間的2倍。
在云上基礎設施作為大模型創(chuàng )業(yè)的必要底座下,擁有云計算的互聯(lián)網(wǎng)大廠(chǎng)具有一定的優(yōu)勢。
根據IDC發(fā)布的2022年全球云計算IaaS市場(chǎng)追蹤數據來(lái)看,市場(chǎng)份額TOP10玩家都是中美的大公司,包括美國的亞馬遜、谷歌、微軟、IBM,中國的阿里、華為、騰訊、百度等。
雖然大模型的開(kāi)閉源之爭,終究不會(huì )是靠某一個(gè)或幾個(gè)產(chǎn)品的出現而終結,還要更多頂尖人才參與、技術(shù)迭代和資金支持。
但橫做對比,眾多AI創(chuàng )業(yè)公司也缺少了一份如同創(chuàng )業(yè)獨角獸公司MiniMax的運氣。(不同的是MiniMax注重的是通用大模型)
7月20日,騰訊云對外披露助力MiniMax研發(fā)大模型的最新進(jìn)展。目前,騰訊云長(cháng)期支持MiniMax的千卡級任務(wù)穩定運行在騰訊云上,可用性達99.9%。
據悉,自2022年6月起,基于算力集群、云原生、大數據、安全等產(chǎn)品能力,騰訊云為MiniMax搭建了從資源層、數據層到業(yè)務(wù)層的云架構。
現實(shí)似乎再度證明了,拿到入場(chǎng)券是第一步,接下來(lái)考驗的是市場(chǎng)玩家們探索商業(yè)化和技術(shù)升級的能力。直白一點(diǎn)來(lái)說(shuō),AI創(chuàng )業(yè)公司想要在賽道中跑到最后,每一步都不能落下。
某種程度上來(lái)說(shuō),在大模型研發(fā)上創(chuàng )業(yè)公司也并非全無(wú)優(yōu)勢。
雖然部分互聯(lián)網(wǎng)大廠(chǎng)已經(jīng)實(shí)現初步場(chǎng)景落地,亦或是開(kāi)始售賣(mài)服務(wù)獲得收入,但大廠(chǎng)以及MiniMax的目光更多是聚焦在通用大模型上。
而垂直大模型仍然是真空地帶。特別是對于傳統企業(yè)群體來(lái)說(shuō),考慮到自身業(yè)務(wù)的IT屬性低、投出產(chǎn)比低等問(wèn)題,選擇自研大模型的概率較低。
例如創(chuàng )新奇智聚焦在工業(yè)大模型產(chǎn)品“奇智孔明”;擁有一定數據優(yōu)勢,往語(yǔ)言上發(fā)展的ChatYuan元語(yǔ)大模型;主打自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若。
不過(guò)有一說(shuō)一 ,訓練的數據和方向不同,成本差別很大。
先是元語(yǔ)大模型從零開(kāi)始做一次訓練的成本能做到千萬(wàn)人民幣量級。而在自動(dòng)駕駛生成式領(lǐng)域上,比ChatGPT 多設計一套新的語(yǔ)言,緊接著(zhù)再把所有的真實(shí)道路駕駛數據,并“翻譯”成統一的語(yǔ)言的DriveGPT雪湖·海若,也存在著(zhù)一定的成本投入。
某種程度上,AI創(chuàng )業(yè)公司能夠實(shí)現對大模型的大量投入,更多的是得益于ChatGPT商業(yè)和營(yíng)銷(xiāo)方面的成功,能夠瞬間讓人們目睹了大模型的可落地性,而不是繼續隱匿在漫長(cháng)的技術(shù)迭代中。
為此,當下實(shí)現落地的第一步,就是大模型的訓練成本、推理成本一定能做到比搜索還要低,而且還能保證即時(shí)性。
三、從概念到落地,到底有多難?
有觀(guān)點(diǎn)認為,能跑出來(lái)的中國大模型創(chuàng )業(yè)公司,很可能是垂直整合型。
簡(jiǎn)單來(lái)說(shuō)就是,一邊在做底層大模型的同時(shí),找準一個(gè)模型最終的主應用場(chǎng)景,一邊收集用戶(hù)數據并做出快速的迭代。
目測,元語(yǔ)智能更偏向于這一類(lèi)??偨Y起來(lái)看,在很長(cháng)的一段時(shí)間內元語(yǔ)智能都聚焦在自然語(yǔ)言大模型業(yè)務(wù)上。
元語(yǔ)COO朱雷并表示,“不會(huì )為了跟風(fēng)盲目拓展圖片、視頻業(yè)務(wù),元語(yǔ)的目標是實(shí)現‘ChatGPT’等前沿語(yǔ)言大模型的全面國產(chǎn)化。語(yǔ)言大模型的生態(tài)已經(jīng)足夠大了,做好業(yè)務(wù)聚焦很重要?!?/p>
但對于其他往自動(dòng)駕駛、工業(yè)生產(chǎn)等垂直大模型發(fā)展的創(chuàng )業(yè)公司來(lái)說(shuō),或許缺乏對一些特殊的行業(yè)數據掌握。
畢竟,在垂直大模型賽道,未來(lái)企業(yè)競爭的一個(gè)核心因素,就是私有數據和私有經(jīng)驗,個(gè)體公司的流程并不被大模型者知曉時(shí),可能就會(huì )有獨特的競爭力。
另外,業(yè)務(wù)聚焦的過(guò)程中,還需要到數據從源頭到預訓練、輸出的準確性。
目前,生成式人工智能在監管上也正在受到更多關(guān)注。近日國內發(fā)布了 《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》,明確要求不得出現歧視,生成內容應當真實(shí)準確、防止生成虛假信息等,如果出現,除內容過(guò)濾外,還要通過(guò)模型優(yōu)化等進(jìn)行優(yōu)化。
但如果是作為生成式人工智能的固有缺陷,這在從技術(shù)上難以保證和徹底解決。
此外,在更好的開(kāi)源模型的出現,保不齊會(huì )伴隨著(zhù)更多躍躍欲試的公司會(huì )涌進(jìn)來(lái),這對于創(chuàng )業(yè)公司來(lái)說(shuō),有何嘗不是競爭?
例如當下的Llama 2,7月18日,Meta公司發(fā)布了首個(gè)開(kāi)源人工智能模型Llama的商業(yè)版本 Llama 2。有企業(yè)認為,根據現在的各種評測文檔,除了代碼能力差一些,其實(shí)很多地方已經(jīng)開(kāi)始接近ChatGPT。
或許未來(lái)開(kāi)源社區的狂熱浪潮會(huì )讓具備基礎能力的大模型普及化,以后私有化大模型就是白菜價(jià)。直白一點(diǎn)來(lái)說(shuō)就是,企業(yè)可能會(huì )非常便宜地使用私有化大模型。
更重要的一個(gè)點(diǎn)是,湯道生曾表示:“通用大模型有很強的能力,但并不能解決很多企業(yè)的具體問(wèn)題,在100個(gè)場(chǎng)景中可以解決70%—80%的問(wèn)題,但未必能100%滿(mǎn)足企業(yè)某個(gè)場(chǎng)景的需求。但企業(yè)如果基于行業(yè)大模型,再加上自身數據進(jìn)行精調,可以建構專(zhuān)屬模型,打造出高可用的智能服務(wù)?!?/p>
當然,這種私有化大模型還未到來(lái),但賽道中的創(chuàng )業(yè)公司,一定是機遇和困境齊具。
參考:
獵云網(wǎng):爭搶垂直大模型機遇,創(chuàng )業(yè)公司們拼了
中國經(jīng)濟新聞網(wǎng):騰訊云助力MiniMax打造大模型:規模超千卡,可用性達99.9%
搜狐AI報道:超30個(gè)國產(chǎn)大模型混戰:華為百度阿里騰訊,誰(shuí)能成為“中國的OpenAI”?
連線(xiàn)Insight:大模型競速賽,已經(jīng)開(kāi)始拼場(chǎng)景、搶客戶(hù)了
科技新知:大模型打響開(kāi)閉源之戰