為什么本土大廠(chǎng)造不出全新的ChatGPT?
ChatGPT革命,掀起了全球科技競賽的巨浪。
據報道,因為ChatGPT大熱,三星、SK 海力士高帶寬內存接單量也大增,最新的 HBM3 解決方案價(jià)格已經(jīng)翻了 5 倍。
國外的ChatGPT還沒(méi)弄明白,國內的“文心一言”已經(jīng)開(kāi)始行動(dòng)了。
最近澎湃新聞、大眾日報、上游新聞、封面新聞、大象新聞、每日經(jīng)濟新聞等新聞平臺,
鈦媒體、新浪財經(jīng)、證券之星、電腦報、Tech星球、36氪等財經(jīng)媒體都輪番宣布接入百度“文心一言”。
除了媒體外,攜程、愛(ài)奇藝、集度、金蝶、智聯(lián)等企業(yè)也加入文心一言生態(tài)圈。
甚至連少林寺都宣布介入了“文心一言”。
不僅是百度,阿里、京東、網(wǎng)易、小米等一線(xiàn)大廠(chǎng)也緊隨其后,紛紛承諾了對ChatGPT的投入和開(kāi)發(fā)。
說(shuō)到底,ChatGPT的火爆還是引發(fā)了許多人的思考,其中就包括習慣“觀(guān)望”的互聯(lián)網(wǎng)大廠(chǎng)。
但對于市場(chǎng)的普遍觀(guān)點(diǎn)來(lái)說(shuō),算法訓練是一件沒(méi)有辦法彎道超車(chē)的事情。
同時(shí)也可以具體到國內的技術(shù)發(fā)展上,第一時(shí)間便尋求變現或是以能夠看得見(jiàn)的變現為投入基礎,一直是國內普遍存在的缺點(diǎn)。
這種想法從某種程度上堆高了大廠(chǎng)的投資收入,但也壓垮了國內眾多行業(yè)深度發(fā)展起來(lái)的低線(xiàn)。
也可以說(shuō),國內創(chuàng )業(yè)公司對風(fēng)險超強的把控,以及經(jīng)久不息賺快錢(qián)的心態(tài),讓越來(lái)越多的新興行業(yè)都有了一個(gè)“能看到頭”的未來(lái)。
不過(guò),對于國內廠(chǎng)商來(lái)說(shuō)當下最關(guān)鍵的是,如何確定一個(gè)具體的應用場(chǎng)景。
一、搜索引擎是中國AI的新起點(diǎn)?
搜索引擎的ChatGPT之爭將難以避免。
谷歌2022年Q3財報顯示,搜索引擎的廣告收入占其廣告收入的72.57%、總收入的57.23%。
搜索引擎在廣告層面的收入,顯而易見(jiàn)。
緊接著(zhù),微軟(MSFT.US)于北京時(shí)間2月8日宣布推出由OpenAI提供技術(shù)支持的最新版Bing(中文名“必應”)搜索引擎和Edge瀏覽器。
一夜之間,Bing和Edge瀏覽器在A(yíng)ppStore下載量猛增,Bing的下載量已經(jīng)上升到AppStore免費應用榜中的前十名。
此時(shí),根據Statcounter GlobalStats數據顯示,2022年全球搜索引擎市場(chǎng)份額中,谷歌為92.42%,必應市場(chǎng)份額為3.45%。
在微軟企圖通過(guò)OpenAI重新對抗昔日的老對手谷歌,而引發(fā)的ChatGPT爭奪戰之時(shí),國內互聯(lián)網(wǎng)巨頭對于ChatGPT已經(jīng)從關(guān)注轉向發(fā)展。
截至目前,從相關(guān)技術(shù)到項目名稱(chēng)再到開(kāi)放日期,百度是公布信息最明確的國內科技公司。
作為在人工智能和自然語(yǔ)義處理領(lǐng)域積累最多的中國互聯(lián)網(wǎng)公司,百度早就布局了深度學(xué)習大模型“飛槳”,甚至用通用AI芯片“昆侖芯”進(jìn)行訓練。
這些是百度訓練“ChatGPT”的基本環(huán)境和前提。
不僅如此,據悉,百度CEO李彥宏2023年一季度OKR關(guān)鍵任務(wù)為“引領(lǐng)搜索體驗的代際變革”,這意味著(zhù)百度搜索或將全線(xiàn)接入文心一言,搜索產(chǎn)品將迎來(lái)顛覆性變化。
此外,近期有媒體報道稱(chēng),字節正悄悄準備重啟已經(jīng)關(guān)停了兩年的悟空搜索,如果對ChatGPT產(chǎn)品與搜索工具的關(guān)系進(jìn)行想象,不難看出字節同樣對ChatGPT的“興趣”。
很顯然,當一大堆AI公司都在夢(mèng)想著(zhù)造出自己的ChatGPT之時(shí),搜索引擎巨頭們則希望用其徹底改造搜索引擎行業(yè)。
結合來(lái)看,在廣泛的應用場(chǎng)景之下,即時(shí)的搜索工具似乎是彌補ChatGPT“離線(xiàn)模式”的不足,亦或者將ChatGPT賦能搜索工具提高搜索引擎的營(yíng)收,而這些都成為了當下互聯(lián)網(wǎng)大廠(chǎng)角力的根本原因。
在眾多搜索引擎玩家紛紛宣布踏入“搜索引擎+ChatGPT”的當下,微軟已經(jīng)發(fā)起了攻勢。
北京時(shí)間2月8日一早,“新必應”上線(xiàn),簡(jiǎn)介是:“提出實(shí)際問(wèn)題。獲取完整的答案?!?/p>
與互聯(lián)網(wǎng)初代所不同,進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代后,每一個(gè)移動(dòng)端的App幾乎都是一座信息“孤島”。
也是在眾多內容社交平臺間斷性爆火的背景下,國內搜索引擎使用率開(kāi)始下滑。
根據CNNIC發(fā)布的《第50次中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告》顯示,截至2022年6月,我國搜索引擎用戶(hù)規模達7.88億,較2021年12月減少737萬(wàn),占網(wǎng)民整體的78.2%,2020年6月,我國搜索引擎用戶(hù)的使用率為81.5%。
兩年時(shí)間,搜索引擎網(wǎng)民使用率同比下降3.3%。
如果說(shuō)內容方在過(guò)去需要依賴(lài)搜索引擎,那么如今就是搜索引擎需要依靠眾多APP來(lái)實(shí)現自身以外的內容擴充。
可以說(shuō),為了完善自身的內容池,搜索引擎還需要進(jìn)一步解決自身與APP之間的“壁”。
經(jīng)過(guò)各大行業(yè)對ChatGPT長(cháng)達三個(gè)多月的關(guān)注,C端更是對“AIGC”充滿(mǎn)了想象,那么在如此內卷的賽道中,互聯(lián)網(wǎng)大廠(chǎng)除了對“文本生成”類(lèi)應用場(chǎng)景具有“幻想”以外,是否存在著(zhù)更“高階”的應用場(chǎng)景呢?
誰(shuí)能成為中國版的ChatGPT?
人工智能的技術(shù)??梢苑譃樗膶樱盒酒瑢?、框架層、模型層和應用層。
只有千億參數規模以上的大模型,才可能出現“突現能力”,而具備“突現能力”的大模型是ChatGPT得以誕生的必要條件。
訓練一個(gè)千億的大模型是對算力、算法、算據的全流程考驗。
公開(kāi)資料顯示,ChatGPT的前身GPT-3參數量達到了驚人的1750億,訓練一次所要消耗的成本就高達近8400萬(wàn)元人民幣。
2022年谷歌研究院聯(lián)合DeepMind和斯坦福大學(xué)發(fā)表論文,研究了谷歌、DeepMind和OpenAI的5個(gè)語(yǔ)言模型系列的8個(gè)“突現能力”,得出結論:
只有模型達到GPT3的規模, 即參數大于1000億, 模型才有可能形成“突現能力”。
國內大廠(chǎng)能不能做出ChatGPT?先發(fā)條件就是是否擁有千億參數規模的大模型。
先看呼聲最高的百度。
“文心一言”被很多人認為是“最可能的ChatGPT國產(chǎn)替代”。
百度文心是“純粹”的自然語(yǔ)言模型,有2600億參數規模的ERNIE 3.0 Titan的訓練框架, 訓練輸入都是結構化的文本內容。
根據官方2022年的公開(kāi)資料,ERNIE 3.0 Titan模型和GPT3.0模型在知識問(wèn)答數據集上的對比效果,準確率比GPT3.0高8%。
此外,百度還有上文提到的全棧打通的Paddle訓練框架生態(tài),對標的是PyTorch和TenserFlow。
但百度的問(wèn)題是,在算法、算力、數據、場(chǎng)景上都非常理想,但在“產(chǎn)品”上還有差距。核心搜索業(yè)務(wù)過(guò)于強勢,以及技術(shù)思維影響過(guò)大,導致了其他產(chǎn)品能力有點(diǎn)變形。
再看阿里。
近日,阿里也公布了申請的“人機對話(huà)及預訓練語(yǔ)言模型訓練方法、系統及電子設備”專(zhuān)利。
另?yè)煅鄄轱@示,阿里巴巴達摩院(杭州)科技有限公司發(fā)生工商變更,注冊資本由1000萬(wàn)人民幣增至3億人民幣,增幅高達2900%,持續投入人工智能(AI)等底層技術(shù)。
2022年9月,阿里發(fā)布最新大模型“全家桶”——通義M6。
公開(kāi)資料里能看到,M6的訓練數據包括300GB文本和2TB圖像, 作為對比,GPT3.0用了45TB文本訓練,華為的盤(pán)古號稱(chēng)用了40TB, 而阿里的M6訓練數據少的可憐。
而且M6的帶頭人楊紅霞已經(jīng)在2022年9月離職,未來(lái) M6走向何方,也要打個(gè)問(wèn)號。
科技公司華為也一直被關(guān)注。
華為2020年開(kāi)始在大模型布局,2021年發(fā)布了鵬城盤(pán)古大模型。
盤(pán)古NLP大模型和百度文心一樣,都是“純粹”的自然語(yǔ)言大模型,宣稱(chēng)有2000億參數。
最后看騰訊。
BATH四巨頭中,騰訊的千億級別大模型最晚發(fā)布。去年4月,騰訊才對外公布了“混元”AI大模型的研發(fā)進(jìn)展。
混元大模型的能力,被強調的是跨模態(tài)的“文本-視頻”的理解和檢索,也就是主要是視頻相關(guān)。
另外京東云旗下言犀人工智能應用平臺宣布推出了產(chǎn)業(yè)版ChatGPT:ChatJD,并公布了ChatJD的落地應用路線(xiàn)圖“125”計劃。
三、國產(chǎn)AIGC還不夠“萬(wàn)能”
事實(shí)上,僅僅是從本土發(fā)展來(lái)看,AIGC產(chǎn)業(yè)鏈的發(fā)展算不上緩慢。
據量子位AIGC圖譜顯示,從上游的數據供給、開(kāi)源算法,中游的行業(yè)玩家以及下游的包括文字、圖像、視頻、音頻、游戲等應用場(chǎng)景,關(guān)于A(yíng)IGC的一條初步產(chǎn)業(yè)鏈已經(jīng)悄然形成,產(chǎn)業(yè)生態(tài)的完善也為后期的發(fā)展奠定了基礎,而在不同的應用場(chǎng)景下,已出現了一批代表性的玩家。
需要注意的是,在國內,大多數AIGC的應用場(chǎng)景幾乎都聚焦在內容側。
首先,這是一個(gè)短期利潤和長(cháng)期價(jià)值的博弈過(guò)程。
AIGC燒錢(qián)的程度,并不亞于互聯(lián)網(wǎng)發(fā)展的初期。
小冰CEO李笛舉過(guò)一個(gè)例子:若用ChatGPT的方法,以小冰框架當前支撐的對話(huà)交互量計算,每天成本將高達3億元,一年成本超過(guò)1000億元。
AIGC需要一定的工程技術(shù),除了具備固定流動(dòng)資金的大廠(chǎng),創(chuàng )業(yè)公司即便對應用場(chǎng)景具有清晰的發(fā)展路徑,也幾乎很難按照OpenAI的路徑發(fā)展。
其次,國內AIGC的生態(tài)環(huán)境相對來(lái)說(shuō)更獨立。
在長(cháng)期投入的產(chǎn)品上,無(wú)論是創(chuàng )業(yè)公司亦或是大多數的大廠(chǎng),幾乎都是專(zhuān)注垂直賽道的場(chǎng)景應用。
于是對于國內而言,渴望以最快的速度趕超海外的同時(shí),大多數的AIGC業(yè)務(wù)其實(shí)還處于發(fā)展的邊緣地帶。
此外,據了解,GPT-3的模型參數不開(kāi)源,僅以付費API(應用程序編程接口)的形式提供給海外用戶(hù)。
基于此,我們需要清醒認知到的是,現在國內僅僅是處于正在開(kāi)啟智能時(shí)代大門(mén)的初期,距離生產(chǎn)力的革命還有很遠的路要走。
最后,在相關(guān)法規尚未形成之時(shí),即便再心急,也可能會(huì )功虧一簣。
根據第一財經(jīng)報道,中國初創(chuàng )公司元語(yǔ)智能在2月3日上線(xiàn)了中國首個(gè)“ChatGPT”,名叫ChatYuan,但上線(xiàn)后不久,ChatYuan界面就顯示“涉嫌違反相關(guān)法律法規和政策,已暫停服務(wù)”。
這顯示了ChatGPT在中國應用的風(fēng)險,審查機制及與之相關(guān)的合規問(wèn)題。
ChatGPT在提供回答時(shí)不會(huì )避開(kāi)在中國較為敏感的問(wèn)題。
參考資料:
郭靜的互聯(lián)網(wǎng)圈:ChatGPT爆紅,百度、搜狗、360等搜索引擎尷尬嗎?
華進(jìn)知識產(chǎn)權:ChatGPT“中國化”,正在進(jìn)行中......
剁椒TMT:“按ChatGPT模式做AI,我們一天成本要3億”
新京報:“中國版ChatGPT”將花落誰(shuí)家?
中國科學(xué)報:ChatGPT火了!國內AI風(fēng)往哪兒吹