国产二级一片内射视频插放_昆侖萬(wàn)維「天工大模型4.0」o1版（Skywork o1）正式啟動(dòng)邀請測試_中訪(fǎng)網(wǎng)

今天，昆侖萬(wàn)維正式推出具有復雜思考推理能力的系列模型——「天工大模型4.0」 o1版（Skywork o1）。

Skywork o1是由昆侖萬(wàn)維集團發(fā)布的具有慢思考推理能力的系列模型。這是國內第一款中文邏輯推理能力的o1模型。不同于現有的復現OpenAI o1模型的工作，Skywork o1不僅在模型輸出上內生了思考、計劃、反思等能力，同時(shí)，該開(kāi)源模型在標準評測集上，對比普通模型推理能力大幅上升，真正讓模型擁有了思考和反思帶來(lái)的推理能力的提升。團隊復現o1的技術(shù)路線(xiàn)，使得初始推理能力較差的基座模型在基準測試集上成為生態(tài)位SOTA。

此次發(fā)布的Skywork o1包括三款模型，既有回饋開(kāi)源社區的開(kāi)放版本，也有能力更強的專(zhuān)用版本：

Skywork o1 Open：一款基于Llama 3.1 8B的開(kāi)源模型，該模型在同生態(tài)位開(kāi)源模型中評測指標大幅提升達到SOTA水平，并解鎖了許多輕量級模型無(wú)法解決的復雜數學(xué)任務(wù)。該模型的發(fā)布也將幫助加速?lài)鴥乳_(kāi)源社區復現o1的進(jìn)程。
Skywork o1 Lite：該模型具備完整的思考能力，具有更好的中文支持和更快的推理和思考速度。在數學(xué)、中文邏輯和推理類(lèi)問(wèn)題上表現突出。
Skywork o1 Preview：這款模型是本次完整版的推理模型，搭配自研的線(xiàn)上推理算法，對比Skywork o1 Lite有著(zhù)更多樣和“深度”的思考過(guò)程，更完善和更高質(zhì)量的推理。

其中，我們開(kāi)源的Skywork o1 Open，在各項數學(xué)和代碼指標上均有大幅提高，將Llama-3.1-8B的性能拉到同生態(tài)位SOTA（超越Qwen-2.5-7B instruct）。同時(shí)，8B的Skywork o1 Open也解鎖了很多較大量級模型，如GPT 4o，無(wú)法完成的數學(xué)推理任務(wù)（如24點(diǎn)計算）。這也為推理模型在輕量級設備上部署提供了可能性。

同時(shí)，我們也將開(kāi)源兩個(gè)推理任務(wù)的Process Reward Model（PRM）：Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B，相比此前開(kāi)源的Skywork-Reward-Model僅對整個(gè)模型回答進(jìn)行打分，Skywork o1 Open-PRM能給模型回答中的每個(gè)步驟進(jìn)行打分。

對比開(kāi)源社區現有的PRM，Skywork o1 Open-PRM-1.5B能達到開(kāi)源社區8B的模型效果，例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data，OpenR的Math-psa-7B，Skywork o1 Open-PRM-7B能同時(shí)在大部分benchamrk上接近/超過(guò)10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類(lèi)任務(wù)的開(kāi)源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型，使用不同PRM在數學(xué)和代碼評測集上的評估結果。

除Skywork-o1-Open-PRM外，其他開(kāi)源PRM均未針對代碼類(lèi)任務(wù)進(jìn)行專(zhuān)門(mén)優(yōu)化，故不進(jìn)行代碼任務(wù)的相關(guān)對比。

詳細技術(shù)報告也將在不久后發(fā)布。目前模型和相關(guān)介紹在Huggingface開(kāi)源。

開(kāi)源地址：https://tinyurl.com/skywork-o1

01.強推理以及自我反思的能力是如何練成的？

Skywork o1在邏輯推理任務(wù)上性能的大幅提升得益于天工三階段自研的訓練方案：

推理反思能力訓練：通過(guò)自研的多智能體體系構造高質(zhì)量的分步思考，反思和驗證數據。通過(guò)高質(zhì)量的、多樣性的長(cháng)思考數據對基座模型進(jìn)行繼續預訓練和監督微調。
推理能力強化學(xué)習：團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model（PRM）。實(shí)驗證明Skywork-PRM可有效的捕捉到復雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化算法進(jìn)一步加強模型推理和思考能力。
推理planning：基于天工自研的Q*線(xiàn)上推理算法配合模型在線(xiàn)思考，并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現和公開(kāi)。Q*算法落地也大大提升了模型線(xiàn)上推理能力。

關(guān)于天工 Q*算法，更多詳情可見(jiàn)：https://arxiv.org/abs/2406.14283

02.亮點(diǎn)功能與實(shí)測

Skywork o1模型具有以下能力和亮點(diǎn)功能：

模型思考和規劃能力
模型自我反思能力
模型自我驗證能力

相較于此前（長(cháng)文本任務(wù)）大模型，無(wú)論是常識推理問(wèn)題、邏輯推理問(wèn)題、數學(xué)推理問(wèn)題、倫理決策問(wèn)題、還是“弱智”（類(lèi)似腦筋急轉彎）邏輯陷阱問(wèn)題等，Skywork o1都處理的游刃有余。整體來(lái)說(shuō)，Skywork o1 Lite和Skywork o1 Preview線(xiàn)上版本在復雜問(wèn)題分析、思考反思過(guò)程、輸出答案質(zhì)量上均有大幅提升。

首先，我們拿一道「2024年全國碩士研究生入學(xué)統一考試數學(xué)(一)試題」考考它（如下圖所示），測試一下它的“智力水平”。

面對難度不小的最新考研數學(xué)題，Skywork o1 Preview盡管花費了一些時(shí)間，但還是一步步推理出了正確結果。

那么，之前大模型經(jīng)常翻車(chē)的比大小問(wèn)題，Skywork o1現在的回答水平如何了？

從它的思考過(guò)程可以看出，Skywork o1的模型思考和規劃能力大幅提升。這個(gè)解題邏輯非常像人類(lèi)的思考方法了，“如果整數部分相同，那么就要開(kāi)始比較小數部分了”。通過(guò)嚴謹的推理過(guò)程，準確得出8.8大于8.11，且多給出了一步差值計算。

此外，模型自我反思能力和自我驗證能力也都有長(cháng)足進(jìn)步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”，還可以給出后續對話(huà)建議。

盡管我們讓它回答存在中文讀音“陷阱”的問(wèn)題——“請將qíng rén yǎn lǐ chū xī shī轉換為中文”，它也沒(méi)有被我們繞進(jìn)去。充分展示了中文邏輯問(wèn)題思考中的反思能力，它主動(dòng)發(fā)現了“西詩(shī)”是不對的說(shuō)法，而是“西施”。

同樣的，對于之前的大模型來(lái)說(shuō)，“算24點(diǎn)”的游戲很容易把模型搞崩潰了，但是對于Skywork o1來(lái)說(shuō)，可謂是小菜一碟。它不僅給出了正確答案，重點(diǎn)是它在過(guò)程中進(jìn)行了「自我驗證」。它在計算過(guò)后，又檢查了一遍，確認過(guò)程和答案全部符合命題要求，才給出最終答案。

除了上述給出的數學(xué)推理、比大小、中文邏輯以及24點(diǎn)計算的任務(wù)外，Skywork o1在其他復雜的場(chǎng)景也有較好表現：

競賽數學(xué)：Skywork o1拿到2024 AIME第一題（如下圖所示），也從容應對。計算邏輯清晰、公式展示流暢，計算時(shí)長(cháng)也明顯具有優(yōu)勢。

密碼解密：在復雜密碼解密任務(wù)中，Skywork o1擁有強大的自我探索和推理能力。

在已知「原文→密文」的前提下，經(jīng)過(guò)一系列復雜推理后成功給出答案（如下圖所示）。

如果反過(guò)來(lái)呢？已知一段「密文→原文」，能否找出新密文所對應的原文。Skywork o1表示小菜一碟。

智力問(wèn)答：在復雜的中文推理問(wèn)題上，Skywork o1表現優(yōu)異，并給出了完整的思考鏈路。

最后，再讓我們再給他出一些有趣的“弱智”問(wèn)題，來(lái)看看它的回答是不是合理。

為什么我爸媽結婚的時(shí)候沒(méi)邀請我參加婚禮?
被門(mén)夾過(guò)的核桃，還能補腦嗎？
午餐肉，我可以晚上吃嗎?

令人驚喜的是，Skywork o1不但沒(méi)有被問(wèn)題繞進(jìn)去，還分析的頭頭是道，甚至透露出“大智慧”，引申出了一些更底層的思考。

進(jìn)階版的復雜人類(lèi)思考能力的解鎖也將進(jìn)一步在垂類(lèi)領(lǐng)域增強大模型的應用，例如：

中英文常見(jiàn)邏輯推理和復雜任務(wù)，如數學(xué)/代碼類(lèi)任務(wù)，科學(xué)研究
高質(zhì)量?jì)热萆?，如?chuàng )意寫(xiě)作，行業(yè)報告寫(xiě)作
深度搜索，解鎖復雜搜索任務(wù)的拆解

2024年以來(lái)，昆侖萬(wàn)維天工AI持續進(jìn)化，陸續發(fā)布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o，以及今天正式發(fā)布的「天工大模型4.0」 o1版（Skywork o1），不僅是我們貫徹“All in AGI 與 AIGC” 戰略的重要舉措，更是我們構建AI技術(shù)棧的重要一步。我們將秉持“實(shí)現通用人工智能，讓每個(gè)人更好地塑造和表達自我”的使命，從模型層、應用層等全方位、多維度來(lái)構建公司技術(shù)競爭力和生態(tài)矩陣。

測試地址

「天工大模型4.0」 o1版（Skywork o1）開(kāi)啟測試

嘗鮮地址：www.tiangong.cn

點(diǎn)擊下方閱讀原文，可直接進(jìn)入網(wǎng)址

国产在线精品无码二区欧洲,午夜在线观看免费高清在线,亚洲bt欧美bt日本bt,亚洲精品成人av观看在线,无码精品人妻一区二区三区免费看

昆侖萬(wàn)維「天工大模型4.0」o1版（Skywork o1）正式啟動(dòng)邀請測試

投資者網(wǎng)