偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<track id="jjka5"><style id="jjka5"></style></track>

<del id="jjka5"><b id="jjka5"></b></del>

<blockquote id="jjka5"><samp id="jjka5"></samp></blockquote><em id="jjka5"></em>

<button id="jjka5"></button>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

國產(chǎn)黑馬一年肝出萬億參數(shù)MoE！霸榜多模態(tài)，劍指AGI

作者：新智元 2024-04-01 12:10:48

人工智能新聞

LLM戰(zhàn)場的新玩家，一出手就是王炸！信仰Scaling Law的階躍星辰，一口氣帶來了Step-1千億參數(shù)語言大模型、Step-1V千億參數(shù)多模態(tài)大模型，以及Step-2萬億參數(shù)MoE語言大模型的預覽版。而階躍星辰之旅，終點就是AGI。

最近，又一家初創(chuàng)公司，加入LLM戰(zhàn)場！

在2024全球開發(fā)者先鋒大會期間，這家頗為低調(diào)的公司第一次亮相，就讓業(yè)內(nèi)震動了一把。

他們一口氣發(fā)了三個大模型——

Step-1千億參數(shù)語言大模型、Step-1V千億參數(shù)多模態(tài)大模型，以及Step-2萬億參數(shù)MoE語言大模型預覽版。

據(jù)悉，Step-2萬億參數(shù)MoE語言大模型預覽版，還是國內(nèi)大模型初創(chuàng)公司發(fā)布的首個萬億參數(shù)模型！

百模大戰(zhàn)一年了，這家公司為何此時高調(diào)現(xiàn)身？

小編深入挖掘，居然發(fā)現(xiàn)了許多值得言說的東西。

Scaling Law信仰者的故事

這個萬億參數(shù)大模型才用一年就誕生的事實背后，是一個Scaling Law信仰者的故事。

這一點，從公司的名字就可以看出來——「階躍星辰」。

你們可能已經(jīng)發(fā)現(xiàn)了，公司的名字，其實來自于「階躍函數(shù)」。

階躍函數(shù)，是人工智能里神經(jīng)網(wǎng)絡最早的激活函數(shù)

這就讓人自然而然地想到Scaling Law的核心本質(zhì)——當模型規(guī)模不斷擴大，性能就會不斷提升，發(fā)生階躍。

最近一周，OpenAI頻頻曝出大動作，比如它正聯(lián)合微軟打算豪擲超千億美元，打造一臺百萬芯片的「星際之門」超算。

顯然，要訓出GPT-5甚至GPT-6，就意味著人類向AI提供的算力，還要不斷增加。

而在硅基發(fā)展的道路上，AI模型的規(guī)模和性能，是否還會沿著Scaling Law的路徑不斷攀升？

業(yè)界對此討論不一，而階躍星辰，則是Scalng Law的篤信者。

由此，他們也對通往AGI的技術路徑，有著獨特的深入理解。

首先當然就是，不做「小而美」，而是Scaling到底，讓階躍「Scale-up Possibilities for Everyone」。

另外，Sora最近掀起的滔天巨浪也證明：多模態(tài)是通往AGI的另一個關鍵。

力大磚飛的路子，已經(jīng)被跑通。階躍星辰則是國內(nèi)的打樣者。

潛水一年，它在算力、數(shù)據(jù)、算法和系統(tǒng)上兵來將擋、水來土掩，如今終于一鳴驚人。

路線對了，四大難關也被沖破，百模大戰(zhàn)中誰能笑到最后？時間會給出答案。

千億模型霸榜，一手實測來了！

那么接下來，就讓我們看看在千億級參數(shù)Step-1和Step-1V的加持下，產(chǎn)生的應用有多么強大。

在這個過程中，Step-1V的多模理解能力，尤其引起了小編的注意。

躍問，越愛問

第一款應用，是這個叫「躍問」的聊天助手。

與ChatGPT類似，它可以幫我們完成信息查詢、語言學習、創(chuàng)意寫作、圖文解讀等任務。

此外，它還具備了聯(lián)網(wǎng)搜索、代碼分析增強（POT）等能力，高效理解和回應用戶的查詢，提供連貫且相關的對話。

傳送門：https://stepchat.cn/chats/new

憑借Step-1V大模型，「躍問」擁有了業(yè)界領先的多模態(tài)內(nèi)容理解能力。

它可以能夠識別真實世界的萬事萬物，能夠理解和分析復雜的金融圖表，甚至還能夠理解熱梗圖片中的深意。

話不多說，直接上圖。

先來一道小學生們常做的數(shù)學應用題。

和人類的答題思路不同，「躍問」答題，會用計算機可以理解的語言，通過執(zhí)行代碼得出結(jié)果。

有了「躍問」，以后拍照答題確實省事多了。

小編的朋友之前去挪威自駕拍了張照片，不知「躍問」能識別出這個景點嗎？

出人意料的是，它非常成功地識別出了地點，還貼心地給出了出行建議。

再試試圖表分析。

能夠準確理解圖中信息，并進行總結(jié)，「躍問」實力值一鍵拉滿。

讀梗是檢驗模型智能水平的好方法，我們來試試躍問。

難倒不少人類的「莎士比亞搖梨」諧音梗，它解讀得一溜一溜的。

米粉們對于小米造車翹首以盼的期待，它都懂。

「我太南了」「南上加南」的國粹+諧音雙重梗，它也能體察其中詼諧精妙的隱喻。

一圖讀懂，長圖一鍵總結(jié)

另外，躍問還提供了一個「一圖讀懂」工具。

打工人們在工作中時常會遇到這種情況，動輒幾十萬字的政策性文件、通知、財報等，需要給出一個總結(jié)。

很多情況下，我們并沒有足夠的時間來仔細閱讀其內(nèi)容，這時候，就需要「一圖讀懂」來登場了！

它可以幫我們整理成公眾號分享的那種長圖。

傳送門：https://stepchat.cn/textposter（上下滑動查看全部）

這個工具最厲害的在于，它能提供我們需要的格式。

這其中的玄機可以舉個例子說明。比如，在上面的例子中，預留的文字框就只有這么大，如果總結(jié)一千字，就爆了。

因此，AI會根據(jù)模板去總結(jié)合適的字數(shù)，如果某處需要用表格，它就會總結(jié)成表格的形式。

而這些，都是基于它強大的指令跟隨能力。

冒泡鴨

另一個產(chǎn)品是「冒泡鴨」。

顧名思義，這個產(chǎn)品，主打的就是一個好玩。

在這個開放世界里，有無數(shù)未知的劇情、人物、故事和冒險，讓我們盡情探索。

傳送門：https://maopaoya.com/chat

開放的劇情互動和角色中，有著無限驚喜。

初進主頁，人生重開模擬器Agent，就引起了小編的注意。

如果自己是一位出生于1980年、擁有驚人智力和商業(yè)頭腦的男性，會得到怎樣的人生？

這個Agent，在虛擬之間讓我經(jīng)歷了大起大落的人生體驗：在90年代末創(chuàng)辦互聯(lián)網(wǎng)公司、擴大業(yè)務范圍、放棄感情選擇專注事業(yè)……

不過，在90歲的時候，我竟然后悔了。

而「深度學習助手」這個Agent，也引起了小編的好奇。

小編隨意提問了兩個問題，這位煉丹專家都回答對了。

「CS頂會助手」，能幫我們潤色論文，提出修改意見。

「互聯(lián)網(wǎng)黑話翻譯機」，能幫我們把這段黑話秒變?nèi)嗽挕?/span>

而這位時常崩潰的bug制造機的「程序員龐步統(tǒng)」，也頗為引人注目。

小編試著問了個問題，他圓滿解決。

而且沒想到，他還是個話癆+表情包愛好者。

這個慘樣兒，讓小編不忍心再測試他改bug的水平了，感興趣的讀者可以自己去試試。

從以上用例也可以看出，千億參數(shù)模型Step-1和Step-1V基礎實力，是有多么強大。

果然，小編發(fā)現(xiàn)，它們在測評分數(shù)中，的確也是表現(xiàn)亮眼。

Step-1：千億參數(shù)語言大模型

據(jù)悉，Step-1僅用了2個月的時間，一次性完成訓練。

在邏輯推理、中文知識、英文知識、數(shù)學、代碼方面的性能，Step-1全面超越GPT-3.5。

據(jù)介紹，Step-1在模型架構、算法與系統(tǒng)上進行了創(chuàng)新，擁有優(yōu)秀的長文理解和生成能力、多輪指令跟隨能力以及現(xiàn)場學習能力。

同時，它還能夠?qū)崿F(xiàn)單卡低比特，超長文本的高效推理。

Step-1V：千億參數(shù)多模態(tài)大模型

Step-1V擁有出色的圖像理解、多輪指令跟隨、數(shù)學、邏輯推理、文本創(chuàng)作等能力。

在中國權威的大型模型評估平臺「司南」（OpenCompass）多模態(tài)模型評測榜單中，Step-1V位列第一，性能比肩GPT-4V。

Step-1V可以精準描述和理解圖像中的文字、數(shù)據(jù)、圖表等信息，并根據(jù)圖像信息實現(xiàn)內(nèi)容創(chuàng)作、邏輯推理、數(shù)據(jù)分析等多項任務。

然而，千億參數(shù)模型，只是階躍星辰在攀登AGI路上邁出的第一步。

下一步，當然就是沿著Scaling Law做到極致。

破關「鐵人四項」超級工程

上文已經(jīng)提到，階躍星辰是Scaling Law的堅定信仰者。

Scaling Law這一概念，是由OpenAI團隊在2020年首次提出。

論文地址：https://arxiv.org/pdf/2001.08361.pdf

通過Scaling Law可以預測出，在參數(shù)量、數(shù)據(jù)量以及訓練計算量這三個因素變動時，大模型性能損失值（loss）的變化。

由此，OpenAI有了在數(shù)據(jù)以及參數(shù)規(guī)模上Scaling的信心。

同年5月，爆火全球的1750億參數(shù)大模型GPT-3誕生。23年橫空出世的GPT-4曾被爆料有1.8萬億參數(shù)。

而要實現(xiàn)接近人類水平的大模型，最少擁有200萬億的參數(shù)。顯然，當前大模型的參數(shù)量，還遠遠不夠。

同樣，繼Step-1成功之后，階躍星辰團隊立即開展了下一代萬億參數(shù)語言大模型Step-2的訓練。

從千億到萬億，參數(shù)量直接增長了一個數(shù)量級。

看上去，參數(shù)量只是擴大了10倍，但挑戰(zhàn)卻是幾十倍地增長。

不論是對算力、系統(tǒng)，還是對算法、數(shù)據(jù)，都提出了非常高的要求，業(yè)內(nèi)少有公司能做到。

「鐵人四項」超級工程，階躍星辰是層層破關。

算力

業(yè)界傳聞，訓萬億參數(shù)的GPT-4，用了2.5萬張A100。

算力支撐，就是訓練萬億模型要跨越的第一個障礙。

成立伊始，階躍星辰就意識到算力是重大的戰(zhàn)略資源。

通過自建機房+云上租用算力，目前，公司已經(jīng)擁有了訓練萬億參數(shù)模型需要的算力。

系統(tǒng)

因為算力的稀缺和寶貴，訓大模型必須要把系統(tǒng)設計好，提高算力的利用率。

提到系統(tǒng)，就必須做到高效且穩(wěn)定。

模型訓練的時候，衡量GPU使用效率需要看有效算力輸出（MFU）指標，這個數(shù)字比例越高，代表著系統(tǒng)搭建的越好。

穩(wěn)定性，就需要系統(tǒng)能夠隨時檢測出哪一張卡出現(xiàn)問題，然后把任務進行隔離遷移，進而不影響整個訓練過程。

穩(wěn)定高效的系統(tǒng)有多重要？真正踩過坑的人，才會知道。

前段時間，前谷歌大腦科學家Yi Tay分享了自己創(chuàng)業(yè)一年的經(jīng)歷：

在整個訓大模型的過程中，最艱難的是從頭搭建系統(tǒng)，而且從算力提供商、硬件質(zhì)量等多個方面分析了，芯片就是LLM時代的硬件彩票。

就連AI大牛Karpathy本人，也深表同感。

而在這方面，階躍星辰團隊硬是憑著先進的系統(tǒng)經(jīng)驗，積累了單集群萬卡以上的系統(tǒng)建設與管理實踐。

因此產(chǎn)生的結(jié)果，也是驚人的——在訓練千億模型時，MFU（有效算力輸出）直接達到了57%！

數(shù)據(jù)

還有一個重要的因素，無疑就是數(shù)據(jù)了。

國內(nèi)團隊在訓練大模型時普遍面臨的攔路虎，就是中文高質(zhì)量數(shù)據(jù)極度匱乏。

比如，常用的Common Crawl數(shù)據(jù)集中，真正能夠給大模型訓練的有效數(shù)據(jù)只有0.5%。

而階躍星辰團隊則有了一個令人驚喜的發(fā)現(xiàn)：其實，大模型對語言并不敏感，一個知識點不管用中文還是英文，它都能學會。

于是，階躍星辰團隊選擇用全球語料彌補中文語料的缺失。

在非公開的行業(yè)數(shù)據(jù)層面，階躍星辰則與國內(nèi)優(yōu)秀的數(shù)據(jù)資源實現(xiàn)深度合作。

算法

最后的難關，就是算法了。

模型到了萬億參數(shù)，訓練都是用混合專家的稀疏架構。MoE怎么訓？目前業(yè)內(nèi)鮮有公開資料，全靠團隊去摸索。

在Step-2的過程中，階躍星辰團隊突破了5D并行、極致顯存管理、完全自動化運維等關鍵技術，讓訓練效率和穩(wěn)定性處于業(yè)界領先水平。

最終，Step-2萬億參數(shù)大模型，如期交卷了！

Step-2采用了「MoE稀疏架構」，每個token都能激活2000億以上的參數(shù)。

目前，Step-2發(fā)布的是預覽版，提供API接口給部分合作伙伴試用。等后續(xù)小編拿到體驗機會，再向大家展示。

AGI的秘密，被他們發(fā)現(xiàn)了

去年到現(xiàn)在， OpenAI打法看似紛繁復雜，發(fā)布GPT系列語言模型、文生圖模型DALL-E、文生視頻模型Sora，投資了具身智能公司Figure，放出Q*計劃……

但在階躍星辰看來，其實它一直是在沿著一條主線、兩條支線推進其AGI計劃。

階躍星辰已經(jīng)發(fā)現(xiàn)，通向AGI會經(jīng)歷三個階段：

- 早期階段是語言、視覺、聲音各模態(tài)獨立發(fā)展；

- 如今多種模態(tài)走向融合，但融合的并不徹底，理解和生成的任務還是分開的，造成模型的理解能力強但生成能力弱，或者反之。

- 下一步一定是將生成和理解放在一個模型里。

多模態(tài)理解和生成統(tǒng)一后，就可以把模型和「具身智能」結(jié)合起來，讓它去探索這個世界，與世界進行交互。

在世界模型的基礎上，再加上復雜任務的規(guī)劃、抽象概念歸納的能力，以及超級對齊能力，就有可能實現(xiàn)AGI。

階躍星辰認為，多模理解和生成的統(tǒng)一是通向AGI的必經(jīng)之路

從Step-1千億參數(shù)語言大模型，Step-1V千億參數(shù)多模態(tài)大模型，到Step-2萬億參數(shù)MoE語言大模型預覽版，階躍星辰正按照既定路線，一步一步推進大模型研發(fā)。

微軟系創(chuàng)業(yè)摘星

雖然成立于2023年4月，但這家公司卻在不到一年時間里，發(fā)布了一系列模型。

查看一下團隊背景，才覺得理所當然。

階躍星辰聚集了多位微軟系頂尖人才，可謂星光熠熠。

創(chuàng)始人和CEO，是前微軟全球副總裁、微軟亞洲互聯(lián)網(wǎng)工程院首席科學家姜大昕博士。

作為自然語言處理領域的全球知名專家，他在機器學習、數(shù)據(jù)挖掘、自然語言處理和生物信息學等領域，有著豐富的研究及工程經(jīng)驗。

核心創(chuàng)始團隊包括系統(tǒng)負責人朱亦博博士，和數(shù)據(jù)負責人焦斌星博士。

朱亦博博士擁有多次單集群萬卡以上的系統(tǒng)建設與管理實踐經(jīng)驗。

焦斌星博士此前擔任微軟必應引擎核心搜索團隊負責人，負責利用數(shù)據(jù)挖掘和NLP算法，優(yōu)化索引和搜索質(zhì)量。

如今，大模型的競速賽仍然硝煙四起，誰能聚集最頂尖的人才和豐厚的戰(zhàn)略資源，就將成為焦點。

在這樣的背景下，不打無準備之仗的階躍星辰選擇從幕后走向臺前，釋放出的正是這樣一種信號——

AGI或許并不遙遠，智能階躍，會十倍每一個人的可能。

責任編輯：張燕妮來源：新智元

數(shù)據(jù)訓練

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<var id="jo31d"><wbr id="jo31d"><dfn id="jo31d"></dfn></wbr></var>

<abbr id="jo31d"></abbr>

<li id="jo31d"></li>

<samp id="jo31d"></samp>