偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

馬斯克新作！Grok-1.5V多模態(tài)模型震撼發(fā)布：數(shù)字與物理世界完美融合

作者：新智元 2024-04-15 12:52:00

人工智能新聞

馬斯克xAI的多模態(tài)模型Grok-1.5V橫空出世了！不僅多項(xiàng)基準(zhǔn)測(cè)試超越GPT-4V，而且看懂梗圖寫(xiě)Python代碼也都不在話下。并且，為了評(píng)估模型對(duì)于真實(shí)世界的空間理解，xAI此次還推出了新基準(zhǔn)RealWorldQA。

馬斯克的第一代多模態(tài)模型Grok-1.5V，終于來(lái)了！

Grok 1.5V，號(hào)稱是能連接數(shù)字世界和物理世界。

除了文本功能，它還能處理文檔、圖標(biāo)、屏幕截圖和照片之類的各種視覺(jué)信息。

很快，所有早期測(cè)試者和所有Grok用戶就能用上Grok 1.5V了。

英偉達(dá)高級(jí)科學(xué)家Jim Fan發(fā)現(xiàn)了Grok-1.5V的「最大亮點(diǎn)」：在他看來(lái)，Grok-1.5V最令人感興趣的，就是解決自動(dòng)駕駛邊緣案例的潛力。

如果使用語(yǔ)言進(jìn)行「思維鏈」，幫助汽車分解復(fù)雜場(chǎng)景，用規(guī)則和反事實(shí)進(jìn)行推理，解釋其決策，Grok-1.5V就能將像素->動(dòng)作映射提升為像素->語(yǔ)言->動(dòng)作。

由此，特斯拉FSD V13就很有可能會(huì)理解語(yǔ)言Token！

特斯拉的優(yōu)勢(shì)是，具有高度成熟的數(shù)據(jù)管線，因此，就不難用高質(zhì)量的人類解釋痕跡來(lái)標(biāo)記大量邊緣案例，在多模態(tài)FSD推理上，微調(diào)Grok的表現(xiàn)就很有可能會(huì)遠(yuǎn)勝于GPT-4V和Gemini。

你可能會(huì)說(shuō)，以前Wayve的LINGO-1不是也有類似的想法么？但別忘了，特斯拉正在旋轉(zhuǎn)的，是一個(gè)無(wú)與倫比的數(shù)據(jù)飛輪，規(guī)模遠(yuǎn)超以前。

馬斯克也適時(shí)地出現(xiàn)在了留言區(qū)，進(jìn)一步解釋道——

有兩種數(shù)據(jù)源可以無(wú)限擴(kuò)展，合成數(shù)據(jù)和真實(shí)世界視頻。前者存在一個(gè)真?zhèn)蔚膯?wèn)題，而后者則不存在。

有網(wǎng)友表示，好家伙，這聽(tīng)起來(lái)是通往AGI最可行的路徑了！具有顯式語(yǔ)言推理的多模態(tài)模型，始終如一地推斷世界模型。

模型能力

在xAI的官網(wǎng)上，對(duì)于Grok-1.5V是這樣介紹的。

它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態(tài)模型對(duì)打。

無(wú)論是多學(xué)科推理，還是文檔理解、科學(xué)圖表、表格、截圖和照片等多個(gè)領(lǐng)域，Grok-1.5V都和它們有的一拼。

尤其令人驚喜的，是它在理解物理世界時(shí)表現(xiàn)出的卓越能力。

在RealWorldQA基準(zhǔn)測(cè)試中，沒(méi)有思維鏈提示、零樣本設(shè)置的情況下，用以下數(shù)據(jù)集對(duì)Grok進(jìn)行評(píng)估，可以看到Grok的表現(xiàn)比同類模型更好。

下面7個(gè)具有代表性的例子，更說(shuō)明了Grok 1.5V在不同場(chǎng)景中的良好表現(xiàn)。

1. 根據(jù)圖表編寫(xiě)代碼

下圖給出了一個(gè)簡(jiǎn)單的猜謎游戲的流程圖，Grok可以根據(jù)流程圖具體內(nèi)容，使用python代碼實(shí)現(xiàn)該流程。

用戶：

你能把它翻譯成Python代碼嗎？

Grok：

當(dāng)然！這張流程圖描述了一個(gè)簡(jiǎn)單的猜謎游戲，其中計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù)，而用戶需要猜出它是什么。下面是表示流程圖中邏輯的Python代碼：

import random
def guess_number(): # Generate a random number between 1 and 10
    target = random.randint(1, 10)
    while True:
        guess = int(input("Guess a number between 1 and 10: "))
        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")
if __name__ == "__main__":
    guess_number()

這段代碼將運(yùn)行流程圖中描述的猜謎游戲。在用戶猜出正確數(shù)字之前，系統(tǒng)會(huì)一直提示用戶輸入猜測(cè)的數(shù)字。

2. 計(jì)算卡路里

根據(jù)食品的營(yíng)養(yǎng)配料表，Grok可以知道該食品一份份量是3片、含有60卡路里的熱量，由此計(jì)算出，用戶給出5片該食品的卡路里總數(shù)是100。

用戶：

5片含有多少卡路里？

Grok：

如果一份包含3片，總熱量為60卡路里，那么5片的熱量大約是100卡路里。
首先，確定每片的熱量：60卡路里÷3片=20卡路里/片。
接著，將每片的熱量乘以片數(shù)：20卡路里x5片=100卡路里。

3. 從繪畫(huà)到睡前故事

Grok可以根據(jù)畫(huà)作的內(nèi)容，講述一個(gè)簡(jiǎn)短的睡前故事。

比如下面這個(gè)隨筆涂鴉：

用戶：

這是我兒子畫(huà)的，你能根據(jù)他的畫(huà)講一個(gè)睡前小故事嗎？

Grok：

很久很久以前，在一個(gè)充滿冒險(xiǎn)與奇跡的土地上，生活著一個(gè)勇敢的小男孩，名叫Timmy。他與家人住在一個(gè)溫暖的小屋里，最喜歡的事情就是探索周圍的世界。
在一個(gè)陽(yáng)光明媚的日子里，Timmy決定去附近的森林探險(xiǎn)。他準(zhǔn)備了自己最愛(ài)的零食、一只指南針和一本信賴的筆記本，用來(lái)記錄他即將見(jiàn)到的所有奇妙事物。
深入森林后，Timmy發(fā)現(xiàn)了一條在陽(yáng)光照耀下閃閃發(fā)光的神奇河流。河流的迷人景致讓他決定做一只小紙船，把它放在水面上，作為對(duì)森林精靈的一份特別的問(wèn)候。
Timmy小心翼翼地折好紙船，并在上面畫(huà)了一個(gè)笑臉，寄托了他對(duì)森林精靈的喜愛(ài)和祝福。隨后，他輕輕地把紙船放在河流中，目送它隨水漂流而去。
夕陽(yáng)西下，Timmy知道該回家了。他回想起在森林中度過(guò)的這一天，知道這段美好的記憶將永遠(yuǎn)伴隨著他。
回到家，Timmy向家人講述了他的冒險(xiǎn)，家人聽(tīng)后都感到非常高興，并相信他未來(lái)定會(huì)經(jīng)歷更多精彩的冒險(xiǎn)。
于是，帶著滿心的愛(ài)與夢(mèng)想，Timmy慢慢進(jìn)入了夢(mèng)鄉(xiāng)，期待在他的想象世界里探索新的冒險(xiǎn)。

4. 看懂梗圖

下面這張梗圖，左邊是初創(chuàng)公司，右邊是大公司，講的是什么意思呢？

小編第一眼是沒(méi)看懂?？赐闓rok的解釋，才恍然大悟。

用戶：

我不是很理解這幅圖，請(qǐng)解釋一下。

Grok：

這幅圖幽默地展示了初創(chuàng)企業(yè)和大公司在工作方式上的差異。
在左側(cè)的「初創(chuàng)企業(yè)」里，一群人齊心協(xié)力挖掘一個(gè)深洞，每個(gè)人都在積極地參與。
而在右側(cè)的「大公司」里，只有一人在挖洞，其他人只是在旁邊看著。
這幅圖的幽默之處在于夸大了兩種組織形態(tài)的不同。
初創(chuàng)企業(yè)通常會(huì)讓每個(gè)人都直接參與到核心任務(wù)中，而大公司則可能因?yàn)槠潺嫶蟮慕Y(jié)構(gòu)和官僚體制，使得團(tuán)隊(duì)成員無(wú)法接觸到項(xiàng)目的每一個(gè)細(xì)節(jié)。

5. 將表格轉(zhuǎn)換為CSV

Grok可以將表格內(nèi)容轉(zhuǎn)換成CSV格式。

用戶：

請(qǐng)將這個(gè)表轉(zhuǎn)換為CSV格式。

Grok：

圖像中的表格可以轉(zhuǎn)換成CSV格式，如下所示：

medal,name,sport,event,date
21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

請(qǐng)注意，CSV格式不支持樣式或格式化，因此信息以純文本格式顯示。

6. 地板上的腐爛木頭，都能給出建議

地板上的木材腐爛了怎么辦？

照片拍給Grok，它可以幫我們判斷腐爛情況，還能給出合理的處理建議。

用戶：

我地板上的螺絲周圍出現(xiàn)了這些洞。是腐爛了嗎？我應(yīng)該更換木板嗎？

Grok：

這些木板似乎已經(jīng)開(kāi)始腐爛。從螺絲周圍出現(xiàn)的孔洞可以看出，這是木材腐爛的典型跡象。
為了確保地板的安全并延長(zhǎng)使用的壽命，建議你更換那些已經(jīng)受損的木板。這樣做可以避免地板進(jìn)一步的損害，并保持其結(jié)構(gòu)的穩(wěn)固。
如果你不知道如何更換木板，可以尋求專業(yè)地板建造商或承包商的幫助。他們會(huì)對(duì)損害的程度進(jìn)行評(píng)估，并為你提供關(guān)于地板維護(hù)的專業(yè)建議。

7. 解決編碼問(wèn)題

編碼問(wèn)題，Grok-1.5V也是不在話下。

用戶：

你能寫(xiě)出解決這個(gè)問(wèn)題的Python代碼嗎？

Grok：

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

對(duì)現(xiàn)實(shí)世界的理解

開(kāi)發(fā)有用的現(xiàn)實(shí)世界AI助手，提高模型對(duì)物理世界的理解是至關(guān)重要的。

為了實(shí)現(xiàn)這一目標(biāo)，研究團(tuán)隊(duì)還推出了一個(gè)新的基準(zhǔn)——RealWorldQA。

該基準(zhǔn)可以用于評(píng)估多模態(tài)模型對(duì)于基本現(xiàn)實(shí)世界空間的理解能力。

雖然當(dāng)前基準(zhǔn)中的許多示例對(duì)人類來(lái)說(shuō)理解比較容易，但對(duì)于前沿模型來(lái)說(shuō)還是具有一定的挑戰(zhàn)性。

最初發(fā)布的RealWorldQA包含700多張圖片，每張圖片都有一個(gè)問(wèn)題和易于驗(yàn)證的答案。

例如，如果我們問(wèn)它：圖片中的披薩刀和剪刀哪個(gè)物體更大？

Grok給出的答案是：它們的大小差不多。

從當(dāng)前車道可以去哪里？A.左轉(zhuǎn) B.直走 C.左轉(zhuǎn)直行 D.右轉(zhuǎn)

Grok會(huì)選A。

從轎車前方的攝像頭來(lái)看，是否有足夠的空間繞過(guò)前面的灰色轎車？

Grok給出的答案是：是。

從這個(gè)圖片來(lái)看，恐龍是朝向哪個(gè)方向？

Grok回答：東。

除了其他真實(shí)世界的圖像外，該數(shù)據(jù)集還包括從車輛上拍攝的匿名圖像。

研究團(tuán)隊(duì)將該數(shù)據(jù)集進(jìn)行了開(kāi)源，并希望隨著多模態(tài)模型的改進(jìn)而不斷擴(kuò)展該數(shù)據(jù)集。

最后，xAI官網(wǎng)總結(jié)道，憑著提高多模態(tài)理解和生成能力，它們將逐漸逼近構(gòu)建能夠理解宇宙的有益AGI。

而接下來(lái)幾個(gè)月里，估計(jì)我們還會(huì)看見(jiàn)圖像、音頻、視頻等多模態(tài)上，這兩項(xiàng)能力的重大改進(jìn)。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="prbs5"></sub>

^{<blockquote id="prbs5"></blockquote>}<cite id="prbs5"></cite>