偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

馬斯克新作!Grok-1.5V多模態(tài)模型震撼發(fā)布:數(shù)字與物理世界完美融合

人工智能 新聞
馬斯克xAI的多模態(tài)模型Grok-1.5V橫空出世了!不僅多項(xiàng)基準(zhǔn)測(cè)試超越GPT-4V,而且看懂梗圖寫(xiě)Python代碼也都不在話下。并且,為了評(píng)估模型對(duì)于真實(shí)世界的空間理解,xAI此次還推出了新基準(zhǔn)RealWorldQA。

馬斯克的第一代多模態(tài)模型Grok-1.5V,終于來(lái)了!

Grok 1.5V,號(hào)稱是能連接數(shù)字世界和物理世界。

除了文本功能,它還能處理文檔、圖標(biāo)、屏幕截圖和照片之類的各種視覺(jué)信息。

很快,所有早期測(cè)試者和所有Grok用戶就能用上Grok 1.5V了。

圖片

英偉達(dá)高級(jí)科學(xué)家Jim Fan發(fā)現(xiàn)了Grok-1.5V的「最大亮點(diǎn)」:在他看來(lái),Grok-1.5V最令人感興趣的,就是解決自動(dòng)駕駛邊緣案例的潛力。

如果使用語(yǔ)言進(jìn)行「思維鏈」,幫助汽車分解復(fù)雜場(chǎng)景,用規(guī)則和反事實(shí)進(jìn)行推理,解釋其決策,Grok-1.5V就能將像素->動(dòng)作映射提升為像素->語(yǔ)言->動(dòng)作。

由此,特斯拉FSD V13就很有可能會(huì)理解語(yǔ)言Token!

特斯拉的優(yōu)勢(shì)是,具有高度成熟的數(shù)據(jù)管線,因此,就不難用高質(zhì)量的人類解釋痕跡來(lái)標(biāo)記大量邊緣案例,在多模態(tài)FSD推理上,微調(diào)Grok的表現(xiàn)就很有可能會(huì)遠(yuǎn)勝于GPT-4V和Gemini。

你可能會(huì)說(shuō),以前Wayve的LINGO-1不是也有類似的想法么?但別忘了,特斯拉正在旋轉(zhuǎn)的,是一個(gè)無(wú)與倫比的數(shù)據(jù)飛輪,規(guī)模遠(yuǎn)超以前。

圖片

馬斯克也適時(shí)地出現(xiàn)在了留言區(qū),進(jìn)一步解釋道——

有兩種數(shù)據(jù)源可以無(wú)限擴(kuò)展,合成數(shù)據(jù)和真實(shí)世界視頻。前者存在一個(gè)真?zhèn)蔚膯?wèn)題,而后者則不存在。

圖片

有網(wǎng)友表示,好家伙,這聽(tīng)起來(lái)是通往AGI最可行的路徑了!具有顯式語(yǔ)言推理的多模態(tài)模型,始終如一地推斷世界模型。

圖片

模型能力

在xAI的官網(wǎng)上,對(duì)于Grok-1.5V是這樣介紹的。

它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態(tài)模型對(duì)打。

無(wú)論是多學(xué)科推理,還是文檔理解、科學(xué)圖表、表格、截圖和照片等多個(gè)領(lǐng)域,Grok-1.5V都和它們有的一拼。

尤其令人驚喜的,是它在理解物理世界時(shí)表現(xiàn)出的卓越能力。

在RealWorldQA基準(zhǔn)測(cè)試中,沒(méi)有思維鏈提示、零樣本設(shè)置的情況下,用以下數(shù)據(jù)集對(duì)Grok進(jìn)行評(píng)估,可以看到Grok的表現(xiàn)比同類模型更好。

下面7個(gè)具有代表性的例子,更說(shuō)明了Grok 1.5V在不同場(chǎng)景中的良好表現(xiàn)。

1. 根據(jù)圖表編寫(xiě)代碼

下圖給出了一個(gè)簡(jiǎn)單的猜謎游戲的流程圖,Grok可以根據(jù)流程圖具體內(nèi)容,使用python代碼實(shí)現(xiàn)該流程。

圖片

用戶:

你能把它翻譯成Python代碼嗎?

Grok:

當(dāng)然!這張流程圖描述了一個(gè)簡(jiǎn)單的猜謎游戲,其中計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù),而用戶需要猜出它是什么。下面是表示流程圖中邏輯的Python代碼:

import random
def guess_number(): # Generate a random number between 1 and 10
    target = random.randint(1, 10)
    while True:
        guess = int(input("Guess a number between 1 and 10: "))
        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")
if __name__ == "__main__":
    guess_number()

這段代碼將運(yùn)行流程圖中描述的猜謎游戲。在用戶猜出正確數(shù)字之前,系統(tǒng)會(huì)一直提示用戶輸入猜測(cè)的數(shù)字。

2. 計(jì)算卡路里

根據(jù)食品的營(yíng)養(yǎng)配料表,Grok可以知道該食品一份份量是3片、含有60卡路里的熱量,由此計(jì)算出,用戶給出5片該食品的卡路里總數(shù)是100。

圖片

用戶:

5片含有多少卡路里?

Grok:

如果一份包含3片,總熱量為60卡路里,那么5片的熱量大約是100卡路里。

首先,確定每片的熱量:60卡路里÷3片=20卡路里/片。

接著,將每片的熱量乘以片數(shù):20卡路里x5片=100卡路里。

3. 從繪畫(huà)到睡前故事

Grok可以根據(jù)畫(huà)作的內(nèi)容,講述一個(gè)簡(jiǎn)短的睡前故事。

比如下面這個(gè)隨筆涂鴉:

圖片

用戶:

這是我兒子畫(huà)的,你能根據(jù)他的畫(huà)講一個(gè)睡前小故事嗎?

Grok:

很久很久以前,在一個(gè)充滿冒險(xiǎn)與奇跡的土地上,生活著一個(gè)勇敢的小男孩,名叫Timmy。他與家人住在一個(gè)溫暖的小屋里,最喜歡的事情就是探索周圍的世界。

在一個(gè)陽(yáng)光明媚的日子里,Timmy決定去附近的森林探險(xiǎn)。他準(zhǔn)備了自己最愛(ài)的零食、一只指南針和一本信賴的筆記本,用來(lái)記錄他即將見(jiàn)到的所有奇妙事物。

深入森林后,Timmy發(fā)現(xiàn)了一條在陽(yáng)光照耀下閃閃發(fā)光的神奇河流。河流的迷人景致讓他決定做一只小紙船,把它放在水面上,作為對(duì)森林精靈的一份特別的問(wèn)候。

Timmy小心翼翼地折好紙船,并在上面畫(huà)了一個(gè)笑臉,寄托了他對(duì)森林精靈的喜愛(ài)和祝福。隨后,他輕輕地把紙船放在河流中,目送它隨水漂流而去。

夕陽(yáng)西下,Timmy知道該回家了。他回想起在森林中度過(guò)的這一天,知道這段美好的記憶將永遠(yuǎn)伴隨著他。

回到家,Timmy向家人講述了他的冒險(xiǎn),家人聽(tīng)后都感到非常高興,并相信他未來(lái)定會(huì)經(jīng)歷更多精彩的冒險(xiǎn)。

于是,帶著滿心的愛(ài)與夢(mèng)想,Timmy慢慢進(jìn)入了夢(mèng)鄉(xiāng),期待在他的想象世界里探索新的冒險(xiǎn)。

4. 看懂梗圖

下面這張梗圖,左邊是初創(chuàng)公司,右邊是大公司,講的是什么意思呢?

小編第一眼是沒(méi)看懂??赐闓rok的解釋,才恍然大悟。

用戶:

我不是很理解這幅圖,請(qǐng)解釋一下。

Grok:

這幅圖幽默地展示了初創(chuàng)企業(yè)和大公司在工作方式上的差異。

在左側(cè)的「初創(chuàng)企業(yè)」里,一群人齊心協(xié)力挖掘一個(gè)深洞,每個(gè)人都在積極地參與。

而在右側(cè)的「大公司」里,只有一人在挖洞,其他人只是在旁邊看著。

這幅圖的幽默之處在于夸大了兩種組織形態(tài)的不同。

初創(chuàng)企業(yè)通常會(huì)讓每個(gè)人都直接參與到核心任務(wù)中,而大公司則可能因?yàn)槠潺嫶蟮慕Y(jié)構(gòu)和官僚體制,使得團(tuán)隊(duì)成員無(wú)法接觸到項(xiàng)目的每一個(gè)細(xì)節(jié)。

5. 將表格轉(zhuǎn)換為CSV

Grok可以將表格內(nèi)容轉(zhuǎn)換成CSV格式。

用戶:

請(qǐng)將這個(gè)表轉(zhuǎn)換為CSV格式。

Grok:

圖像中的表格可以轉(zhuǎn)換成CSV格式,如下所示:

medal,name,sport,event,date
21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

請(qǐng)注意,CSV格式不支持樣式或格式化,因此信息以純文本格式顯示。

6. 地板上的腐爛木頭,都能給出建議

地板上的木材腐爛了怎么辦?

照片拍給Grok,它可以幫我們判斷腐爛情況,還能給出合理的處理建議。

圖片

用戶:

我地板上的螺絲周圍出現(xiàn)了這些洞。是腐爛了嗎?我應(yīng)該更換木板嗎?

Grok:

這些木板似乎已經(jīng)開(kāi)始腐爛。從螺絲周圍出現(xiàn)的孔洞可以看出,這是木材腐爛的典型跡象。

為了確保地板的安全并延長(zhǎng)使用的壽命,建議你更換那些已經(jīng)受損的木板。這樣做可以避免地板進(jìn)一步的損害,并保持其結(jié)構(gòu)的穩(wěn)固。

如果你不知道如何更換木板,可以尋求專業(yè)地板建造商或承包商的幫助。他們會(huì)對(duì)損害的程度進(jìn)行評(píng)估,并為你提供關(guān)于地板維護(hù)的專業(yè)建議。

7. 解決編碼問(wèn)題

編碼問(wèn)題,Grok-1.5V也是不在話下。

用戶:

你能寫(xiě)出解決這個(gè)問(wèn)題的Python代碼嗎?

Grok:

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

對(duì)現(xiàn)實(shí)世界的理解

開(kāi)發(fā)有用的現(xiàn)實(shí)世界AI助手,提高模型對(duì)物理世界的理解是至關(guān)重要的。

為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)還推出了一個(gè)新的基準(zhǔn)——RealWorldQA。

該基準(zhǔn)可以用于評(píng)估多模態(tài)模型對(duì)于基本現(xiàn)實(shí)世界空間的理解能力。

雖然當(dāng)前基準(zhǔn)中的許多示例對(duì)人類來(lái)說(shuō)理解比較容易,但對(duì)于前沿模型來(lái)說(shuō)還是具有一定的挑戰(zhàn)性。

最初發(fā)布的RealWorldQA包含700多張圖片,每張圖片都有一個(gè)問(wèn)題和易于驗(yàn)證的答案。

例如,如果我們問(wèn)它:圖片中的披薩刀和剪刀哪個(gè)物體更大?

Grok給出的答案是:它們的大小差不多。

從當(dāng)前車道可以去哪里?A.左轉(zhuǎn) B.直走 C.左轉(zhuǎn)直行 D.右轉(zhuǎn)

Grok會(huì)選A。

從轎車前方的攝像頭來(lái)看,是否有足夠的空間繞過(guò)前面的灰色轎車?

Grok給出的答案是:是。

從這個(gè)圖片來(lái)看,恐龍是朝向哪個(gè)方向?

Grok回答:東。

除了其他真實(shí)世界的圖像外,該數(shù)據(jù)集還包括從車輛上拍攝的匿名圖像。

研究團(tuán)隊(duì)將該數(shù)據(jù)集進(jìn)行了開(kāi)源,并希望隨著多模態(tài)模型的改進(jìn)而不斷擴(kuò)展該數(shù)據(jù)集。

最后,xAI官網(wǎng)總結(jié)道,憑著提高多模態(tài)理解和生成能力,它們將逐漸逼近構(gòu)建能夠理解宇宙的有益AGI。

而接下來(lái)幾個(gè)月里,估計(jì)我們還會(huì)看見(jiàn)圖像、音頻、視頻等多模態(tài)上,這兩項(xiàng)能力的重大改進(jìn)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-18 14:59:16

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2025-09-19 09:10:00

2024-03-18 14:17:06

大模型開(kāi)源人工智能

2025-02-21 10:51:47

2023-12-13 08:46:33

人工智能ChatGPT機(jī)器人

2024-02-19 14:07:00

數(shù)據(jù)模型

2025-07-11 11:58:59

多智能體Grok 4AI

2024-03-29 12:48:00

數(shù)據(jù)訓(xùn)練

2024-04-14 19:53:44

2025-07-02 16:53:28

Grok4馬斯克Code模型

2025-09-16 09:02:00

AI馬斯克模型

2024-09-02 08:30:00

大模型AI

2023-12-08 12:58:26

2024-03-29 14:04:00

模型訓(xùn)練

2025-02-11 09:20:00

LLM模型AI

2025-07-10 16:58:04

2024-03-18 15:00:48

Grok現(xiàn)已開(kāi)源Grok-1混合專家模型

2025-02-19 10:28:22

2023-11-06 12:34:14

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)