「中杯」Claude 3.5突然上線,竟比GPT-4o還強(qiáng)!全新Artifacts改寫(xiě)模型交互
繼今年3月發(fā)布Claude 3之后,Anthropic在半年時(shí)間里又上新了!
就在今天,Claude 3.5 Sonnet發(fā)布,作為即將推出的Claude 3.5模型家族的「排頭兵」,而且已經(jīng)面向全球開(kāi)啟免費(fèi)試用。
具體來(lái)說(shuō), Claude 3.5 Sonnet支持200K token的上下文窗口,而在多項(xiàng)評(píng)測(cè)中超過(guò)了OpenAI最強(qiáng)的GPT-4o,以及自家的Claude 3 Opus。
與此同時(shí),Claude 3.5 Sonnet還保持著中等規(guī)模的模型所具有的速度和成本優(yōu)勢(shì)。
其中,在費(fèi)用方面,Claude 3.5 Sonnet處理每百萬(wàn)輸入token僅需3美元,每百萬(wàn)輸出token則為15美元。(與前代相同)
用戶可以在Claude.ai和Claude iOS應(yīng)用程序上免費(fèi)體驗(yàn),如果訂閱了Claude Pro和團(tuán)隊(duì)計(jì)劃,則可以享受更高的速率;此外,還可以通過(guò)Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用
生成2倍速,成本僅1/5
Claude 3.5 Sonnet雖然在零樣本MATH和MMLU評(píng)測(cè)中小幅落后GPT-4o,但在研究生級(jí)推理(GPQA)、本科級(jí)知識(shí)(MMLU)和編碼能力(HumanEval)上,毋庸置疑地刷新了SOTA——
不僅大幅領(lǐng)先自家的前代老大哥Claude 3 Opus,而且還完成了對(duì)谷歌Gemini 1.5 Pro和Meta 4000億參數(shù)的Llama(早期預(yù)覽版)的全面超越。
它在理解細(xì)微差別、幽默和復(fù)雜指令方面有顯著提升,并且能夠用自然、貼近生活的語(yǔ)調(diào)撰寫(xiě)高質(zhì)量?jī)?nèi)容。
在運(yùn)行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的兩倍。
這種性能提升,再加上高性?xún)r(jià)比,使Claude 3.5 Sonnet非常適合處理復(fù)雜任務(wù),如上下文敏感的客戶支持和多步驟工作流程的協(xié)調(diào)。
在內(nèi)部的智能體編碼評(píng)估中,Claude 3.5 Sonnet解決了64%的問(wèn)題,優(yōu)于Claude 3 Opus的38%。
結(jié)果顯示,在指令和相關(guān)工具的支持下,Claude 3.5 Sonnet可以獨(dú)立編寫(xiě)、編輯和執(zhí)行代碼,具備復(fù)雜的推理和故障排除能力。
尤其是,它能夠輕松處理代碼翻譯,因此在更新遺留應(yīng)用程序和遷移代碼庫(kù)方面效果極佳。
視覺(jué)能力超越GPT-4o
在視覺(jué)方面,Claude 3.5 Sonnet也是Anthropic迄今為止推出的最強(qiáng)大模型,不僅明顯優(yōu)于Claude 3 Opus和Gemini 1.5 Pro,而且在大部分測(cè)試中也都超過(guò)了GPT-4o。
這些改進(jìn)在需要視覺(jué)推理的任務(wù)中尤為明顯,例如解釋圖表和圖形。
不僅如此,Claude 3.5 Sonnet還可以準(zhǔn)確地從不完美的圖像中轉(zhuǎn)錄文本——這是零售、物流和金融服務(wù)領(lǐng)域的核心能力。
在這些領(lǐng)域里,AI從圖像、圖形或插圖中獲得的信息往往要比單純的文本來(lái)得更多。
基準(zhǔn)測(cè)試中體現(xiàn)的這種強(qiáng)大視覺(jué)能力如何落實(shí)到現(xiàn)實(shí)應(yīng)用中呢?下面這個(gè)demo給你答案。
像GPT-4o、Gemini這些模型雖然理解圖像和視頻的能力很強(qiáng),但一般只能生成文字的描述內(nèi)容,在這方面我們?nèi)祟?lèi)顯然更擅長(zhǎng),能比模型做得更快更好。
但Claude不僅能準(zhǔn)確識(shí)別、轉(zhuǎn)錄圖像中的文字內(nèi)容,還結(jié)合了強(qiáng)大的代碼生成能力,多個(gè)模態(tài)真正集成在一起。
看一眼圖片,立刻識(shí)別信息生成JSON文件,手速絕對(duì)快過(guò)任何程序員。
還能通過(guò)編碼制造交互式圖表,代碼直接可運(yùn)行,數(shù)據(jù)也絲毫不差。
不僅僅是代碼,根據(jù)圖片信息生成的網(wǎng)頁(yè)也是圖文并茂、界面精美。原本需要一晚上才能搞定的工作量,Claude幫你5分鐘內(nèi)趕上DDL。
領(lǐng)域?qū)<易顬殓姁?ài)
在附帶的報(bào)告中,Anthropic還補(bǔ)充了一些其他測(cè)試的結(jié)果。
報(bào)告地址:https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf
表4展示了Claude 3.5 Sonnet在「拒絕請(qǐng)求」時(shí)的表現(xiàn)。
這里,團(tuán)隊(duì)使用的而是Wildchat和XSTest數(shù)據(jù)集進(jìn)行測(cè)試,從而衡量模型在面對(duì)無(wú)害提示時(shí)避免不必要的拒絕,同時(shí)在面對(duì)有害內(nèi)容時(shí)保持適當(dāng)?shù)闹?jǐn)慎。
可以看到,Claude 3.5 Sonnet在這兩個(gè)維度上都優(yōu)于Opus:它的錯(cuò)誤拒絕更少,正確拒絕更多。
表5、圖1和圖2展示了Claude 3.5 Sonnet在「大海撈針」任務(wù)中的表現(xiàn)。
可以看到,Claude 3.5 Sonnet和Claude 3 Opus的性能幾乎不相上下,但在平均召回率方面Claude 3.5 Sonnet還是要略勝一籌。
此外,從下表中能更清晰地看到,Claude 3.5 Sonnet在所有文本長(zhǎng)度和200K長(zhǎng)上下文之間,召回率居然沒(méi)有出現(xiàn)明顯滑落,這是包括Opus在內(nèi)的所有前代模型的突破。
在基于人類(lèi)反饋的評(píng)估方面,團(tuán)隊(duì)把從Claude 2.1開(kāi)始的所有模型都拉了出來(lái)。
其中,人類(lèi)評(píng)審需要與模型進(jìn)行對(duì)話,并根據(jù)任務(wù)特定的指令對(duì)其進(jìn)行評(píng)估。
圖3展示了與Claude 3 Opus基線相比的「勝率」(win rate)。
可以看到, Claude 3.5 Sonnet不僅在編碼、文檔、創(chuàng)意寫(xiě)作和視覺(jué)等核心能力上有著顯著的改進(jìn),而且領(lǐng)域?qū)<覀円哺酉矚g——在法律領(lǐng)域的勝率高達(dá)82%,在金融領(lǐng)域?yàn)?3%,在哲學(xué)領(lǐng)域?yàn)?3%。
Artifacts:讓團(tuán)隊(duì)實(shí)現(xiàn)無(wú)縫協(xié)作
除了模型的更新之外,Anthropic還Claude.ai上推出了一項(xiàng)全新功能——Artifacts,擴(kuò)展了用戶與Claude互動(dòng)的方式。
具體來(lái)說(shuō),當(dāng)用戶要求Claude生成代碼片段、文本文檔或網(wǎng)站設(shè)計(jì)等內(nèi)容時(shí),只需要一鍵點(diǎn)擊,這些Artifacts會(huì)出現(xiàn)在對(duì)話旁邊的專(zhuān)用窗口中。
這樣就創(chuàng)建了一個(gè)動(dòng)態(tài)工作空間,用戶可以實(shí)時(shí)查看、編輯并基于Claude的創(chuàng)作進(jìn)行構(gòu)建,將AI生成的內(nèi)容無(wú)縫集成到他們的項(xiàng)目和工作流程中。
這個(gè)功能的添加,大大增強(qiáng)了Claude在復(fù)雜項(xiàng)目中的可用性。
比如想要?jiǎng)?chuàng)建一個(gè)交互式的游戲界面,你很難在一次對(duì)話中描述清楚所有的功能與需求。即使描述清楚了,以生成模型目前的能力,未必也能一次得到滿意的結(jié)果。
于是,你可以參考軟件開(kāi)發(fā)的流程,將需求分解為多個(gè)步驟,更方便Claude Sonnet進(jìn)行「漸進(jìn)式開(kāi)發(fā)」和迭代。
比如下面這個(gè)demo中,想要?jiǎng)?chuàng)建一個(gè)游戲,可以先讓模型用SVG格式生成你想要的角色形象。
再把所有這些SVG圖像放在同一個(gè)HTML網(wǎng)頁(yè)中。
最后,規(guī)定好角色名稱(chēng)和游戲規(guī)則,只需要告訴Claude讓這個(gè)游戲變得「可玩」,不用操心任何代碼細(xì)節(jié),一個(gè)簡(jiǎn)單的網(wǎng)頁(yè)游戲就制作完成了。
Artifacts的推出,標(biāo)志著Claude從對(duì)話式AI向協(xié)作工作環(huán)境的轉(zhuǎn)變。
當(dāng)然,這還只是一個(gè)開(kāi)始。
不久的將來(lái),團(tuán)隊(duì)——最終是整個(gè)組織——將能夠在一個(gè)共享空間中安全地集中他們的知識(shí)、文檔和正在進(jìn)行的工作,Claude將作為按需的隊(duì)友提供服務(wù)。
網(wǎng)友:被震撼到了!
模型剛剛發(fā)布,就有早期測(cè)試者發(fā)帖表示「被震撼到了」!
我是Claude 3.5 Sonnet模型的早期測(cè)試者,我對(duì)輸出的一致反應(yīng)是「超神」,模型現(xiàn)在已向所有人開(kāi)放。
Claude 3.5 Sonnet在關(guān)鍵評(píng)估上優(yōu)于競(jìng)爭(zhēng)模型,速度是Claude 3 Opus的兩倍,但成本只有五分之一,能勝任自主編碼和視覺(jué)處理等復(fù)雜任務(wù),而且可以管理長(zhǎng)文檔,確保 RAG、搜索/檢索以及比較多個(gè)長(zhǎng)文檔等任務(wù)的準(zhǔn)確性。
以及,我個(gè)人使用體驗(yàn)的反饋:從來(lái)不需要跟它說(shuō)「不,你沒(méi)明白我的提示,請(qǐng)執(zhí)行這個(gè)操作」,它就是能理解提示并做到了;Artifact讓我更有效率;文本推理/比較的結(jié)果優(yōu)秀到不可思議。
有網(wǎng)友表示,自己不相信基準(zhǔn),于是便拿了道真題來(lái)了波實(shí)測(cè)。
結(jié)果不出所料,Claude 3.5 Sonnet很快就做了出來(lái),而GPT-4o則在一通長(zhǎng)篇大論之后給出了錯(cuò)誤的答案。
Ethan Mollick表示,Anthropic新推出的「Artifacts」用起來(lái)有點(diǎn)類(lèi)似于簡(jiǎn)化版的代碼解釋器。
下面,就是他用Claude創(chuàng)建并編輯一個(gè)游戲的實(shí)時(shí)視頻。
大局觀
那么Claude 3.5 Sonnet在Anthropic和整個(gè)AI生態(tài)系統(tǒng)中有什么重要意義呢?
首先是性能方面,由于當(dāng)前模型架構(gòu)的固化以及訓(xùn)練所需的巨大計(jì)算量,在沒(méi)有重大研究突破的情況下,我們很難看到從GPT-3到GPT-4那樣的飛躍。
比如,谷歌(Gemini 1.5 Pro)和OpenAI(GPT-4o)發(fā)布的旗艦產(chǎn)品,在基準(zhǔn)測(cè)試和性能方面都只有小幅的提升。
其次,隨著生成式AI廠商將注意力轉(zhuǎn)向數(shù)據(jù)策劃和許可,而不是新的可擴(kuò)展架構(gòu),投資者似乎對(duì)生成式AI的投資回報(bào)周期比預(yù)期更長(zhǎng)感到擔(dān)憂。
不過(guò),Anthropic因?yàn)樘幵趯?duì)抗OpenAI的關(guān)鍵位置上,因此在一定程度上不會(huì)受到這種壓力的影響。
但值得注意的是,Anthropic到2024年底的預(yù)計(jì)收入只有不到10億美元,僅僅是OpenAI的「零頭」。
第三,盡管客戶群在不斷增長(zhǎng),包括Bridgewater、Brave、Slack和DuckDuckGo等家喻戶曉的品牌,但它仍然缺乏一定的企業(yè)知名度。正如最近與普華永道合作向企業(yè)轉(zhuǎn)售生成式AI產(chǎn)品的是OpenAI,而不是Anthropic。
對(duì)此,Anthropic正在采取一種戰(zhàn)略性且成熟的方法來(lái)開(kāi)擴(kuò)市場(chǎng)——將更多的研發(fā)投入到像Claude 3.5 Sonnet這樣的產(chǎn)品上,從而在市場(chǎng)價(jià)格下提供稍好的性能。
可以看到,Claude 3.5 Sonnet的定價(jià)與Claude 3 Sonnet相同:每百萬(wàn)個(gè)輸入模型的token收費(fèi)3美元,每百萬(wàn)個(gè)模型生成的token收費(fèi)15美元。
最后,Claude 3.5 Sonnet雖然沒(méi)有解決大模型的「幻覺(jué)」問(wèn)題,但它可能足夠有吸引力,讓開(kāi)發(fā)者和企業(yè)轉(zhuǎn)向Anthropic的平臺(tái)。而這才是Anthropic關(guān)心的。
為此,Anthropic加大了對(duì)工具的投入,比如:
- 實(shí)驗(yàn)性的引導(dǎo)AI,允許開(kāi)發(fā)者「引導(dǎo)」模型的內(nèi)部特性;
- 集成使其模型能夠在應(yīng)用程序中執(zhí)行操作;
- 基于模型構(gòu)建的工具,比如最新的Artifacts。
此外,它還聘請(qǐng)了一位Instagram聯(lián)合創(chuàng)始人擔(dān)任產(chǎn)品負(fù)責(zé)人。
總體來(lái)說(shuō),Anthropic似乎已經(jīng)意識(shí)到,圍繞模型構(gòu)建一個(gè)生態(tài)系統(tǒng),而不僅僅是孤立的模型,是保持客戶的關(guān)鍵,因?yàn)槟P椭g的能力差距正在縮小。
最后,讓我們拭目以待吧。