偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

「中杯」Claude 3.5突然上線，竟比GPT-4o還強(qiáng)！全新Artifacts改寫(xiě)模型交互

作者：新智元 2024-06-21 09:57:00

人工智能新聞

Anthropic曾許下要超越OpenAI的發(fā)家愿望，沒(méi)想到竟然這么快就實(shí)現(xiàn)了。他們剛剛發(fā)布的Claude 3.5 Sonnet模型不僅成本更低、速度更快，而且在基準(zhǔn)測(cè)試上的表現(xiàn)「彎道超車(chē)」GPT-4o。

繼今年3月發(fā)布Claude 3之后，Anthropic在半年時(shí)間里又上新了！

就在今天，Claude 3.5 Sonnet發(fā)布，作為即將推出的Claude 3.5模型家族的「排頭兵」，而且已經(jīng)面向全球開(kāi)啟免費(fèi)試用。

具體來(lái)說(shuō)， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多項(xiàng)評(píng)測(cè)中超過(guò)了OpenAI最強(qiáng)的GPT-4o，以及自家的Claude 3 Opus。

與此同時(shí)，Claude 3.5 Sonnet還保持著中等規(guī)模的模型所具有的速度和成本優(yōu)勢(shì)。

其中，在費(fèi)用方面，Claude 3.5 Sonnet處理每百萬(wàn)輸入token僅需3美元，每百萬(wàn)輸出token則為15美元。（與前代相同）

用戶可以在Claude.ai和Claude iOS應(yīng)用程序上免費(fèi)體驗(yàn)，如果訂閱了Claude Pro和團(tuán)隊(duì)計(jì)劃，則可以享受更高的速率；此外，還可以通過(guò)Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速，成本僅1/5

Claude 3.5 Sonnet雖然在零樣本MATH和MMLU評(píng)測(cè)中小幅落后GPT-4o，但在研究生級(jí)推理（GPQA）、本科級(jí)知識(shí)（MMLU）和編碼能力（HumanEval）上，毋庸置疑地刷新了SOTA——

不僅大幅領(lǐng)先自家的前代老大哥Claude 3 Opus，而且還完成了對(duì)谷歌Gemini 1.5 Pro和Meta 4000億參數(shù)的Llama（早期預(yù)覽版）的全面超越。

它在理解細(xì)微差別、幽默和復(fù)雜指令方面有顯著提升，并且能夠用自然、貼近生活的語(yǔ)調(diào)撰寫(xiě)高質(zhì)量?jī)?nèi)容。

在運(yùn)行速度方面，Claude 3.5 Sonnet也是Claude 3 Opus的兩倍。

這種性能提升，再加上高性價(jià)比，使Claude 3.5 Sonnet非常適合處理復(fù)雜任務(wù)，如上下文敏感的客戶支持和多步驟工作流程的協(xié)調(diào)。

在內(nèi)部的智能體編碼評(píng)估中，Claude 3.5 Sonnet解決了64%的問(wèn)題，優(yōu)于Claude 3 Opus的38%。

結(jié)果顯示，在指令和相關(guān)工具的支持下，Claude 3.5 Sonnet可以獨(dú)立編寫(xiě)、編輯和執(zhí)行代碼，具備復(fù)雜的推理和故障排除能力。

尤其是，它能夠輕松處理代碼翻譯，因此在更新遺留應(yīng)用程序和遷移代碼庫(kù)方面效果極佳。

視覺(jué)能力超越GPT-4o

在視覺(jué)方面，Claude 3.5 Sonnet也是Anthropic迄今為止推出的最強(qiáng)大模型，不僅明顯優(yōu)于Claude 3 Opus和Gemini 1.5 Pro，而且在大部分測(cè)試中也都超過(guò)了GPT-4o。

這些改進(jìn)在需要視覺(jué)推理的任務(wù)中尤為明顯，例如解釋圖表和圖形。

不僅如此，Claude 3.5 Sonnet還可以準(zhǔn)確地從不完美的圖像中轉(zhuǎn)錄文本——這是零售、物流和金融服務(wù)領(lǐng)域的核心能力。

在這些領(lǐng)域里，AI從圖像、圖形或插圖中獲得的信息往往要比單純的文本來(lái)得更多。

基準(zhǔn)測(cè)試中體現(xiàn)的這種強(qiáng)大視覺(jué)能力如何落實(shí)到現(xiàn)實(shí)應(yīng)用中呢？下面這個(gè)demo給你答案。

像GPT-4o、Gemini這些模型雖然理解圖像和視頻的能力很強(qiáng)，但一般只能生成文字的描述內(nèi)容，在這方面我們?nèi)祟愶@然更擅長(zhǎng)，能比模型做得更快更好。

但Claude不僅能準(zhǔn)確識(shí)別、轉(zhuǎn)錄圖像中的文字內(nèi)容，還結(jié)合了強(qiáng)大的代碼生成能力，多個(gè)模態(tài)真正集成在一起。

看一眼圖片，立刻識(shí)別信息生成JSON文件，手速絕對(duì)快過(guò)任何程序員。

還能通過(guò)編碼制造交互式圖表，代碼直接可運(yùn)行，數(shù)據(jù)也絲毫不差。

不僅僅是代碼，根據(jù)圖片信息生成的網(wǎng)頁(yè)也是圖文并茂、界面精美。原本需要一晚上才能搞定的工作量，Claude幫你5分鐘內(nèi)趕上DDL。

領(lǐng)域?qū)＜易顬殓姁?ài)

在附帶的報(bào)告中，Anthropic還補(bǔ)充了一些其他測(cè)試的結(jié)果。

報(bào)告地址：https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf

表4展示了Claude 3.5 Sonnet在「拒絕請(qǐng)求」時(shí)的表現(xiàn)。

這里，團(tuán)隊(duì)使用的而是Wildchat和XSTest數(shù)據(jù)集進(jìn)行測(cè)試，從而衡量模型在面對(duì)無(wú)害提示時(shí)避免不必要的拒絕，同時(shí)在面對(duì)有害內(nèi)容時(shí)保持適當(dāng)?shù)闹?jǐn)慎。

可以看到，Claude 3.5 Sonnet在這兩個(gè)維度上都優(yōu)于Opus：它的錯(cuò)誤拒絕更少，正確拒絕更多。

表5、圖1和圖2展示了Claude 3.5 Sonnet在「大海撈針」任務(wù)中的表現(xiàn)。

可以看到，Claude 3.5 Sonnet和Claude 3 Opus的性能幾乎不相上下，但在平均召回率方面Claude 3.5 Sonnet還是要略勝一籌。

此外，從下表中能更清晰地看到，Claude 3.5 Sonnet在所有文本長(zhǎng)度和200K長(zhǎng)上下文之間，召回率居然沒(méi)有出現(xiàn)明顯滑落，這是包括Opus在內(nèi)的所有前代模型的突破。

在基于人類反饋的評(píng)估方面，團(tuán)隊(duì)把從Claude 2.1開(kāi)始的所有模型都拉了出來(lái)。

其中，人類評(píng)審需要與模型進(jìn)行對(duì)話，并根據(jù)任務(wù)特定的指令對(duì)其進(jìn)行評(píng)估。

圖3展示了與Claude 3 Opus基線相比的「勝率」（win rate）。

可以看到， Claude 3.5 Sonnet不僅在編碼、文檔、創(chuàng)意寫(xiě)作和視覺(jué)等核心能力上有著顯著的改進(jìn)，而且領(lǐng)域?qū)＜覀円哺酉矚g——在法律領(lǐng)域的勝率高達(dá)82%，在金融領(lǐng)域?yàn)?3%，在哲學(xué)領(lǐng)域?yàn)?3%。

Artifacts：讓團(tuán)隊(duì)實(shí)現(xiàn)無(wú)縫協(xié)作

除了模型的更新之外，Anthropic還Claude.ai上推出了一項(xiàng)全新功能——Artifacts，擴(kuò)展了用戶與Claude互動(dòng)的方式。

具體來(lái)說(shuō)，當(dāng)用戶要求Claude生成代碼片段、文本文檔或網(wǎng)站設(shè)計(jì)等內(nèi)容時(shí)，只需要一鍵點(diǎn)擊，這些Artifacts會(huì)出現(xiàn)在對(duì)話旁邊的專用窗口中。

這樣就創(chuàng)建了一個(gè)動(dòng)態(tài)工作空間，用戶可以實(shí)時(shí)查看、編輯并基于Claude的創(chuàng)作進(jìn)行構(gòu)建，將AI生成的內(nèi)容無(wú)縫集成到他們的項(xiàng)目和工作流程中。

這個(gè)功能的添加，大大增強(qiáng)了Claude在復(fù)雜項(xiàng)目中的可用性。

比如想要?jiǎng)?chuàng)建一個(gè)交互式的游戲界面，你很難在一次對(duì)話中描述清楚所有的功能與需求。即使描述清楚了，以生成模型目前的能力，未必也能一次得到滿意的結(jié)果。

于是，你可以參考軟件開(kāi)發(fā)的流程，將需求分解為多個(gè)步驟，更方便Claude Sonnet進(jìn)行「漸進(jìn)式開(kāi)發(fā)」和迭代。

比如下面這個(gè)demo中，想要?jiǎng)?chuàng)建一個(gè)游戲，可以先讓模型用SVG格式生成你想要的角色形象。

再把所有這些SVG圖像放在同一個(gè)HTML網(wǎng)頁(yè)中。

最后，規(guī)定好角色名稱和游戲規(guī)則，只需要告訴Claude讓這個(gè)游戲變得「可玩」，不用操心任何代碼細(xì)節(jié)，一個(gè)簡(jiǎn)單的網(wǎng)頁(yè)游戲就制作完成了。

Artifacts的推出，標(biāo)志著Claude從對(duì)話式AI向協(xié)作工作環(huán)境的轉(zhuǎn)變。

當(dāng)然，這還只是一個(gè)開(kāi)始。

不久的將來(lái)，團(tuán)隊(duì)——最終是整個(gè)組織——將能夠在一個(gè)共享空間中安全地集中他們的知識(shí)、文檔和正在進(jìn)行的工作，Claude將作為按需的隊(duì)友提供服務(wù)。

網(wǎng)友：被震撼到了！

模型剛剛發(fā)布，就有早期測(cè)試者發(fā)帖表示「被震撼到了」！

我是Claude 3.5 Sonnet模型的早期測(cè)試者，我對(duì)輸出的一致反應(yīng)是「超神」，模型現(xiàn)在已向所有人開(kāi)放。
Claude 3.5 Sonnet在關(guān)鍵評(píng)估上優(yōu)于競(jìng)爭(zhēng)模型，速度是Claude 3 Opus的兩倍，但成本只有五分之一，能勝任自主編碼和視覺(jué)處理等復(fù)雜任務(wù)，而且可以管理長(zhǎng)文檔，確保 RAG、搜索/檢索以及比較多個(gè)長(zhǎng)文檔等任務(wù)的準(zhǔn)確性。
以及，我個(gè)人使用體驗(yàn)的反饋：從來(lái)不需要跟它說(shuō)「不，你沒(méi)明白我的提示，請(qǐng)執(zhí)行這個(gè)操作」，它就是能理解提示并做到了；Artifact讓我更有效率；文本推理/比較的結(jié)果優(yōu)秀到不可思議。

有網(wǎng)友表示，自己不相信基準(zhǔn)，于是便拿了道真題來(lái)了波實(shí)測(cè)。

結(jié)果不出所料，Claude 3.5 Sonnet很快就做了出來(lái)，而GPT-4o則在一通長(zhǎng)篇大論之后給出了錯(cuò)誤的答案。

Ethan Mollick表示，Anthropic新推出的「Artifacts」用起來(lái)有點(diǎn)類似于簡(jiǎn)化版的代碼解釋器。

下面，就是他用Claude創(chuàng)建并編輯一個(gè)游戲的實(shí)時(shí)視頻。

大局觀

那么Claude 3.5 Sonnet在Anthropic和整個(gè)AI生態(tài)系統(tǒng)中有什么重要意義呢？

首先是性能方面，由于當(dāng)前模型架構(gòu)的固化以及訓(xùn)練所需的巨大計(jì)算量，在沒(méi)有重大研究突破的情況下，我們很難看到從GPT-3到GPT-4那樣的飛躍。

比如，谷歌（Gemini 1.5 Pro）和OpenAI（GPT-4o）發(fā)布的旗艦產(chǎn)品，在基準(zhǔn)測(cè)試和性能方面都只有小幅的提升。

其次，隨著生成式AI廠商將注意力轉(zhuǎn)向數(shù)據(jù)策劃和許可，而不是新的可擴(kuò)展架構(gòu)，投資者似乎對(duì)生成式AI的投資回報(bào)周期比預(yù)期更長(zhǎng)感到擔(dān)憂。

不過(guò)，Anthropic因?yàn)樘幵趯?duì)抗OpenAI的關(guān)鍵位置上，因此在一定程度上不會(huì)受到這種壓力的影響。

但值得注意的是，Anthropic到2024年底的預(yù)計(jì)收入只有不到10億美元，僅僅是OpenAI的「零頭」。

第三，盡管客戶群在不斷增長(zhǎng)，包括Bridgewater、Brave、Slack和DuckDuckGo等家喻戶曉的品牌，但它仍然缺乏一定的企業(yè)知名度。正如最近與普華永道合作向企業(yè)轉(zhuǎn)售生成式AI產(chǎn)品的是OpenAI，而不是Anthropic。

對(duì)此，Anthropic正在采取一種戰(zhàn)略性且成熟的方法來(lái)開(kāi)擴(kuò)市場(chǎng)——將更多的研發(fā)投入到像Claude 3.5 Sonnet這樣的產(chǎn)品上，從而在市場(chǎng)價(jià)格下提供稍好的性能。

可以看到，Claude 3.5 Sonnet的定價(jià)與Claude 3 Sonnet相同：每百萬(wàn)個(gè)輸入模型的token收費(fèi)3美元，每百萬(wàn)個(gè)模型生成的token收費(fèi)15美元。

最后，Claude 3.5 Sonnet雖然沒(méi)有解決大模型的「幻覺(jué)」問(wèn)題，但它可能足夠有吸引力，讓開(kāi)發(fā)者和企業(yè)轉(zhuǎn)向Anthropic的平臺(tái)。而這才是Anthropic關(guān)心的。

為此，Anthropic加大了對(duì)工具的投入，比如：

- 實(shí)驗(yàn)性的引導(dǎo)AI，允許開(kāi)發(fā)者「引導(dǎo)」模型的內(nèi)部特性；

- 集成使其模型能夠在應(yīng)用程序中執(zhí)行操作；

- 基于模型構(gòu)建的工具，比如最新的Artifacts。

此外，它還聘請(qǐng)了一位Instagram聯(lián)合創(chuàng)始人擔(dān)任產(chǎn)品負(fù)責(zé)人。

總體來(lái)說(shuō)，Anthropic似乎已經(jīng)意識(shí)到，圍繞模型構(gòu)建一個(gè)生態(tài)系統(tǒng)，而不僅僅是孤立的模型，是保持客戶的關(guān)鍵，因?yàn)槟Ｐ椭g的能力差距正在縮小。

最后，讓我們拭目以待吧。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="37m8b"><rp id="37m8b"></rp></cite>