出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
深夜,OpenAI最強(qiáng)對(duì)手Anthropic一口氣發(fā)布了三個(gè)SOTA新品,其中包括:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。業(yè)界驚呼:Claude 3帶來(lái)了一系列的新的行業(yè)基準(zhǔn)。
其中,Opus寓意史詩(shī)級(jí)樂(lè)章,Sonnet是十四行詩(shī),Haiku是俳句,三行短詩(shī)。
據(jù)悉(圖9),Haiku是AI市場(chǎng)上速度最快且最具成本效益的型號(hào)。它可以在不到三秒的時(shí)間內(nèi)閱讀 arXiv上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k tokens)。
圖8,對(duì)于絕大多數(shù)工作負(fù)載,Sonnet的速度比Claude 2和 Claude 2.1快2倍,且智能水平更高。它擅長(zhǎng)執(zhí)行需要快速響應(yīng)的任務(wù),例如知識(shí)檢索或銷售自動(dòng)化。Opus 的速度與 Claude 2 和2.1相似,但智能水平更高。
Opus 是目前Anthropic最智能的模型,在人工智能系統(tǒng)的大多數(shù)常見(jiàn)評(píng)估基準(zhǔn)上都優(yōu)于同行,包括本科水平專家知識(shí) (MMLU)、研究生水平專家推理 (GPQA)、基礎(chǔ)數(shù)學(xué) (GSM8K) 等。它在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性,引領(lǐng)通用智能的前沿。
以上三個(gè)Claude 3模型都顯示出在分析和預(yù)測(cè)、細(xì)致內(nèi)容創(chuàng)建、代碼生成以及西班牙語(yǔ)、日語(yǔ)和法語(yǔ)等非英語(yǔ)語(yǔ)言對(duì)話方面的更強(qiáng)的能力。
此外,Claude 3 系列擁有近乎完美的記憶能力和超長(zhǎng)文本窗口,將提供 200K 上下文窗口。而且能夠接受超過(guò) 100 萬(wàn)個(gè)tokens的輸入,后續(xù)會(huì)按客戶需求逐步放開(kāi)。
整體上看,Claude3,有三個(gè)震撼之處:
1.領(lǐng)域?qū)<业幕鶞?zhǔn)。分別選擇了金融/醫(yī)學(xué)/哲學(xué)三個(gè)專家領(lǐng)域來(lái)作為測(cè)試基準(zhǔn),英偉達(dá)Research Manager Jim Fan稱“建議所有的LLM都遵循這一點(diǎn),以便不同的下游應(yīng)用程序知道會(huì)發(fā)生什么”。
2.拒絕率分析。LLM對(duì)許多“無(wú)辜問(wèn)題”做出了過(guò)于謹(jǐn)慎的回答成為了一種流行病,Claude一直致力于安全的AI研究,并做出了該方面的努力。
3.與其他領(lǐng)先模型相媲美的復(fù)雜視覺(jué)功能??梢蕴幚砀鞣N視覺(jué)格式,包括照片、圖表、圖形和技術(shù)圖表,PDF、流程圖或演示幻燈片皆可。
實(shí)際測(cè)評(píng)如何?
一位網(wǎng)友分別讓GPT4、Claude3編寫(xiě)一個(gè)登陸界面的代碼,實(shí)際運(yùn)行測(cè)試效果(圖13)顯示,后者在App界面設(shè)計(jì)方面更加出色。
圖1
圖2
圖3
圖4
圖5
圖6
圖7
圖8
圖9
圖10
圖11
圖12
圖13
圖14
圖15