編碼數(shù)學(xué)擊敗GPT4-Turbo!DeepSeek-Coder-v2登頂競技場最強(qiáng)開源編碼模型
就在剛剛,競技場排名再次刷新:
深度求索DeepSeek-Coder-v2成競技場最強(qiáng)開源編碼模型!
它在Coding Arena中已攀升至第4名,水平接近GPT-4-Turbo。
在編碼領(lǐng)域的整體性能評估中,DeepSeek-Coder-v2的評分和穩(wěn)定性均位于前10,超越智譜GLM-4、Llama-3等一眾知名開源模型。
據(jù)了解,完全開源的DeepSeek-Coder-v2現(xiàn)提供236B和16B兩種參數(shù)規(guī)模,支持338種編程語言和128K上下文長度。
而且就在Claude 3.5 Sonnet發(fā)布同日,深度求索官網(wǎng)的代碼助手也第一時間上線了和“Artifacts”類似的功能(自動生成代碼并直接在瀏覽器上運行)。
比如由DeepSeek-Coder-v2直接生成經(jīng)典游戲——掃雷。
(提示詞:用html實現(xiàn)復(fù)雜一點的掃雷游戲,數(shù)字顏色分明,有計時,有重啟按鈕)
再比如設(shè)計網(wǎng)頁:
總之,DeepSeek-Coder-v2尤為擅長編碼和數(shù)學(xué)。
編碼、數(shù)學(xué)擊敗GPT4-Turbo
深度求索于上周發(fā)布了DeepSeek-Coder-v2,它在編碼和數(shù)學(xué)方面擊敗了GPT4-Turbo。
在Arena-Hard-Auto排行榜上,DeepSeek-Coder-v2超過了Yi-large、Claude3-Opus、GLM-4 和Qwen2-72B。
同時,DeepSeek-Coder-v2還具有良好的通用性能,在推理和中英通用能力上位列國內(nèi)第一梯隊。
當(dāng)時甚至有網(wǎng)友怒贊:
DeepSeek-Coder-v2目前位居Aider代碼編輯排行榜榜首(僅用了4天),領(lǐng)先于GPT-4o和Opus。
它的基準(zhǔn)測試結(jié)果甚至比DeepSeek官方圖表中顯示的更好。
而現(xiàn)在,僅過去一周時間,DeepSeek-Coder-v2正式登頂競技場最強(qiáng)開源編碼模型。
隨著這一登頂,其背后的公司深度求索再次引人關(guān)注。
老實說,這家公司一直很有看點。
與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,深度求索由一家搞私募量化的投資基金發(fā)起。
當(dāng)同行都在尋找AI應(yīng)用落地時,深度求索卻喊出了“不做應(yīng)用做研究”的口號。
短短半年時間,它發(fā)布并開源了多個百億級參數(shù)的大模型。
甚至僅憑一己之力點燃了大模型價格戰(zhàn)的第一把火。
具體啥情況?接下來一起扒一扒。
“價格戰(zhàn)導(dǎo)火索”深度求索
深度求索由知名私募巨頭幻方量化于2023年4月創(chuàng)立。
早在2019年,幻方就發(fā)布了自研深度學(xué)習(xí)訓(xùn)練平臺“螢火一號”。
據(jù)稱該項目總投資近2億元,共搭載了1100塊GPU。
后來“螢火一號”升級為“二號”,搭載的GPU數(shù)則達(dá)到了約1萬張。
這意味著,單從算力看,幻方甚至比很多大廠都更早拿到了做ChatGPT的入場券。
去年11月,深度求索發(fā)布第一代大模型DeepSeek Coder,免費商用,完全開源。
緊接著12月,它又發(fā)布了參數(shù)670億的DeepSeek,主打發(fā)布即開源。
今年5月初,深度求索宣布開源第二代MoE大模型DeepSeek-V2。
沒錯,就是那個“性能比肩GPT-4 Turbo,價格卻只有GPT-4僅百分之一”的模型。
DeepSeek-V2推出后,深度求索一度被AI圈稱作“價格屠夫”,被認(rèn)為是引爆大模型價格戰(zhàn)的導(dǎo)火索之一。
此外,它還推出了專為視覺與語言理解應(yīng)用設(shè)計的DeepSeek-VL系列大模型。
總之,這家公司一直被視為一匹可能改變國內(nèi)AI市場格局的“黑馬”。
Anthropic聯(lián)合創(chuàng)始人Jack Clark曾表示:
DeepSeek組建了一支團(tuán)隊,他們對訓(xùn)練雄心勃勃的模型所需的基礎(chǔ)設(shè)施有著深刻的理解。中國制造也將成為AI模型的發(fā)展趨勢。
最后,面對競技場最新排名,網(wǎng)友們紛紛猜測新王Claude 3.5 Sonnet在編碼上究竟表現(xiàn)如何?
競技場:在更了!在更了!
開源地址:https://huggingface.co/collections/deepseek-ai/deepseekcoder-v2-666bf4b274a5f556827ceeca