偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="ldowh"></ruby>

<tt id="ldowh"></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

300美元平替ChatGPT！斯坦福130億參數(shù)「小羊駝」誕生

作者：新智元 2023-03-31 13:55:00

人工智能新聞

繼Alpaca 后，斯坦福聯(lián)手CMU、UC伯克利等機構(gòu)的學(xué)者再次發(fā)布了130億參數(shù)模型駱馬（Vicuna），僅需300美元就能實現(xiàn)ChatGPT 90%的性能。

繼Meta的LLaMA模型開源后，AI界研究人員就在這個模型基礎(chǔ)上衍生出許多版本。

前段時間，斯坦福發(fā)布了Alpaca，是由Meta的LLaMA 7B微調(diào)而來，僅用了52k數(shù)據(jù)，性能可以與GPT-3.5匹敵。

今天，斯坦福學(xué)者聯(lián)手CMU、UC伯克利等，再次推出一個全新模型——130億參數(shù)的Vicuna，俗稱「小羊駝」（駱馬）。

Vicuna是通過在ShareGPT收集的用戶共享對話上對LLaMA進(jìn)行微調(diào)訓(xùn)練而來，訓(xùn)練成本近300美元。

研究人員設(shè)計了8個問題類別，包括數(shù)學(xué)、寫作、編碼，對Vicuna-13B與其他四個模型進(jìn)行了性能測試。

測試過程使用GPT-4作為評判標(biāo)準(zhǔn)，結(jié)果顯示Vicuna-13B在超過90%的情況下實現(xiàn)了與ChatGPT和Bard相匹敵的能力。

同時，在在超過90%的情況下勝過了其他模型，如LLaMA和斯坦福的Alpaca。

團隊成員來自加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、加州大學(xué)圣地亞哥分校和本·扎耶德人工智能大學(xué)。

90%匹敵ChatGPT

研究人員讓斯坦福的Alpaca和Vicuna來了一輪大比拼，分別對基準(zhǔn)問題回答進(jìn)行了演示。

在使用70K用戶共享的ChatGPT對話數(shù)據(jù)對Vicuna進(jìn)行微調(diào)后，研究發(fā)現(xiàn)Vicuna能夠生成比Alpaca更詳細(xì)、結(jié)構(gòu)更合理的答案。

問：寫一篇關(guān)于最近去夏威夷旅行的有趣的旅游博客文章，強調(diào)文化體驗和必看景點。

Alpaca的回答可以說是一個濃縮版，短短幾行就寫完了，沒有按照要求完成任務(wù)。它僅是提到了自己寫了一篇博客，并對博客內(nèi)容做了一個概述。

再來看Vicuna，撰寫了一篇詳細(xì)且引人入勝的旅行博客文章，不僅內(nèi)容有趣，還詳細(xì)地介紹了夏威夷的文化體驗和必看景點。

由此，讓GPT-4給打分，Alpaca7分，Vicuna滿分。

那么和ChatGPT對打，Vicuna的表現(xiàn)又如何呢？

兩者雙雙得了9分！

可以看到，這兩個模型提供一次夏威夷之旅的文章不僅引人入勝，而且文筆流暢。

另外，兩個回答中的詳細(xì)程度和準(zhǔn)確性都很出色，而且兩個模型都有效地傳達(dá)了夏威夷之旅的興奮和美麗。

此外，研究人員還將Vicuna與LLaMA，以及谷歌的Bard模型進(jìn)行了測試，測試結(jié)果顯示，LLaMA表現(xiàn)最差（1分），幾乎沒有回應(yīng)。

Bard回答的準(zhǔn)確性和相關(guān)性也是比較高，有9分的成績，但是在更具吸引力回答方面，略低于Vicuna。

除了寫作，研究人員在編碼、數(shù)學(xué)、角色扮演、常識等方面分別對Vicuna模型與其他四個模型的能力進(jìn)行了對比，總共80道題。

最后，研究人員基于GPT-4的初步評估總結(jié)如圖所示?？梢钥吹?，Vicuna達(dá)到了Bard/ChatGPT的90%以上的能力。

由GPT-4評估的相對響應(yīng)質(zhì)量

有趣的是，在這次Vicuna的demo中，團隊還加入了Alpaca和LLaMA的試用，而前者剛被關(guān)閉不久。

Demo地址：https://chat.lmsys.org/

模型介紹

ChatGPT橫空出世讓人興奮不已，但OpenAI不Open的事實讓圈內(nèi)人實在懊惱。

恰恰，Meta的LLaMA模型開源，為許多研究人員動手研發(fā)自己的模型提供了選擇。

Vicuna-13B誕生正是受到LLaMA和斯坦福Alpaca項目的啟發(fā)。這是一個基于增強數(shù)據(jù)集和易于使用、可擴展的基礎(chǔ)設(shè)施的開源聊天機器人。

該模型的訓(xùn)練數(shù)據(jù)來自于ShareGPT收集的用戶分享的對話，然后研究人員通過對LLaMA基本模型進(jìn)行微調(diào)，Vicuna-13B就誕生了。

Vicuna-13B展示了與其他開源模型（如斯坦福Alpaca）相媲美的性能。

研究人員對Vicuna-13B的性能進(jìn)行了初步評估，并描述了其訓(xùn)練和服務(wù)基礎(chǔ)設(shè)施。

同時，這一模型演示demo已經(jīng)上線，所有研究人員都能參與在線演示互動，以測試這個聊天機器人的能力。

工作流程概述

對于Vicuna-13B訓(xùn)練流程，具體如下：

首先，研究人員從ChatGPT對話分享網(wǎng)站ShareGPT上，收集了大約70K對話。

接下來，研究人員優(yōu)化了Alpaca提供的訓(xùn)練腳本，使模型能夠更好地處理多輪對話和長序列。之后利用PyTorch FSDP在8個A100 GPU上進(jìn)行了一天的訓(xùn)練。

在模型的質(zhì)量評估方面，研究人員創(chuàng)建了80個不同的問題，并用GPT-4對模型輸出進(jìn)行了評價。

為了比較不同的模型，研究人員將每個模型的輸出組合成一個單獨的提示，然后讓GPT-4評估哪個模型給出的回答更好。

LLaMA、Alpaca、Vicuna和ChatGPT的對比

訓(xùn)練

Vicuna是通過使用來自ShareGPT公共API收集的約70K用戶分享對話數(shù)據(jù)微調(diào)創(chuàng)建的。

為了確保數(shù)據(jù)質(zhì)量，研究人員將HTML轉(zhuǎn)換回markdown，并過濾掉一些不適當(dāng)或質(zhì)量較低的樣本。

另外，研究人員將較長的對話劃分為較小的片段，以適應(yīng)模型的最大上下文長度。

Vicuna的訓(xùn)練方法建立在斯坦福的Alpaca基礎(chǔ)上，并進(jìn)行了以下改進(jìn)：

內(nèi)存優(yōu)化：

為了使Vicuna能夠理解長上下文，將最大上下文長度從Alpaca的512擴展到2048，這大大增加了GPU內(nèi)存需求。在此，研究人員通過使用梯度檢查點和閃存注意力來解決內(nèi)存壓力。

多輪對話：

通過調(diào)整訓(xùn)練損失以考慮多輪對話，并僅在聊天機器人的輸出上計算微調(diào)損失。

通過Spot實例降低成本：

40倍的數(shù)據(jù)集和4倍的序列長度對訓(xùn)練帶來了相當(dāng)大的挑戰(zhàn)。研究人員采用SkyPilot托管的Spot實例來降低成本，通過利用自動恢復(fù)搶占與自動區(qū)域切換進(jìn)而減少成本。

這種解決方案將7B模型的訓(xùn)練成本從500美元降低到約140美元，將13B模型的訓(xùn)練成本從約1000美元降低到300美元。

評估

評估AI聊天機器人是一項具有挑戰(zhàn)性的任務(wù)，因為它需要檢查語言理解、推理和上下文意識。隨著AI聊天機器人變得越來越先進(jìn)，現(xiàn)有的開放基準(zhǔn)可能不再足夠。

例如，斯坦福Alpaca中使用的評估數(shù)據(jù)集self-instruct，可以被SOTA聊天機器人有效地回答，這使得人類難以分辨性能差異。更多的限制包括訓(xùn)練/測試數(shù)據(jù)污染和創(chuàng)建新基準(zhǔn)的潛在高成本。

為了解決這些問題，研究人員提出了一個基于GPT-4的評估框架，從而實現(xiàn)對聊天機器人性能的自動評估。

首先，通過精心設(shè)計的提示，讓GPT-4能夠生成多樣化且具有挑戰(zhàn)性的問題。并利用8個不同類別共80道題，如角色扮演、編碼/數(shù)學(xué)任務(wù)等，來測試這些模型（LLaMA、Alpaca、ChatGPT、Bard和Vicuna）在不同領(lǐng)域上表現(xiàn)出的性能。

然后，研究人員要求GPT-4根據(jù)幫助程度、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)對答案的質(zhì)量進(jìn)行評分。結(jié)果顯示，GPT-4不僅可以產(chǎn)生相對一致的分?jǐn)?shù)，還可以提供詳細(xì)的解釋來說明為什么給出這樣的分?jǐn)?shù)。但是，GPT-4并不擅長評判編碼/數(shù)學(xué)任務(wù)。

由GPT-4評估的響應(yīng)比較

GPT-4在超過90%的問題中更喜歡Vicuna，而不是現(xiàn)有的SOTA開源模型（LLaMA、Alpaca）。

在45%的問題中，GPT-4認(rèn)為Vicuna的回答和ChatGPT差不多甚至更好。

綜合來看，Vicuna在總分上達(dá)到ChatGPT的92%。

局限

研究人員指出，與其他大語言模型類似，Vicuna也存在著一定的局限性。

比如，Vicuna在涉及編程、推理、數(shù)學(xué)以及事實準(zhǔn)確性的任務(wù)上表現(xiàn)不佳。

此外，它也沒有經(jīng)過充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。

為解決安全方面的問題，研究人員在demo中采用了OpenAI的審查API來過濾掉不適當(dāng)?shù)挠脩糨斎搿?/span>

剩下的名字不多了

現(xiàn)在，除了美洲駝（LLaMA），羊駝（Alpaca），駝馬（Vicuna）都安排上了。

研究人員要趕快沖，因為留給你們的名字不多了（1個）。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<table id="pf6nd"></table>

<style id="pf6nd"><span id="pf6nd"></span></style>

<table id="pf6nd"><strong id="pf6nd"></strong></table>

<pre id="pf6nd"><b id="pf6nd"></b></pre>