人人可做提示工程師!Claude上新:一鍵生成、測試和評估prompt
在構(gòu)建 AI 應(yīng)用時(shí),prompt 質(zhì)量對結(jié)果有著重大影響。但制作高質(zhì)量的 prompt 具有挑戰(zhàn)性,需要研究者深入了解應(yīng)用需求,并具備大型語言模型方面的專業(yè)知識。為了加快開發(fā)速度并改善結(jié)果,AI 初創(chuàng)公司 Anthropic 簡化了此流程,可以讓用戶更輕松地制作高質(zhì)量的 prompt。
具體來說,研究者為 Anthropic Console 添加了新功能,可以生成、測試和評估 prompt。
Anthropic 提示工程師 Alex Albert 表示:這是他們過去幾周投入了大量工作才得到的成果,現(xiàn)在 Claude 在提示工程(Prompt Engineering)方面表現(xiàn)得非常好。
難寫的 prompt,交給 Claude
在 Claude 中,寫一個(gè)好的 prompt 就像描述任務(wù)一樣簡單。控制臺提供了一個(gè)內(nèi)置的 prompt 生成器,由 Claude 3.5 Sonnet 提供支持,允許用戶描述任務(wù)并讓 Claude 生成高質(zhì)量的 prompt。
生成 prompt。首先點(diǎn)擊 Generate Prompt,進(jìn)入 prompt 生成界面:
然后輸入任務(wù)描述,Claude 3.5 Sonnet 將把任務(wù)描述轉(zhuǎn)換為高質(zhì)量的 prompt。例如「 撰寫一個(gè)用于審查入站消息的 prompt…… 」,點(diǎn)擊生成 prompt 就可以了。
生成測試數(shù)據(jù)。如果用戶有了 prompt,可能需要一些測試用例來運(yùn)行它。Claude 可以生成那些測試用例。
用戶可以根據(jù)需要修改測試用例,并一鍵運(yùn)行所有測試用例,還可以查看并調(diào)整 Claude 對每個(gè)變量生成要求的理解,以實(shí)現(xiàn)對 Claude 生成測試用例更細(xì)粒度的控制。
這些功能讓優(yōu)化 prompt 變得容易,因?yàn)橛脩艨梢詣?chuàng)建 prompt 的新版本并重新運(yùn)行測試套件以快速迭代和改進(jìn)結(jié)果。
此外,Anthropic 還按照 5 分制為 Claude 響應(yīng)質(zhì)量設(shè)置了評分。
評估模型。如果用戶對 prompt 感到滿意,之后可以在「評估」選項(xiàng)卡中一次針對各種測試用例運(yùn)行它。用戶可以從 CSV 導(dǎo)入測試數(shù)據(jù),也可以直接使用 Claude 為用戶生成合成測試數(shù)據(jù)。
比較。用戶還可以在測試用例中相互測試多個(gè) prompt,并對更好的響應(yīng)進(jìn)行評分,以跟蹤哪個(gè) prompt 表現(xiàn)最佳。
AI 博主 @elvis 表示:Anthropic Console 是一項(xiàng)出色的研究,其自動化設(shè)計(jì)和優(yōu)化 prompt 的過程可以節(jié)省大量時(shí)間。雖然生成的提示可能并不完美,但給了用戶一個(gè)快速迭代的起點(diǎn)。此外,生成測試用例功能也很有幫助,因?yàn)殚_發(fā)者可能沒有可供測試的數(shù)據(jù)。
看來,以后寫 prompt 這個(gè)活,可以交給 Anthropic 了。
了解更多內(nèi)容,請查看文檔:https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview