人工智能代理工作流如何推動(dòng)比下一代基礎(chǔ)模型更大的進(jìn)步
Zero-Shot提示的局限性
在日前舉辦的Snowflake數(shù)據(jù)云峰會(huì)上,LandingAI公司創(chuàng)始人兼首席執(zhí)行官Andrew Ng博士進(jìn)行精彩的演講。他分享了他對(duì)人工智能代理工作流程的潛力的見解,以徹底改變?nèi)斯ぶ悄茴I(lǐng)域。Andrew Ng博士認(rèn)為,這些迭代的、多步驟的方法可能會(huì)比開發(fā)更強(qiáng)大的基礎(chǔ)語(yǔ)言模型帶來(lái)更大的進(jìn)步。
傳統(tǒng)的語(yǔ)言模型,例如GPT-3.5和GPT-4,已經(jīng)在零提示方面展示了非凡的能力,其中模型根據(jù)單個(gè)提示生成輸出,而無(wú)需任何修改。然而,這種方法類似于要求一個(gè)人從頭到尾寫一篇文章,不允許他們退格或做任何編輯。盡管結(jié)果令人印象深刻,但這種方法也有局限性。
代理工作流的承諾
相比之下,代理工作流使人工智能模型能夠以更迭代和類似人類的方式解決問(wèn)題。這些工作流允許模型將任務(wù)分解為更小的步驟,收集信息,生成草稿,然后修改和改進(jìn)其工作。這種方法在編碼和計(jì)算機(jī)視覺應(yīng)用中都顯示出重大的前景。
Andrew Ng博士展示了比較GPT-3.5和GPT-4在Human Eval編碼基準(zhǔn)上的性能的數(shù)據(jù)。雖然GPT-4在零射擊提示方面優(yōu)于GPT-3.5,但真正的突破是將GPT-3.5包裹在代理工作流中。這種組合獲得了與GPT-4相當(dāng)?shù)慕Y(jié)果,表明迭代過(guò)程可能與底層模型的能力一樣重要。
Landing AI的視覺代理
Landing AI最近開源了它的視覺代理(Vision Agent),展示了代理工作流程在計(jì)算機(jī)視覺任務(wù)中的潛力。通過(guò)提供提示,例如“計(jì)算這段沖浪視頻中與鯊魚的距離”,視覺代理可以生成一系列指令,檢索必要的工具(函數(shù)),并生成代碼來(lái)分析視頻并輸出所需的結(jié)果。
視覺代理由兩個(gè)組件組成:代碼代理和測(cè)試代理。代碼代理首先運(yùn)行計(jì)劃器來(lái)分解任務(wù),檢索所需工具的詳細(xì)描述,然后生成代碼。然后,測(cè)試代理為生成的代碼編寫測(cè)試,執(zhí)行測(cè)試,并向代碼代理提供反饋以進(jìn)一步細(xì)化。
例子和限制
Andrew Ng通過(guò)幾個(gè)例子展示了Vision Agent的能力,包括分析一段車禍視頻,突出顯示閉路電視鏡頭中有趣的部分,以及在圖像中檢測(cè)蒙面和未蒙面的人員。雖然視覺代理并不完美,有時(shí)會(huì)遺漏對(duì)象或需要及時(shí)改進(jìn),但它展示了代理工作流程的潛力,可以簡(jiǎn)化復(fù)雜的計(jì)算機(jī)視覺任務(wù)。
代理工作流的含義超出了編碼和計(jì)算機(jī)視覺。通過(guò)使人工智能模型能夠計(jì)劃、研究、生成和修改其輸出,這些工作流程可以在自然語(yǔ)言處理、數(shù)據(jù)分析和創(chuàng)造性應(yīng)用等各個(gè)領(lǐng)域取得重大進(jìn)展。
人工智能發(fā)展的未來(lái)
隨著人工智能的不斷發(fā)展,探索能夠釋放這些技術(shù)全部潛力的新方法至關(guān)重要。雖然像GPT-4這樣的基礎(chǔ)模型已經(jīng)突破了可能的界限,但代理工作流可能是推動(dòng)該領(lǐng)域取得更大進(jìn)展的關(guān)鍵。
Andrew Ng的演講呼吁開發(fā)人員和研究人員采取行動(dòng),擁抱代理工作流并為其發(fā)展做出貢獻(xiàn)。通過(guò)協(xié)作和構(gòu)建開源項(xiàng)目,例如LandingAI的Vision Agent,AI社區(qū)可以加速采用和改進(jìn)這些強(qiáng)大的技術(shù)。
總之,Andrew Ng博士在DevDay上的演講強(qiáng)調(diào)了人工智能代理工作流程在推動(dòng)人工智能進(jìn)步方面的巨大潛力,甚至可能超過(guò)下一代基礎(chǔ)模型的影響。通過(guò)使人工智能模型能夠以更迭代和類似人類的方式解決問(wèn)題,這些工作流程可能會(huì)在編碼、計(jì)算機(jī)視覺等方面取得突破。隨著人工智能社區(qū)繼續(xù)探索和完善這些方法,可能正處于人工智能新時(shí)代的風(fēng)口上,這個(gè)時(shí)代有望改變行業(yè),重塑我們對(duì)人工智能可能性的理解。