盡管我們不知道GPT-5何時(shí)發(fā)布,但是我們依然可以期待一下GPT-5的新功能。
OpenAI的GPT-4目前是市場(chǎng)上最好的生成式AI工具,但這并不意味著我們不展望未來(lái)。隨著OpenAI首席執(zhí)行官Sam Altman定期暗示GPT-5的信息,似乎我們不久將會(huì)看到一個(gè)新的、升級(jí)版的AI模型。
至少,這是我們所希望的。GPT-5沒(méi)有具體的發(fā)布日期,我們所認(rèn)為我們知道的大部分信息都是通過(guò)拼接其他信息來(lái)推測(cè)的。
不過(guò),不管發(fā)布日期是什么時(shí)候,有幾個(gè)關(guān)鍵功能是我們希望在GPT-5發(fā)布時(shí)看到的。
OpenAI的GPT-5是什么?
GPT-5是OpenAI的GPT-4 AI模型備受期待的繼任者,有望成為市場(chǎng)上最強(qiáng)大的生成式模型。目前GPT-5還沒(méi)有官方發(fā)布日期,但有跡象表明它可能最早在2024年夏天發(fā)布。目前關(guān)于這個(gè)模型的細(xì)節(jié)知之甚少,但有幾件事可以相當(dāng)確定地說(shuō):
1.OpenAI已經(jīng)向美國(guó)專利商標(biāo)局申請(qǐng)了這個(gè)名字的商標(biāo)。
2.幾位OpenAI的高管已經(jīng)討論或暗示了模型可能具備的能力。
3.OpenAI首席執(zhí)行官Sam Altman在2024年3月的一次YouTube采訪中與Lex Fridman反復(fù)提到了這個(gè)模型。
這些都指向了一個(gè)令人興奮的現(xiàn)實(shí):GPT-5即將到來(lái)!也就是說(shuō),目前很多東西還是猜測(cè)。但有幾件事我們希望看到,并且相當(dāng)確信會(huì)在模型中看到。以下是其中的一些:
更多模態(tài)性
GPT系列AI模型最令人興奮的改進(jìn)之一就是多模態(tài)性。多模態(tài)性是指AI模型不僅能處理文本,還能處理其他類型的輸入,如圖像、音頻和視頻。多模態(tài)性將是GPT系列模型未來(lái)發(fā)展的重要進(jìn)步基準(zhǔn)。
GPT-4已經(jīng)擅長(zhǎng)處理圖像輸入和輸出,改進(jìn)音頻和視頻處理將是OpenAI的下一個(gè)里程碑,GPT-5是一個(gè)很好的起點(diǎn)。谷歌已經(jīng)在其Gemini AI模型上取得了這方面的重大進(jìn)展。如果OpenAI不做出回應(yīng),不太符合OpenAI團(tuán)隊(duì)的性格。但當(dāng)然,筆者也只是一種猜測(cè)。在他的Unconfuse Me播客中,比爾·蓋茨問(wèn)OpenAI首席執(zhí)行官Sam Altman預(yù)計(jì)GPT系列在未來(lái)兩年內(nèi)會(huì)有哪些里程碑。他的第一個(gè)回答?視頻處理。
所以,對(duì)于GPT-5,我們希望能玩轉(zhuǎn)視頻——上傳視頻作為提示,隨時(shí)隨地創(chuàng)建視頻,用文本提示編輯視頻,從視頻中提取片段,以及在大型視頻文件中找到特定場(chǎng)景。我們希望能對(duì)音頻文件做類似的事情。這是一個(gè)很大的要求,是的。但鑒于AI發(fā)展的速度,這是一個(gè)非常合理的期望。
更大且更高效的上下文窗口
盡管GPT系列AI模型是市場(chǎng)上最復(fù)雜的AI模型之一,但它們的上下文窗口卻是最小的。例如,Anthropic的Claude 3擁有20萬(wàn)個(gè)令牌的上下文窗口,而谷歌的Gemini可以處理驚人的100萬(wàn)個(gè)令牌(標(biāo)準(zhǔn)使用為128,000個(gè))。相比之下,GPT-4的上下文窗口相對(duì)較小,只有128,000個(gè)令牌,大約32,000個(gè)令牌或更少的實(shí)際可用性適用于像ChatGPT這樣的界面。
隨著先進(jìn)的多模態(tài)性的出現(xiàn),改進(jìn)的上下文窗口幾乎是不可避免的。也許增加兩倍或四倍就足夠了,但我們希望看到一個(gè)十倍的增長(zhǎng)。這將允許GPT-5以更有效的方式處理更多的信息。現(xiàn)在,更大的上下文窗口并不總是意味著更好。所以,我們希望看到的不僅僅是增加上下文窗口的大小,而是上下文處理效率的提高。
你看,一個(gè)模型可能有一個(gè)一百萬(wàn)個(gè)令牌的上下文窗口(大約70萬(wàn)字的容量),但當(dāng)被要求總結(jié)一本50萬(wàn)字的書時(shí),它可能無(wú)法產(chǎn)生一個(gè)全面的摘要,因?yàn)樗鼰o(wú)法充分處理整個(gè)上下文,盡管理論上它有能力這樣做。你能讀一本50萬(wàn)字的書,并不意味著你能記住其中的一切或合理地處理它。
GPT代理
GPT-5發(fā)布可能帶來(lái)的最令人興奮的可能性之一是GPT代理的首次亮相。雖然“游戲規(guī)則改變者”這個(gè)詞在AI領(lǐng)域可能已經(jīng)被過(guò)度使用,但GPT代理在每一個(gè)實(shí)際意義上都將是游戲規(guī)則改變者。
但這種情況有多具有變革性呢?
目前,像GPT-4這樣的AI模型可以幫助你完成任務(wù)。它們可以幫你寫一封電子郵件,講一個(gè)笑話,解決一個(gè)數(shù)學(xué)問(wèn)題,或者為你起草一篇博客文章。然而,它們只能做那個(gè)特定的任務(wù),不能完成你的工作所必需的一系列相關(guān)任務(wù)。
假設(shè)你是一個(gè)網(wǎng)頁(yè)開(kāi)發(fā)者。作為你的工作的一部分,你需要做很多事情:設(shè)計(jì)、編寫代碼、故障排除等等。目前,你一次只能將這些任務(wù)的一部分委托給AI模型。也許你可以要求GPT-4模型為首頁(yè)編寫代碼,然后為聯(lián)系頁(yè)面編寫代碼,然后為關(guān)于頁(yè)面等等。你需要迭代地完成這些任務(wù)。還有一些任務(wù)模型根本無(wú)法完成。
這種針對(duì)特定子任務(wù)的AI模型的迭代提示過(guò)程既耗時(shí)又低效。在這種情況下,你——網(wǎng)頁(yè)開(kāi)發(fā)者——是負(fù)責(zé)協(xié)調(diào)和提示AI模型一次完成一個(gè)任務(wù)的人類代理,直到你完成一整套相關(guān)任務(wù)。
GPT代理承諾由GPT-5協(xié)調(diào)的專門專家機(jī)器人,能夠自主地自我提示并自主處理復(fù)雜任務(wù)的所有子集。強(qiáng)調(diào)“自我提示”和“自主”。
所以,如果GPT-5帶有GPT代理發(fā)布,你可以要求它“為Maxwell Timothy建立一個(gè)作品集網(wǎng)站”,而不僅僅是“為我編寫首頁(yè)代碼”。理論上,GPT-5將能夠通過(guò)調(diào)用專家AI代理來(lái)處理構(gòu)建網(wǎng)站所需的各種子任務(wù),而無(wú)需重復(fù)人類的提示。它可能會(huì)調(diào)用一個(gè)GPT來(lái)為Maxwell Timothy搜集網(wǎng)頁(yè)信息,另一個(gè)代理來(lái)為不同頁(yè)面編寫代碼,另一個(gè)代理來(lái)生成和優(yōu)化圖像,甚至另一個(gè)AI代理來(lái)部署網(wǎng)站,所有這些都不需要重復(fù)人類的提示。
減少幻覺(jué)
盡管OpenAI在其AI模型中處理幻覺(jué)方面已經(jīng)取得了長(zhǎng)足的進(jìn)步,但GPT-5的真正試金石將是其解決持續(xù)存在的幻覺(jué)問(wèn)題的能力,這個(gè)問(wèn)題阻礙了AI在醫(yī)療保健、航空和網(wǎng)絡(luò)安全等高風(fēng)險(xiǎn)、安全關(guān)鍵領(lǐng)域的廣泛應(yīng)用。這些都是將從AI的深度參與中獲益匪淺的領(lǐng)域,但目前避免任何重大采用。
為了清晰起見(jiàn),這里的幻覺(jué)指的是AI模型生成并呈現(xiàn)聽(tīng)起來(lái)合理但完全捏造的信息,并帶有高度自信的情況。
想象一下,GPT-4被集成到一個(gè)分析患者癥狀和醫(yī)療報(bào)告的診斷系統(tǒng)中?;糜X(jué)可能導(dǎo)致AI自信地提供錯(cuò)誤的診斷或基于想象的事實(shí)和錯(cuò)誤的邏輯推薦一個(gè)潛在危險(xiǎn)的治療方案。在醫(yī)療領(lǐng)域,這樣一個(gè)錯(cuò)誤的后果可能是災(zāi)難性的。
類似的保留意見(jiàn)適用于其他高后果領(lǐng)域,如航空、核能、海事運(yùn)營(yíng)和網(wǎng)絡(luò)安全。我們不期望GPT-5完全解決幻覺(jué)問(wèn)題,但我們期望它能顯著減少幻覺(jué)產(chǎn)生的可能性。
當(dāng)我們熱切期待這個(gè)備受期待的AI模型的正式發(fā)布時(shí),有一件事是肯定的:GPT-5有潛力重新定義人工智能的可能性邊界,開(kāi)啟一個(gè)人機(jī)協(xié)作和創(chuàng)新的新時(shí)代。
原文標(biāo)題:GPT-5: 4 New Features We Want to See
原文作者:MAXWELL TIMOTHY