一文讀懂 GPT-4o vs GPT-4 Turbo
Hello folks,我是 Luga,今天我們來聊一下人工智能(AI)生態(tài)領(lǐng)域相關(guān)的技術(shù) - GPT-4o 模型 。
在 2024 年 5 月 13 日,OpenAI 創(chuàng)新性地推出了其最先進(jìn)、最前沿的模型 GPT-4o,這是標(biāo)志著人工智能聊天機(jī)器人和大型語言模型領(lǐng)域?qū)崿F(xiàn)重大飛躍的突破性舉措。預(yù)示著人工智能能力的新時(shí)代 ,GPT-4o 擁有顯著的性能增強(qiáng),在速度和多功能性方面都超越了其前身 GPT-4。
這一突破性的進(jìn)步解決了經(jīng)常困擾其前身的延遲問題,確保了無縫且響應(yīng)迅速的用戶體驗(yàn)。

什么是 GPT-4o ?
在2024年5月13日,OpenAI 發(fā)布了其最新、最先進(jìn)的人工智能模型 GPT-4o,其中的"o"代表"omni",意為"所有"或"通用"。這款模型是基于 GPT-4 Turbo 構(gòu)建的新一代大語言模型。與之前的模型相比,GPT-4o 在輸出速度、回答質(zhì)量和支持的語言種類等方面有了顯著的提升,并且在處理輸入數(shù)據(jù)的方式上進(jìn)行了革命性的創(chuàng)新。
GPT-4o 模型最值得關(guān)注的創(chuàng)新之處在于放棄了前代模型使用獨(dú)立神經(jīng)網(wǎng)絡(luò)處理不同類型輸入數(shù)據(jù)的做法,而是采用了單一統(tǒng)一的神經(jīng)網(wǎng)絡(luò)來處理所有輸入。這一創(chuàng)新設(shè)計(jì)賦予了 GPT-4o 前所未有的多模態(tài)融合能力。
傳統(tǒng)的語言模型通常只能處理純文本輸入,無法處理語音、圖像等非文本數(shù)據(jù)。然而,GPT-4o 不同尋常,它能夠同時(shí)檢測和解析語音輸入中的背景噪音、多重聲源、情感色彩等非文本信號(hào),并將這些多模態(tài)信息融合到語義理解和生成過程中,從而產(chǎn)生更豐富、更符合上下文的輸出內(nèi)容。
除了處理多模態(tài)輸入,GPT-4o 在生成多語種輸出時(shí)也展現(xiàn)出了出色的能力。它不僅在英語等主流語言上輸出質(zhì)量更高、語法更正確、表述更簡潔,而且對(duì)于非英語的其他語種場景輸出,GPT-4o 也能保持同樣的水準(zhǔn)。這確保了無論是英語用戶還是其他語種用戶,都能享受到 GPT-4o 卓越的自然語言生成能力。
總的來說,GPT-4o 的最大亮點(diǎn)在于突破了單一模態(tài)的局限,實(shí)現(xiàn)了跨模態(tài)的綜合理解和生成能力。借助創(chuàng)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)和訓(xùn)練機(jī)制,GPT-4o 不僅能夠從多種感官通道獲取信息,還能在生成時(shí)融會(huì)貫通,產(chǎn)生與上下文高度貼合、更加人性化的響應(yīng)。
GPT-4o 與 GPT-4 Turbo 性能表現(xiàn)?
GPT-4o 作為 OpenAI 最新推出的多模態(tài)大模型,其性能與前代 GPT-4 Turbo 相比,具有質(zhì)的飛躍。這里,我們可以從如下個(gè)關(guān)鍵方面對(duì)兩者進(jìn)行對(duì)比分析:
1.推理速度
根據(jù) OpenAI 公布的數(shù)據(jù),在相同硬件條件下,GPT-4o 的推理速度是 GPT-4 Turbo 的兩倍。這種顯著的性能提升主要?dú)w功于其創(chuàng)新的單一模型架構(gòu),避免了模態(tài)切換所帶來的效率損失。單一模型架構(gòu)不僅簡化了計(jì)算流程,還大幅減少了資源開銷,從而使得 GPT-4o 能夠更快速地處理請(qǐng)求。更高的推理速度意味著 GPT-4o 可以以更低的延遲為用戶提供響應(yīng),顯著提升了交互體驗(yàn)。無論是在實(shí)時(shí)對(duì)話、復(fù)雜任務(wù)處理,還是在高并發(fā)環(huán)境下的應(yīng)用中,用戶都能感受到更加流暢和即時(shí)的服務(wù)響應(yīng)。這種性能優(yōu)化不僅提高了系統(tǒng)的整體效率,還為各種應(yīng)用場景提供了更可靠和高效的支持。

GPT-4o 與 GPT-4 Turbo 延遲對(duì)比
2.吞吐量
眾所周知,早期的 GPT 模型在吞吐量方面表現(xiàn)有點(diǎn)滯后。例如,最新的 GPT-4 Turbo 每秒只能生成 20 個(gè)令牌。然而,GPT-4o 在這方面取得了重大突破,每秒能夠生成 109 個(gè)令牌。這一改進(jìn)使得 GPT-4o 在處理速度上有了顯著提升,為各種應(yīng)用場景提供了更高的效率。
盡管如此,GPT-4o 依然不是速度最快的模型。以在 Groq 上托管的 Llama 為例,它每秒可以生成 280 個(gè)令牌,遠(yuǎn)超 GPT-4o。然而,GPT-4o 的優(yōu)勢(shì)不僅僅在于速度。其先進(jìn)的功能和推理能力使其在實(shí)時(shí) AI 應(yīng)用中脫穎而出。GPT-4o 的單一模型架構(gòu)和優(yōu)化算法不僅提升了計(jì)算效率,還顯著降低了響應(yīng)時(shí)間,使其在交互體驗(yàn)上具有獨(dú)特的優(yōu)勢(shì)。

GPT-4o 與 GPT-4 Turbo 吞吐量對(duì)比
不同場景下的對(duì)比分析
通常而言,GPT-4o 和 GPT-4 Turbo 在處理不同類型任務(wù)時(shí),由于架構(gòu)和模態(tài)融合能力的差異性使得表現(xiàn)也存在明顯區(qū)別。這里,我們主要從數(shù)據(jù)提取、分類以及推理等3個(gè)代表性任務(wù)類型來具體分析兩者之間的差異。
1.數(shù)據(jù)提取
在文本數(shù)據(jù)提取任務(wù)上,GPT-4 Turbo 依賴其強(qiáng)大的自然語言理解能力可以取得不錯(cuò)的表現(xiàn)。但當(dāng)遇到包含圖像、表格等非結(jié)構(gòu)化數(shù)據(jù)的場景時(shí),其能力便顯得有些捉襟見肘。
相比之下,GPT-4o 能夠無縫融合不同模態(tài)的數(shù)據(jù),無論是在結(jié)構(gòu)化的文本中,還是圖像、PDF 等非結(jié)構(gòu)化數(shù)據(jù)里,都可以高效地識(shí)別和提取所需信息。這一優(yōu)勢(shì)使得 GPT-4o 在處理復(fù)雜混合數(shù)據(jù)時(shí)更具競爭力。
這里,我們以某司的合同場景為例,數(shù)據(jù)集包括公司與客戶之間的主服務(wù)協(xié)議(MSA)。合同的長度各不相同,有些短至5頁,有些長于50頁。
在本次評(píng)估中,我們將提取總共12個(gè)字段,如合同標(biāo)題、客戶名稱、供應(yīng)商名稱、終止條款的詳細(xì)信息、是否存在不可抗力等。通過對(duì)10份合同的真實(shí)數(shù)據(jù)收集,并使用設(shè)置了 12 個(gè)自定義評(píng)估指標(biāo)。這些指標(biāo)用于將我們的真實(shí)數(shù)據(jù)與模型生成的 JSON 中的每個(gè)參數(shù)的 LLM 輸出進(jìn)行比較。隨后,我們對(duì) GPT-4 Turbo 和 GPT-4o 進(jìn)行了測試,以下是我們的評(píng)估報(bào)告結(jié)果:

針對(duì)每個(gè) Prompt 所對(duì)應(yīng)的12個(gè)指標(biāo)評(píng)估結(jié)果
在上述的對(duì)比結(jié)果中,我們可以得出:在這12個(gè)字段中,GPT-4o 在6個(gè)字段上表現(xiàn)優(yōu)于 GPT-4 Turbo,在5個(gè)字段上結(jié)果相同,而在1個(gè)字段上表現(xiàn)略有下降。
從絕對(duì)角度來看,GPT-4 和 GPT-4o 在大多數(shù)領(lǐng)域僅正確識(shí)別了60-80%的數(shù)據(jù)。在需要高準(zhǔn)確性的復(fù)雜數(shù)據(jù)提取任務(wù)中,這兩種模型的表現(xiàn)都未達(dá)到標(biāo)準(zhǔn)。通過使用先進(jìn)的提示技術(shù),如幾發(fā)提示或鏈?zhǔn)剿季S提示,可以獲得更好的結(jié)果。
此外,GPT-4o 在 TTFT(第一個(gè)令牌的生成時(shí)間)上比 GPT-4 Turbo 快50-80%,這使得 GPT-4o 在直接比較中占據(jù)優(yōu)勢(shì)。最終結(jié)論是,GPT-4o 由于其更高的質(zhì)量和更低的延遲表現(xiàn)優(yōu)于 GPT-4 Turbo。
2.分類
分類任務(wù)往往需要從文本、圖像等多模態(tài)信息中提取特征,再進(jìn)行語義級(jí)別的理解和判斷。在這一點(diǎn)上,由于 GPT-4 Turbo 受限于只能處理單一文本模態(tài),分類能力相對(duì)有限。
而 GPT-4o 則可以將多模態(tài)信息融合,形成更加全面的語義表征,從而在文本分類、圖像分類、情感分析等領(lǐng)域展現(xiàn)出卓越的分類能力,尤其是在一些高難度的跨模態(tài)分類場景中。
在我們的提示中,我們提供了客戶票何時(shí)關(guān)閉的明確說明,并添加了幾個(gè)示例,以幫助解決最困難的案例。
通過運(yùn)行評(píng)估,以測試模型的輸出是否與100個(gè)標(biāo)記測試用例的地面真值數(shù)據(jù)相匹配,以下是相關(guān)結(jié)果:

分類分析評(píng)估參考
GPT-4o 無疑展現(xiàn)出了壓倒性的優(yōu)勢(shì)。通過一系列針對(duì)各類復(fù)雜任務(wù)的測試和對(duì)比,我們可以看到,GPT-4o 在整體精確度上均遠(yuǎn)超其他競品模型,從而令它成為諸多應(yīng)用領(lǐng)域中不二的首選之作。
然而,傾向于 GPT-4o 作為通用解決方案的同時(shí),我們也需要謹(jǐn)記,選擇最佳 AI 模型并非一蹴而就的決策過程。畢竟,AI 模型的表現(xiàn)往往取決于具體的應(yīng)用場景及對(duì)精度、召回率和時(shí)間效率等不同指標(biāo)的權(quán)衡偏好。
3.推理
推理是人工智能系統(tǒng)的一項(xiàng)高階認(rèn)知能力,需要模型從給定的前提條件中推導(dǎo)出合理的結(jié)論。這對(duì)于邏輯推理、問答推理等任務(wù)都至關(guān)重要。
GPT-4 Turbo 在文本推理任務(wù)上已經(jīng)表現(xiàn)出色,但遇到需要多模態(tài)信息融合的情況時(shí),其能力就受到了一定限制。
而 GPT-4o 則不存在這一局限。它能夠自如地融合文本、圖像、語音等多種模態(tài)的語義信息,在此基礎(chǔ)上進(jìn)行更加復(fù)雜的邏輯推理、因果推理和歸納推理,從而賦予人工智能系統(tǒng)更加"人性化"的推理判斷能力。
還是基于上述場景,我們來看一下兩者在推理層面的對(duì)比,具體可參考如下所示:

16個(gè)推理任務(wù)的評(píng)估參考
根據(jù)對(duì) GPT-4o 模型的示例測試,我們可以觀察到它在以下推理任務(wù)中表現(xiàn)越來越出色,具體如下:
- 日歷計(jì)算:GPT-4o 能夠準(zhǔn)確識(shí)別特定日期的重復(fù)時(shí)間,這意味著它可以處理與日期相關(guān)的計(jì)算和推理。
- 時(shí)間和角度計(jì)算:GPT-4o 能夠精確計(jì)算時(shí)鐘上的角度,這在處理時(shí)鐘和角度相關(guān)問題時(shí)非常有用。
- 詞匯(反義詞識(shí)別):GPT-4o 能夠有效地識(shí)別反義詞并理解單詞的含義,這對(duì)于語義理解和詞匯推理非常重要。
盡管 GPT-4o 在某些推理任務(wù)中表現(xiàn)越來越好,但在單詞操作、模式識(shí)別、類比推理和空間推理等任務(wù)中仍面臨挑戰(zhàn)。未來的改進(jìn)和優(yōu)化可能會(huì)進(jìn)一步提高該模型在這些領(lǐng)域的性能。
綜上所述,基于速率限制高達(dá)每分鐘1000萬 token 的 GPT-4o,是 GPT-4 的整整 5倍。這一振奮人心的性能指標(biāo)無疑將加速人工智能在諸多密集計(jì)算場景中的普及,尤其是在實(shí)時(shí)視頻分析、智能語音交互等領(lǐng)域,GPT-4o 的高并發(fā)響應(yīng)能力將顯現(xiàn)出無可匹敵的優(yōu)勢(shì)。
而 GPT-4o 最閃耀的創(chuàng)新所在,當(dāng)屬其無縫整合了文本、圖像、語音等多模態(tài)輸入輸出的革命性設(shè)計(jì)。通過單一神經(jīng)網(wǎng)絡(luò)直接融合處理各模態(tài)數(shù)據(jù),GPT-4o 從根本上解決了以往模型間切換的割裂體驗(yàn),為構(gòu)建統(tǒng)一的 AI 應(yīng)用程序鋪平了道路。
實(shí)現(xiàn)了模態(tài)融合后,GPT-4o 在應(yīng)用場景上將擁有前所未有的廣闊前景。無論是結(jié)合計(jì)算機(jī)視覺技術(shù)打造智能影像分析工具、與語音識(shí)別框架無縫集成創(chuàng)建多模態(tài)虛擬助手,還是基于文本圖像雙模態(tài)生成高保真圖文廣告,一切曾經(jīng)只能通過整合獨(dú)立子模型所完成的任務(wù),在GPT-4o的大智能驅(qū)動(dòng)下,將擁有全新的統(tǒng)一高效的解決方案。
Reference :
- [1] https://openai.com/index/hello-gpt-4o/?ref=blog.roboflow.com
- [2] https://blog.roboflow.com/gpt-4-vision/
- [3] https://www.vellum.ai/blog/analysis-gpt-4o-vs-gpt-4-turbo#task1





































