一文讀懂 GPT-4o vs GPT-4 Turbo

作者：Luga Lee 2024-05-21 12:23:17

GPT-4o 作為 OpenAI 最新推出的多模態(tài)大模型，其性能與前代 GPT-4 Turbo 相比，具有質(zhì)的飛躍。這里，我們可以從如下個(gè)關(guān)鍵方面對(duì)兩者進(jìn)行對(duì)比分析。

Hello folks，我是 Luga，今天我們來聊一下人工智能(AI)生態(tài)領(lǐng)域相關(guān)的技術(shù) - GPT-4o 模型。

在 2024 年 5 月 13 日，OpenAI 創(chuàng)新性地推出了其最先進(jìn)、最前沿的模型 GPT-4o，這是標(biāo)志著人工智能聊天機(jī)器人和大型語言模型領(lǐng)域?qū)崿F(xiàn)重大飛躍的突破性舉措。預(yù)示著人工智能能力的新時(shí)代，GPT-4o 擁有顯著的性能增強(qiáng)，在速度和多功能性方面都超越了其前身 GPT-4。

這一突破性的進(jìn)步解決了經(jīng)常困擾其前身的延遲問題，確保了無縫且響應(yīng)迅速的用戶體驗(yàn)。

什么是 GPT-4o ?

在2024年5月13日，OpenAI 發(fā)布了其最新、最先進(jìn)的人工智能模型 GPT-4o，其中的"o"代表"omni"，意為"所有"或"通用"。這款模型是基于 GPT-4 Turbo 構(gòu)建的新一代大語言模型。與之前的模型相比，GPT-4o 在輸出速度、回答質(zhì)量和支持的語言種類等方面有了顯著的提升，并且在處理輸入數(shù)據(jù)的方式上進(jìn)行了革命性的創(chuàng)新。

GPT-4o 模型最值得關(guān)注的創(chuàng)新之處在于放棄了前代模型使用獨(dú)立神經(jīng)網(wǎng)絡(luò)處理不同類型輸入數(shù)據(jù)的做法，而是采用了單一統(tǒng)一的神經(jīng)網(wǎng)絡(luò)來處理所有輸入。這一創(chuàng)新設(shè)計(jì)賦予了 GPT-4o 前所未有的多模態(tài)融合能力。

傳統(tǒng)的語言模型通常只能處理純文本輸入，無法處理語音、圖像等非文本數(shù)據(jù)。然而，GPT-4o 不同尋常，它能夠同時(shí)檢測和解析語音輸入中的背景噪音、多重聲源、情感色彩等非文本信號(hào)，并將這些多模態(tài)信息融合到語義理解和生成過程中，從而產(chǎn)生更豐富、更符合上下文的輸出內(nèi)容。

除了處理多模態(tài)輸入，GPT-4o 在生成多語種輸出時(shí)也展現(xiàn)出了出色的能力。它不僅在英語等主流語言上輸出質(zhì)量更高、語法更正確、表述更簡潔，而且對(duì)于非英語的其他語種場景輸出，GPT-4o 也能保持同樣的水準(zhǔn)。這確保了無論是英語用戶還是其他語種用戶，都能享受到 GPT-4o 卓越的自然語言生成能力。

總的來說，GPT-4o 的最大亮點(diǎn)在于突破了單一模態(tài)的局限，實(shí)現(xiàn)了跨模態(tài)的綜合理解和生成能力。借助創(chuàng)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)和訓(xùn)練機(jī)制，GPT-4o 不僅能夠從多種感官通道獲取信息，還能在生成時(shí)融會(huì)貫通，產(chǎn)生與上下文高度貼合、更加人性化的響應(yīng)。

GPT-4o 與 GPT-4 Turbo 性能表現(xiàn)?

GPT-4o 作為 OpenAI 最新推出的多模態(tài)大模型，其性能與前代 GPT-4 Turbo 相比，具有質(zhì)的飛躍。這里，我們可以從如下個(gè)關(guān)鍵方面對(duì)兩者進(jìn)行對(duì)比分析：

1.推理速度

根據(jù) OpenAI 公布的數(shù)據(jù)，在相同硬件條件下，GPT-4o 的推理速度是 GPT-4 Turbo 的兩倍。這種顯著的性能提升主要?dú)w功于其創(chuàng)新的單一模型架構(gòu)，避免了模態(tài)切換所帶來的效率損失。單一模型架構(gòu)不僅簡化了計(jì)算流程，還大幅減少了資源開銷，從而使得 GPT-4o 能夠更快速地處理請(qǐng)求。更高的推理速度意味著 GPT-4o 可以以更低的延遲為用戶提供響應(yīng)，顯著提升了交互體驗(yàn)。無論是在實(shí)時(shí)對(duì)話、復(fù)雜任務(wù)處理，還是在高并發(fā)環(huán)境下的應(yīng)用中，用戶都能感受到更加流暢和即時(shí)的服務(wù)響應(yīng)。這種性能優(yōu)化不僅提高了系統(tǒng)的整體效率，還為各種應(yīng)用場景提供了更可靠和高效的支持。

GPT-4o 與 GPT-4 Turbo 延遲對(duì)比

2.吞吐量

眾所周知，早期的 GPT 模型在吞吐量方面表現(xiàn)有點(diǎn)滯后。例如，最新的 GPT-4 Turbo 每秒只能生成 20 個(gè)令牌。然而，GPT-4o 在這方面取得了重大突破，每秒能夠生成 109 個(gè)令牌。這一改進(jìn)使得 GPT-4o 在處理速度上有了顯著提升，為各種應(yīng)用場景提供了更高的效率。

盡管如此，GPT-4o 依然不是速度最快的模型。以在 Groq 上托管的 Llama 為例，它每秒可以生成 280 個(gè)令牌，遠(yuǎn)超 GPT-4o。然而，GPT-4o 的優(yōu)勢(shì)不僅僅在于速度。其先進(jìn)的功能和推理能力使其在實(shí)時(shí) AI 應(yīng)用中脫穎而出。GPT-4o 的單一模型架構(gòu)和優(yōu)化算法不僅提升了計(jì)算效率，還顯著降低了響應(yīng)時(shí)間，使其在交互體驗(yàn)上具有獨(dú)特的優(yōu)勢(shì)。

GPT-4o 與 GPT-4 Turbo 吞吐量對(duì)比

不同場景下的對(duì)比分析

通常而言，GPT-4o 和 GPT-4 Turbo 在處理不同類型任務(wù)時(shí)，由于架構(gòu)和模態(tài)融合能力的差異性使得表現(xiàn)也存在明顯區(qū)別。這里，我們主要從數(shù)據(jù)提取、分類以及推理等3個(gè)代表性任務(wù)類型來具體分析兩者之間的差異。

1.數(shù)據(jù)提取

在文本數(shù)據(jù)提取任務(wù)上，GPT-4 Turbo 依賴其強(qiáng)大的自然語言理解能力可以取得不錯(cuò)的表現(xiàn)。但當(dāng)遇到包含圖像、表格等非結(jié)構(gòu)化數(shù)據(jù)的場景時(shí)，其能力便顯得有些捉襟見肘。

相比之下，GPT-4o 能夠無縫融合不同模態(tài)的數(shù)據(jù)，無論是在結(jié)構(gòu)化的文本中，還是圖像、PDF 等非結(jié)構(gòu)化數(shù)據(jù)里，都可以高效地識(shí)別和提取所需信息。這一優(yōu)勢(shì)使得 GPT-4o 在處理復(fù)雜混合數(shù)據(jù)時(shí)更具競爭力。

這里，我們以某司的合同場景為例，數(shù)據(jù)集包括公司與客戶之間的主服務(wù)協(xié)議(MSA)。合同的長度各不相同，有些短至5頁，有些長于50頁。

在本次評(píng)估中，我們將提取總共12個(gè)字段，如合同標(biāo)題、客戶名稱、供應(yīng)商名稱、終止條款的詳細(xì)信息、是否存在不可抗力等。通過對(duì)10份合同的真實(shí)數(shù)據(jù)收集，并使用設(shè)置了 12 個(gè)自定義評(píng)估指標(biāo)。這些指標(biāo)用于將我們的真實(shí)數(shù)據(jù)與模型生成的 JSON 中的每個(gè)參數(shù)的 LLM 輸出進(jìn)行比較。隨后，我們對(duì) GPT-4 Turbo 和 GPT-4o 進(jìn)行了測試，以下是我們的評(píng)估報(bào)告結(jié)果：

針對(duì)每個(gè) Prompt 所對(duì)應(yīng)的12個(gè)指標(biāo)評(píng)估結(jié)果

在上述的對(duì)比結(jié)果中，我們可以得出：在這12個(gè)字段中，GPT-4o 在6個(gè)字段上表現(xiàn)優(yōu)于 GPT-4 Turbo，在5個(gè)字段上結(jié)果相同，而在1個(gè)字段上表現(xiàn)略有下降。

從絕對(duì)角度來看，GPT-4 和 GPT-4o 在大多數(shù)領(lǐng)域僅正確識(shí)別了60-80%的數(shù)據(jù)。在需要高準(zhǔn)確性的復(fù)雜數(shù)據(jù)提取任務(wù)中，這兩種模型的表現(xiàn)都未達(dá)到標(biāo)準(zhǔn)。通過使用先進(jìn)的提示技術(shù)，如幾發(fā)提示或鏈?zhǔn)剿季S提示，可以獲得更好的結(jié)果。

此外，GPT-4o 在 TTFT(第一個(gè)令牌的生成時(shí)間)上比 GPT-4 Turbo 快50-80%，這使得 GPT-4o 在直接比較中占據(jù)優(yōu)勢(shì)。最終結(jié)論是，GPT-4o 由于其更高的質(zhì)量和更低的延遲表現(xiàn)優(yōu)于 GPT-4 Turbo。

2.分類

分類任務(wù)往往需要從文本、圖像等多模態(tài)信息中提取特征，再進(jìn)行語義級(jí)別的理解和判斷。在這一點(diǎn)上，由于 GPT-4 Turbo 受限于只能處理單一文本模態(tài)，分類能力相對(duì)有限。

而 GPT-4o 則可以將多模態(tài)信息融合，形成更加全面的語義表征，從而在文本分類、圖像分類、情感分析等領(lǐng)域展現(xiàn)出卓越的分類能力，尤其是在一些高難度的跨模態(tài)分類場景中。

在我們的提示中，我們提供了客戶票何時(shí)關(guān)閉的明確說明，并添加了幾個(gè)示例，以幫助解決最困難的案例。

通過運(yùn)行評(píng)估，以測試模型的輸出是否與100個(gè)標(biāo)記測試用例的地面真值數(shù)據(jù)相匹配，以下是相關(guān)結(jié)果：

分類分析評(píng)估參考

GPT-4o 無疑展現(xiàn)出了壓倒性的優(yōu)勢(shì)。通過一系列針對(duì)各類復(fù)雜任務(wù)的測試和對(duì)比，我們可以看到，GPT-4o 在整體精確度上均遠(yuǎn)超其他競品模型，從而令它成為諸多應(yīng)用領(lǐng)域中不二的首選之作。

然而，傾向于 GPT-4o 作為通用解決方案的同時(shí)，我們也需要謹(jǐn)記，選擇最佳 AI 模型并非一蹴而就的決策過程。畢竟，AI 模型的表現(xiàn)往往取決于具體的應(yīng)用場景及對(duì)精度、召回率和時(shí)間效率等不同指標(biāo)的權(quán)衡偏好。

3.推理

推理是人工智能系統(tǒng)的一項(xiàng)高階認(rèn)知能力，需要模型從給定的前提條件中推導(dǎo)出合理的結(jié)論。這對(duì)于邏輯推理、問答推理等任務(wù)都至關(guān)重要。

GPT-4 Turbo 在文本推理任務(wù)上已經(jīng)表現(xiàn)出色，但遇到需要多模態(tài)信息融合的情況時(shí)，其能力就受到了一定限制。

而 GPT-4o 則不存在這一局限。它能夠自如地融合文本、圖像、語音等多種模態(tài)的語義信息，在此基礎(chǔ)上進(jìn)行更加復(fù)雜的邏輯推理、因果推理和歸納推理，從而賦予人工智能系統(tǒng)更加"人性化"的推理判斷能力。

還是基于上述場景，我們來看一下兩者在推理層面的對(duì)比，具體可參考如下所示：

16個(gè)推理任務(wù)的評(píng)估參考

根據(jù)對(duì) GPT-4o 模型的示例測試，我們可以觀察到它在以下推理任務(wù)中表現(xiàn)越來越出色，具體如下：

日歷計(jì)算：GPT-4o 能夠準(zhǔn)確識(shí)別特定日期的重復(fù)時(shí)間，這意味著它可以處理與日期相關(guān)的計(jì)算和推理。
時(shí)間和角度計(jì)算：GPT-4o 能夠精確計(jì)算時(shí)鐘上的角度，這在處理時(shí)鐘和角度相關(guān)問題時(shí)非常有用。
詞匯(反義詞識(shí)別)：GPT-4o 能夠有效地識(shí)別反義詞并理解單詞的含義，這對(duì)于語義理解和詞匯推理非常重要。

盡管 GPT-4o 在某些推理任務(wù)中表現(xiàn)越來越好，但在單詞操作、模式識(shí)別、類比推理和空間推理等任務(wù)中仍面臨挑戰(zhàn)。未來的改進(jìn)和優(yōu)化可能會(huì)進(jìn)一步提高該模型在這些領(lǐng)域的性能。

綜上所述，基于速率限制高達(dá)每分鐘1000萬 token 的 GPT-4o，是 GPT-4 的整整 5倍。這一振奮人心的性能指標(biāo)無疑將加速人工智能在諸多密集計(jì)算場景中的普及，尤其是在實(shí)時(shí)視頻分析、智能語音交互等領(lǐng)域，GPT-4o 的高并發(fā)響應(yīng)能力將顯現(xiàn)出無可匹敵的優(yōu)勢(shì)。

而 GPT-4o 最閃耀的創(chuàng)新所在，當(dāng)屬其無縫整合了文本、圖像、語音等多模態(tài)輸入輸出的革命性設(shè)計(jì)。通過單一神經(jīng)網(wǎng)絡(luò)直接融合處理各模態(tài)數(shù)據(jù)，GPT-4o 從根本上解決了以往模型間切換的割裂體驗(yàn)，為構(gòu)建統(tǒng)一的 AI 應(yīng)用程序鋪平了道路。

實(shí)現(xiàn)了模態(tài)融合后，GPT-4o 在應(yīng)用場景上將擁有前所未有的廣闊前景。無論是結(jié)合計(jì)算機(jī)視覺技術(shù)打造智能影像分析工具、與語音識(shí)別框架無縫集成創(chuàng)建多模態(tài)虛擬助手，還是基于文本圖像雙模態(tài)生成高保真圖文廣告，一切曾經(jīng)只能通過整合獨(dú)立子模型所完成的任務(wù)，在GPT-4o的大智能驅(qū)動(dòng)下，將擁有全新的統(tǒng)一高效的解決方案。

Reference ：