偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4系列模型,在文檔理解中的多維度評(píng)測(cè)

發(fā)布于 2024-6-18 12:11
瀏覽
0收藏

著名云數(shù)據(jù)平臺(tái)Snowflake的研究人員發(fā)布了一篇論文,主要對(duì)OpenAI的GPT-4系列模型進(jìn)行了研究,查看其文本生成、圖像理解、文檔摘要等能力。


在DocVQA、InfographicsVQA、SlideVQA和DUDE數(shù)據(jù)集上對(duì)GPT-4、GPT-4 V、GPT-4 Turbo V +OCR等進(jìn)行了多維度測(cè)試。


結(jié)果顯示,使用GPT-4去執(zhí)行解讀文檔任務(wù)時(shí),無(wú)法達(dá)到滿意的效果。這是因?yàn)椋臋n理解不僅是對(duì)文本的解析,還涉及到對(duì)文檔布局、圖片視覺(jué)內(nèi)容的理解、推理和整合。

GPT-4系列模型,在文檔理解中的多維度評(píng)測(cè)-AI.x社區(qū)

使用GPT-4 V去執(zhí)行時(shí)評(píng)測(cè)數(shù)據(jù)有了很大的改善,當(dāng)使用GPT-4 Turbo V+第三方OCR(光學(xué)字符識(shí)別)視覺(jué)引擎時(shí),例如,Tesseract、Azure Cognitive 、Amazon Textract等,可明顯提升大模型的視覺(jué)理解能力。


可能存在數(shù)據(jù)污染

?

研究人員在DocVQA和InfographicsVQA兩個(gè)數(shù)據(jù)集測(cè)試GPT-4系列模型時(shí),發(fā)現(xiàn)它并不是完全理解測(cè)試問(wèn)題,而是之前在預(yù)訓(xùn)練過(guò)程中接觸過(guò)該數(shù)據(jù)集給出了看似正確的答案,可能存在數(shù)據(jù)污染的現(xiàn)象。


這是因?yàn)椋?strong>DocVQA和InfographicsVQA兩個(gè)數(shù)據(jù)集在GPT-4之前就已經(jīng)發(fā)布,有可能在GPT-4模型訓(xùn)練時(shí)被包含在內(nèi)。如果這些數(shù)據(jù)集真的被包含在訓(xùn)練數(shù)據(jù)中,那么模型在這些數(shù)據(jù)集上的高得分可能并不代表其真正的理解能力,而只是對(duì)訓(xùn)練數(shù)據(jù)的一種記憶。

GPT-4系列模型,在文檔理解中的多維度評(píng)測(cè)-AI.x社區(qū)

為了解開(kāi)這個(gè)謎題,研究人員采用了一種“指導(dǎo)性指令”的技術(shù)。這種方法通過(guò)在模型的輸入提示中加入特定的數(shù)據(jù)集名稱(chēng),來(lái)檢查模型是否能夠根據(jù)數(shù)據(jù)集的特定特征給出不同的答案。


例如,如果模型在接收到“回答DocVQA數(shù)據(jù)集測(cè)試分割中的問(wèn)題”的指令后,給出了與接收到“回答SQuAD數(shù)據(jù)集測(cè)試分割中的問(wèn)題”的指令不同的答案,這可能表明模型對(duì)不同數(shù)據(jù)集有特定的反應(yīng)。

GPT-4系列模型,在文檔理解中的多維度評(píng)測(cè)-AI.x社區(qū)

在進(jìn)行數(shù)據(jù)污染分析時(shí),當(dāng)在提示中明確提及數(shù)據(jù)集名稱(chēng)時(shí),模型的性能有所提高,這可能意味著模型在訓(xùn)練時(shí)已經(jīng)接觸過(guò)這些數(shù)據(jù)集,因此在評(píng)估時(shí)能夠給出更加符合預(yù)期的答案。


此外,即使是使用不同的數(shù)據(jù)集名稱(chēng)進(jìn)行誤導(dǎo)性的指導(dǎo),也可能會(huì)改變模型的輸出,這進(jìn)一步表明模型的輸出受到了預(yù)訓(xùn)練數(shù)據(jù)的影響。


OCR能提升模型的視覺(jué)性能

?

在測(cè)試的實(shí)驗(yàn)中,研究者還發(fā)現(xiàn),當(dāng)GPT-4 Turbo V結(jié)合了第三方OCR引擎識(shí)別的文本和文檔圖像輸入時(shí),其在文檔理解任務(wù)上的表現(xiàn)有了顯著提升。


這種提升在SlideVQA和DUDE數(shù)據(jù)集上尤為明顯,能夠達(dá)到最先進(jìn)的性能水平。這表明OCR技術(shù)在增強(qiáng)模型對(duì)文檔的視覺(jué)理解方面發(fā)揮了重要作用。

GPT-4系列模型,在文檔理解中的多維度評(píng)測(cè)-AI.x社區(qū)

這是因?yàn)椋?strong>OCR能夠?qū)D像中的文本內(nèi)容轉(zhuǎn)換為機(jī)器可讀的格式,從而使模型能夠直接處理文本信息。


在文檔理解任務(wù)中,這意味著模型不僅能夠“看到”文檔中的文本,還能夠“理解”這些文本的含義。


但不同的OCR例如,Tesseract、Azure Cognitive Services和Amazon Textract。在不同的測(cè)試數(shù)據(jù)集上表現(xiàn)也各不相同。這表明在實(shí)際應(yīng)用中,開(kāi)發(fā)者可以根據(jù)應(yīng)用場(chǎng)景來(lái)選擇不同的OCR來(lái)搭配使用。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Zf9aUxjMPwTW9EOsoSBeAw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦