偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Nougat:一種用于科學(xué)文檔OCR的Transformer 模型

人工智能 自然語言處理
隨著人工智能領(lǐng)域的不斷進(jìn)步,其子領(lǐng)域,包括自然語言處理,自然語言生成,計(jì)算機(jī)視覺等,由于其廣泛的用例而迅速獲得了大量的普及。光學(xué)字符識別(OCR)是計(jì)算機(jī)視覺中一個成熟且被廣泛研究的領(lǐng)域。它有許多用途,如文檔數(shù)字化、手寫識別和場景文本識別。數(shù)學(xué)表達(dá)式的識別是OCR在學(xué)術(shù)研究中受到廣泛關(guān)注的一個領(lǐng)域。

隨著人工智能領(lǐng)域的不斷進(jìn)步,其子領(lǐng)域,包括自然語言處理,自然語言生成,計(jì)算機(jī)視覺等,由于其廣泛的用例而迅速獲得了大量的普及。光學(xué)字符識別(OCR)是計(jì)算機(jī)視覺中一個成熟且被廣泛研究的領(lǐng)域。它有許多用途,如文檔數(shù)字化、手寫識別和場景文本識別。數(shù)學(xué)表達(dá)式的識別是OCR在學(xué)術(shù)研究中受到廣泛關(guān)注的一個領(lǐng)域。

PDF是最廣泛使用的格式之一,它通常保存在書籍中或發(fā)表在學(xué)術(shù)期刊上。pdf是互聯(lián)網(wǎng)上第二大使用的數(shù)據(jù)格式,占信息的2.4%,經(jīng)常用于文檔傳遞。盡管它們被廣泛使用,但從PDF文件中提取信息可能很困難,特別是在處理像科學(xué)研究文章這樣高度專業(yè)化的材料時。因?yàn)榘撕芏嗟臄?shù)學(xué)公式,而現(xiàn)階段的OCR可能會導(dǎo)致數(shù)學(xué)表達(dá)式的語義信息丟失。

Meta AI的一組研究人員推出了一種名為Nougat的解決方案,它代表“Neural Optical Understanding for Academic Documents”。為了對科學(xué)文本進(jìn)行光學(xué)字符識別(OCR),Nougat是一種VIT模型。它的目標(biāo)是將這些文件轉(zhuǎn)換為標(biāo)記語言,以便更容易訪問和機(jī)器可讀。

為了顯示該方法的有效性,該團(tuán)隊(duì)還制作了一個新的學(xué)術(shù)論文數(shù)據(jù)集。這種方法為提高數(shù)字時代科學(xué)知識的可及性提供了可行的答案。它填補(bǔ)了人們易于閱讀的書面材料與計(jì)算機(jī)可以處理和分析的文本之間的空白。Nougat基本上是一個基于Transformer的模型,用于將文檔頁面的圖像(特別是來自pdf的圖像)轉(zhuǎn)換為格式化的標(biāo)記文本。

該團(tuán)隊(duì)總結(jié)了他們的主要貢獻(xiàn)如下-

發(fā)布預(yù)訓(xùn)練模型:創(chuàng)建可以將pdf轉(zhuǎn)換為簡單的標(biāo)記語言的預(yù)訓(xùn)練模型。這個預(yù)訓(xùn)練的模型在GitHub上公開,任何人都可以訪問它以及相關(guān)代碼。

數(shù)據(jù)集創(chuàng)建管道:描述了一種構(gòu)建數(shù)據(jù)集的方法,將PDF文檔與其相關(guān)的源代碼配對。這種數(shù)據(jù)集開發(fā)方法對于測試和改進(jìn)Nougat模型至關(guān)重要,也可能對未來的文檔分析研究和應(yīng)用有用。

僅依賴于頁面的圖像:也就是說這個模型只要pdf的截圖就可以了,這使得它成為一種靈活的工具,可以從各種來源提取內(nèi)容,即使原始文檔沒有數(shù)字文本格式,也可以使用掃描的紙張和書籍進(jìn)行處理。

圖片

可以說Nougat通過利用VIT模型的功能,開創(chuàng)了OCR的新時代。它具有理解復(fù)雜科學(xué)文檔并將其轉(zhuǎn)換為結(jié)構(gòu)化標(biāo)記語言的能力,為無縫的信息可訪問性鋪平了道路,彌合了人類理解和機(jī)器分析之間的差距。這一創(chuàng)新為學(xué)術(shù)研究及其他領(lǐng)域帶來了巨大的希望,體現(xiàn)了數(shù)字時代人工智能驅(qū)動的解決方案的變革力量。

圖片

以上截圖來自官網(wǎng),左圖為圖片文件,右圖為Latex語法生成的公式

論文和官方網(wǎng)頁在這里:

https://facebookresearch.github.io/nougat/

小吐槽:FB的項(xiàng)目管理一如既往的混亂

  • Nougat 只配一個github的頁面
  • segment-anything 有一個單獨(dú)的域名,更新動態(tài)的博客是ai.meta下面的
  • llama只有一個ai.meta的二級目錄,但是在ai.meta首頁置頂,也算重視
  • dinov2又跑去了metademolab的另外一個域名

可見前幾天的內(nèi)斗和算力競爭新聞是肯定了。


責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2023-09-04 13:15:00

MetaVision架構(gòu)

2023-08-30 13:09:12

AI模型

2024-03-26 09:23:22

自動駕駛軌跡

2016-09-20 12:49:29

2020-12-09 10:15:34

Pythonweb代碼

2020-12-23 10:10:23

Pythonweb代碼

2022-07-07 10:33:27

Python姿勢代碼

2022-06-22 09:44:41

Python文件代碼

2023-12-20 11:12:39

共享內(nèi)存.NET數(shù)據(jù)共享

2023-09-27 14:32:44

2015-12-18 16:15:55

架構(gòu)新型計(jì)算模型

2021-07-29 09:00:00

Python工具機(jī)器學(xué)習(xí)

2021-04-08 10:19:39

人工智能機(jī)器學(xué)習(xí)知識圖譜

2024-08-30 11:27:55

父文檔檢索RAG技術(shù)人工智能

2025-06-03 08:40:00

2024-01-18 15:38:17

語言模型大型語言模型

2024-03-08 09:29:42

車道檢測AI

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語言模型

2017-01-22 16:35:02

iOSBlockCallback

2012-01-17 11:02:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號