關于人工智能應用場景中前期數(shù)據(jù)處理的業(yè)務場景和技術分析——包括結構化數(shù)據(jù)和非結構化數(shù)據(jù) 原創(chuàng)
“ 文檔處理是人工智能應用領域中的重要環(huán)節(jié),其業(yè)務需求復雜,技術實現(xiàn)難度高;因此,怎么處理復雜文檔是每個技術人員都需要考慮的問題。”
文檔處理在當前人工智能行業(yè)下是一個非?;A也非常重要的工作,不論是模型的訓練和微調(diào),還是以RAG檢索增強,亦或者是在傳統(tǒng)的搜索引擎(包括百度,谷歌這種搜索引擎;以及電商等內(nèi)部平臺的搜索需求)中都是必不可少的一個重要環(huán)節(jié)。
但面對復雜的文檔格式和類型,文檔處理的難度相當大;而且在不同的需求場景下,同樣格式和內(nèi)容的文檔需要不同的處理方式;比如說在開放性問答場景和精確性的企業(yè)服務場景下,對文檔處理的要求和質(zhì)量是不一樣的。
所以,今天我們就來討論一下文檔處理過程中存在的一些問題以及相對的解決方案和技術選型。

文檔處理
關于文檔處理我們需要從兩個方面進行考慮,一個是業(yè)務場景,另一個是技術實現(xiàn)。
業(yè)務場景
先說業(yè)務場景,文檔處理的業(yè)務場景有很多;上面所說的RAG,模型訓練,搜索引擎等都需要文檔處理;而在垂直領域,比如醫(yī)療,金融,法律等面對快速爆炸的知識密集場景中,文檔處理依然是很重要的一環(huán)。
特別是面對多年積累的大量歷史數(shù)據(jù),怎么快速從這些歷史數(shù)據(jù)中找到關鍵信息;除了搜索算法和大模型的應用之外,文檔的前期處理是必不可少且非常重要的一環(huán)。
因為,對于未經(jīng)過處理的數(shù)據(jù),再強大的算法或模型都很難得到精確的查詢或檢索效果;所以,文檔處理的方式,以及處理結果的質(zhì)量都會成為影響數(shù)據(jù)召回的重要因素。

技術實現(xiàn)
技術實現(xiàn)也需要從多個角度進行說明和分析,主要包括不同文檔的類型和技術實現(xiàn)兩個方面。
文檔類型
在文檔處理領域中,不同的文檔類型和內(nèi)容需要使用不同的處理方式;當然,這里所說的文檔并不只是指我們常見的word,pdf,md等文檔,還包括數(shù)據(jù)庫文檔,網(wǎng)頁文檔,圖片,表格等多種文檔類型。
從形式來看,文檔的類型多種多樣,包括我們常見的office三件套,markdown文檔,csv,數(shù)據(jù)庫文檔,網(wǎng)頁,日志文件等。
但從技術的角度來看,不管什么形式的文檔,主要都是以下三種格式:
- 結構化數(shù)據(jù)
- 半結構化數(shù)據(jù)
- 非結構化數(shù)據(jù)
結構化數(shù)據(jù)主要包括excel,csv,數(shù)據(jù)庫文檔,xml文檔,日志文件等。
半結構化數(shù)據(jù)主要包括網(wǎng)頁,mongdb,email等這種有部分是結構化數(shù)據(jù),而部分是非結構化數(shù)據(jù);比如說網(wǎng)頁中的標簽,h1,li;email的收件人,發(fā)件人等。
非結構化數(shù)據(jù)就是更常見的數(shù)據(jù)類型了,比如word,pdf,ppt,md,txt等;特別是word,pdf,md這種支持富文本,表格圖片的文檔格式;由于其復雜的文檔結構,導致其在處理過程中會存在非常多的困難點;比如常見的文本,圖片,表格同時存在的項目文檔;以及充斥大量架構圖,結構圖和流程圖的PDF文檔等。
而在人工智能應用場景中,我們不但需要保證這些文檔內(nèi)容的連續(xù)性(比如表格拆分的問題),還需要保證其語義和結構性,比如目前對于存在大量結構圖和流程圖的文檔處理效果都不怎么好。
因此,面對這些復雜的文檔類型和內(nèi)容,怎么進行有效性處理是很多企業(yè)和領域都需要思考和解決的問題。
技術方案
根據(jù)以上復雜的文檔類型,我們需要使用不同的數(shù)據(jù)處理方案;下面我們就以結構化,半結構化和非結構化這三種類型進行說明。
結構化數(shù)據(jù)
在這三種數(shù)據(jù)類型中,結構化數(shù)據(jù)是最好處理的一種數(shù)據(jù)格式;不論是數(shù)據(jù)庫,json數(shù)據(jù),xml數(shù)據(jù)等;由于其有標準的格式,因此我們只需要根據(jù)其數(shù)據(jù)格式進行處理即可;而且由于計算機技術發(fā)展這些年,對這方面的數(shù)據(jù)處理技術已經(jīng)非常成熟了。比如說python的pandas就非常適合處理數(shù)據(jù)庫,json和csv等格式的數(shù)據(jù)。
半結構化數(shù)據(jù)
半結構化數(shù)據(jù)相對來說處理過程相對較復雜一點,但又不像非結構化數(shù)據(jù)那么復雜。
比如說以網(wǎng)頁文檔為例,在爬蟲領域網(wǎng)頁爬取是一項非常基礎的功能;而對爬取之后的網(wǎng)頁進行解析,可以使用正則表達式或一些三方網(wǎng)頁解析庫進行處理;其效果還不錯。
非結構化數(shù)據(jù)
非結構化數(shù)據(jù)在文檔處理領域中,屬于技術難度最大,處理方式最復雜的一種數(shù)據(jù)格式。

非結構化數(shù)據(jù)處理復雜的原因就在于,上面所說的文檔結構復雜,可能同時存在文字,圖片,表格,流程圖等多種不同的數(shù)據(jù)格式;而面對如此復雜的數(shù)據(jù)格式,再加上不同應用場景下對數(shù)據(jù)處理質(zhì)量的要求;因此沒有辦法進行統(tǒng)一的處理;因此只能選擇在處理過程中的部分環(huán)節(jié)進行一定的抽象。
比如說,對文檔中的文字,圖片,表格分別進行提取;然后再進行特定的處理;這種一般會選擇多模態(tài)模型進行數(shù)據(jù)提取。
其次,對于一些圖片中存在大量文字描述的內(nèi)容,可以選擇使用ORC等技術,把內(nèi)容從圖片中提取出來然后當成文本數(shù)據(jù)進行處理。
當然,也可以使用最簡單的方式,通過多模態(tài)模型把整個文檔進行概要總結;然后使用總結的概要作為結果進行應用。
本文轉載自公眾號AI探索時代 作者:DFires

















