偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nav id="w8cwo"></nav>

<nav id="w8cwo"></nav>

<tr id="w8cwo"><samp id="w8cwo"></samp></tr>

<nobr id="w8cwo"></nobr>

<center id="w8cwo"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

關于人工智能應用場景中前期數(shù)據(jù)處理的業(yè)務場景和技術分析——包括結構化數(shù)據(jù)和非結構化數(shù)據(jù) 原創(chuàng)

發(fā)布于 2025-5-12 08:39

瀏覽

0收藏

“ 文檔處理是人工智能應用領域中的重要環(huán)節(jié)，其業(yè)務需求復雜，技術實現(xiàn)難度高；因此，怎么處理復雜文檔是每個技術人員都需要考慮的問題。”

文檔處理在當前人工智能行業(yè)下是一個非?；A也非常重要的工作，不論是模型的訓練和微調(diào)，還是以RAG檢索增強，亦或者是在傳統(tǒng)的搜索引擎(包括百度，谷歌這種搜索引擎；以及電商等內(nèi)部平臺的搜索需求)中都是必不可少的一個重要環(huán)節(jié)。

但面對復雜的文檔格式和類型，文檔處理的難度相當大；而且在不同的需求場景下，同樣格式和內(nèi)容的文檔需要不同的處理方式；比如說在開放性問答場景和精確性的企業(yè)服務場景下，對文檔處理的要求和質(zhì)量是不一樣的。

所以，今天我們就來討論一下文檔處理過程中存在的一些問題以及相對的解決方案和技術選型。

關于人工智能應用場景中前期數(shù)據(jù)處理的業(yè)務場景和技術分析——包括結構化數(shù)據(jù)和非結構化數(shù)據(jù)-AI.x社區(qū)

文檔處理

關于文檔處理我們需要從兩個方面進行考慮，一個是業(yè)務場景，另一個是技術實現(xiàn)。

業(yè)務場景

先說業(yè)務場景，文檔處理的業(yè)務場景有很多；上面所說的RAG，模型訓練，搜索引擎等都需要文檔處理；而在垂直領域，比如醫(yī)療，金融，法律等面對快速爆炸的知識密集場景中，文檔處理依然是很重要的一環(huán)。

特別是面對多年積累的大量歷史數(shù)據(jù)，怎么快速從這些歷史數(shù)據(jù)中找到關鍵信息；除了搜索算法和大模型的應用之外，文檔的前期處理是必不可少且非常重要的一環(huán)。

因為，對于未經(jīng)過處理的數(shù)據(jù)，再強大的算法或模型都很難得到精確的查詢或檢索效果；所以，文檔處理的方式，以及處理結果的質(zhì)量都會成為影響數(shù)據(jù)召回的重要因素。

關于人工智能應用場景中前期數(shù)據(jù)處理的業(yè)務場景和技術分析——包括結構化數(shù)據(jù)和非結構化數(shù)據(jù)-AI.x社區(qū)

技術實現(xiàn)

技術實現(xiàn)也需要從多個角度進行說明和分析，主要包括不同文檔的類型和技術實現(xiàn)兩個方面。

文檔類型

在文檔處理領域中，不同的文檔類型和內(nèi)容需要使用不同的處理方式；當然，這里所說的文檔并不只是指我們常見的word,pdf,md等文檔，還包括數(shù)據(jù)庫文檔，網(wǎng)頁文檔，圖片，表格等多種文檔類型。

從形式來看，文檔的類型多種多樣，包括我們常見的office三件套，markdown文檔，csv，數(shù)據(jù)庫文檔，網(wǎng)頁，日志文件等。

但從技術的角度來看，不管什么形式的文檔，主要都是以下三種格式：

結構化數(shù)據(jù)
半結構化數(shù)據(jù)
非結構化數(shù)據(jù)

結構化數(shù)據(jù)主要包括excel，csv，數(shù)據(jù)庫文檔，xml文檔，日志文件等。

半結構化數(shù)據(jù)主要包括網(wǎng)頁，mongdb，email等這種有部分是結構化數(shù)據(jù)，而部分是非結構化數(shù)據(jù)；比如說網(wǎng)頁中的標簽,h1，li；email的收件人，發(fā)件人等。

非結構化數(shù)據(jù)就是更常見的數(shù)據(jù)類型了，比如word，pdf，ppt，md，txt等；特別是word，pdf，md這種支持富文本，表格圖片的文檔格式；由于其復雜的文檔結構，導致其在處理過程中會存在非常多的困難點；比如常見的文本，圖片，表格同時存在的項目文檔；以及充斥大量架構圖，結構圖和流程圖的PDF文檔等。

而在人工智能應用場景中，我們不但需要保證這些文檔內(nèi)容的連續(xù)性(比如表格拆分的問題)，還需要保證其語義和結構性，比如目前對于存在大量結構圖和流程圖的文檔處理效果都不怎么好。

因此，面對這些復雜的文檔類型和內(nèi)容，怎么進行有效性處理是很多企業(yè)和領域都需要思考和解決的問題。

技術方案

根據(jù)以上復雜的文檔類型，我們需要使用不同的數(shù)據(jù)處理方案；下面我們就以結構化，半結構化和非結構化這三種類型進行說明。

結構化數(shù)據(jù)

在這三種數(shù)據(jù)類型中，結構化數(shù)據(jù)是最好處理的一種數(shù)據(jù)格式；不論是數(shù)據(jù)庫，json數(shù)據(jù)，xml數(shù)據(jù)等；由于其有標準的格式，因此我們只需要根據(jù)其數(shù)據(jù)格式進行處理即可；而且由于計算機技術發(fā)展這些年，對這方面的數(shù)據(jù)處理技術已經(jīng)非常成熟了。比如說python的pandas就非常適合處理數(shù)據(jù)庫，json和csv等格式的數(shù)據(jù)。

半結構化數(shù)據(jù)

半結構化數(shù)據(jù)相對來說處理過程相對較復雜一點，但又不像非結構化數(shù)據(jù)那么復雜。

比如說以網(wǎng)頁文檔為例，在爬蟲領域網(wǎng)頁爬取是一項非常基礎的功能；而對爬取之后的網(wǎng)頁進行解析，可以使用正則表達式或一些三方網(wǎng)頁解析庫進行處理；其效果還不錯。

非結構化數(shù)據(jù)

非結構化數(shù)據(jù)在文檔處理領域中，屬于技術難度最大，處理方式最復雜的一種數(shù)據(jù)格式。

關于人工智能應用場景中前期數(shù)據(jù)處理的業(yè)務場景和技術分析——包括結構化數(shù)據(jù)和非結構化數(shù)據(jù)-AI.x社區(qū)

非結構化數(shù)據(jù)處理復雜的原因就在于，上面所說的文檔結構復雜，可能同時存在文字，圖片，表格，流程圖等多種不同的數(shù)據(jù)格式；而面對如此復雜的數(shù)據(jù)格式，再加上不同應用場景下對數(shù)據(jù)處理質(zhì)量的要求；因此沒有辦法進行統(tǒng)一的處理；因此只能選擇在處理過程中的部分環(huán)節(jié)進行一定的抽象。

比如說，對文檔中的文字，圖片，表格分別進行提取；然后再進行特定的處理；這種一般會選擇多模態(tài)模型進行數(shù)據(jù)提取。

其次，對于一些圖片中存在大量文字描述的內(nèi)容，可以選擇使用ORC等技術，把內(nèi)容從圖片中提取出來然后當成文本數(shù)據(jù)進行處理。

當然，也可以使用最簡單的方式，通過多模態(tài)模型把整個文檔進行概要總結；然后使用總結的概要作為結果進行應用。

本文轉載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/H8SF18bQrUlnKjYfPhv9lw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

結構化數(shù)據(jù)

非結構化數(shù)據(jù)

贊

收藏

回復

舉報

回復

相關推薦

場景圖知識增強多模態(tài)結構化表示能力

mb5f8eba9bdb0af ? 4339瀏覽 ? 0回復
打破壁壘：生成式人工智能如何重塑數(shù)據(jù)分析場景

51CTO內(nèi)容精選 ? 3852瀏覽 ? 0回復
谷歌創(chuàng)新框架：從非結構化數(shù)據(jù)，實現(xiàn)多模態(tài)學習

Aceryt ? 3484瀏覽 ? 0回復
向量——人工智能技術的基石結構

AI探索時代 ? 5960瀏覽 ? 1回復
時序預測數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 6217瀏覽 ? 0回復
Agent實戰(zhàn)-JSON結構化智能

ermulong ? 3568瀏覽 ? 0回復
使用結構化和非結構化數(shù)據(jù)增強大型語言模型(LLM)

Halo咯咯 ? 3935瀏覽 ? 0回復
RAG增強之路：增強PDF解析并結構化技術路線方案及思路

大模型自然語言處理 ? 3869瀏覽 ? 0回復
HtmlRAG：利用 HTML 結構化信息增強 RAG 系統(tǒng)的知識檢索能力和準確性

Halo咯咯 ? 5148瀏覽 ? 0回復
RPA和Agent智能體區(qū)別應用場景

數(shù)智飛輪 ? 4470瀏覽 ? 0回復
10.1k高星 GitHub 庫：告別JSON錯誤：Outlines如何提升大模型的結構化輸出

凝固的雨_1 ? 6293瀏覽 ? 0回復
從大模型數(shù)據(jù)，看大模型的前瞻應用場景在哪里？

AIGC新知 ? 2913瀏覽 ? 0回復
關于神經(jīng)網(wǎng)絡的輸入格式——數(shù)據(jù)集的處理，關于神經(jīng)網(wǎng)絡模型的結構說明

AI探索時代 ? 3696瀏覽 ? 0回復
為什么說JSON不一定是LLM結構化輸出的最佳選擇？

Baihai_IDP ? 3413瀏覽 ? 0回復
萬字解析非結構化文檔中的隱藏價值：多模態(tài)檢索增強生成（RAG）的前景

柏企閱文 ? 2776瀏覽 ? 0回復
人工智能中的數(shù)據(jù)重要性與數(shù)據(jù)預處理

parson2000 ? 3248瀏覽 ? 0回復
關于基于人工智能做數(shù)據(jù)分析的兩種方式——SQL和Pandas的區(qū)別

AI探索時代 ? 2205瀏覽 ? 0回復
從OCR瓶頸到結構化理解來有效提升RAG的效果

51CTO內(nèi)容精選 ? 1786瀏覽 ? 0回復
從結構化到多模態(tài) RAG 文檔解析工具選型指南

玄姐聊AGI ? 1750瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

讓AI像人一樣動手！大模型是怎么學會使用工具的？ 2天前發(fā)布
大模型應用技術是一項重實操輕理論的技術 3天前發(fā)布

熱門推薦

關于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

上一篇：關于大模型應用過程中的記憶功能管理問題，以及解決方案

下一篇：基于milvus向量數(shù)據(jù)庫的相似度檢索問題——稀疏-密集向量檢索和混合搜索

社區(qū)精華內(nèi)容

目錄

<blockquote id="7ewaa"></blockquote>

<code id="7ewaa"><thead id="7ewaa"></thead></code>