偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM、RAG雖好,但XGBoost更香!

譯文 精選
人工智能
大型語言模型(LLMs)產(chǎn)生文本輸出,但這里的重點在于利用LLMs生成的內(nèi)部嵌入(潛在結(jié)構(gòu)嵌入),這些嵌入可以傳遞給像XGBoost這樣的傳統(tǒng)表格模型。雖然Transformers無疑已經(jīng)徹底改變了生成式人工智能,但它們的優(yōu)勢在于處理非結(jié)構(gòu)化數(shù)據(jù)、序列數(shù)據(jù)以及涉及復雜模式的任務。

編譯 | 言征  

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

數(shù)據(jù)&AI企業(yè)家、投資人Oliver Molander 近日在LinkedIn上的帖子中打趣道:“如果你在2022年[ChatGPT推出]之前問人工智能專家什么是LLM,很多人可能會回答說這是一個法律學位?!彼a充說,有多少人發(fā)現(xiàn)很難接受人工智能遠遠不止是LLMs和文本到視頻模型。

圖片圖片

在表格數(shù)據(jù)處理和信息解讀方面,真正的贏家是XGBoost(也被稱為Extreme Gradient Boosting)。在眾多深度學習技術(shù)的炒作中,甚至包括大型語言模型(LLMs)或最近興起的檢索增強生成(RAG)技術(shù)中,XGBoost在各個方面都表現(xiàn)出色。去年10月發(fā)布的XGBoost 2.0在多個新的分類任務上表現(xiàn)更加出色。

盡管XGBoost、深度學習或RAG等技術(shù)無法直接比較,但它們的功能是相同的——都是為了檢索、理解信息并生成輸出。

1.聽說過新的XGBoost LLM嗎?

盡管生成性人工智能和大型語言模型(LLMs)的發(fā)展取得了巨大進步,并且在依賴表格數(shù)據(jù)的領(lǐng)域中,XGBoost的實際效用仍然是無與倫比的。XGBoost的可解釋性、效率和魯棒性使其成為從金融到醫(yī)療保健等應用領(lǐng)域中不可或缺的工具。

然而,圍繞LLMs和RAG(檢索式生成)技術(shù)的熱潮讓人們開始忽視其他ML技術(shù)的重要性,例如XGBoost。風險資本家們急切地想要搭上GenAI和LLMs的快車,以至于每一個新術(shù)語往往被錯誤地標記為新型LLM。

但實際上,投資回報的很大一部分集中在預測性ML技術(shù)和如XGBoost和隨機森林等技術(shù)上。目前,大多數(shù)商業(yè)用途的AI/ML案例都是使用專有的表格業(yè)務數(shù)據(jù)完成的。

在處理表格數(shù)據(jù)集時,效率至關(guān)重要。XGBoost的多功能性不僅限于分類任務,還包括回歸和排序任務。無論你是需要預測一個連續(xù)的目標變量,根據(jù)相關(guān)性對項目進行排序,還是將數(shù)據(jù)分類到多個類別中,XGBoost都能輕松應對。

XGBoost的可解釋性、效率和多功能性使其成為許多預測建模嘗試的首選,特別是那些依賴于表格數(shù)據(jù)的嘗試。相反地,LLMs不斷演變的能力以及RAG的增強潛力為知識密集型應用提供了誘人的前景。

2.RAG太好了,但問題在于——

在2022年7月進行的一項研究中,分析了45個中等規(guī)模的數(shù)據(jù)集,結(jié)果顯示,像XGBoost和隨機森林這樣的基于樹的模型在應用于表格數(shù)據(jù)集時,繼續(xù)展現(xiàn)出比深度神經(jīng)網(wǎng)絡更優(yōu)越的性能。

這項研究就像是一場技術(shù)競賽,而基于樹的模型再次證明了它們在表格數(shù)據(jù)領(lǐng)域的霸主地位。

而RAG技術(shù)的亮相,則是在2020年,當時Meta AI的天才團隊決定為大型語言模型(LLMs)的世界增添一抹亮色。

RAG就像是一顆新星,它的出現(xiàn)改變了游戲規(guī)則。RAG的設(shè)計初衷是賦予LLMs迫切需要的信息檢索技術(shù),來解決那些帶來困擾的幻覺問題。簡而言之,RAG不僅為LLMs帶來了新的生命力,也為整個人工智能領(lǐng)域帶來了新的希望和可能性。

RAG技術(shù)為大型語言模型(LLMs)帶來了一種創(chuàng)新的數(shù)據(jù)處理方式,允許用戶引入新的數(shù)據(jù)集,為模型提供最新的信息以生成答案。這種技術(shù)有時被稱為“更高級的提示工程”。它正是企業(yè)所需要的,可以從它們自己的數(shù)據(jù)中生成洞見。然而,即便如此,這項技術(shù)并沒有完全解決LLMs中的幻覺問題。相反,由于人們開始更加信任這些模型,這個問題可能變得更加嚴重。

盡管RAG技術(shù)提供了巨大的潛力,但其部署并非沒有挑戰(zhàn),尤其是與數(shù)據(jù)隱私和安全相關(guān)的挑戰(zhàn)。例如,提示注入漏洞的存在強調(diào)了在利用RAG支持的模型時需要強有力的安全保障。這些挑戰(zhàn)要求開發(fā)者和企業(yè)在實施RAG技術(shù)時,必須采取更加細致和周密的措施,以確保用戶數(shù)據(jù)的隱私和安全得到保護,同時遵守相關(guān)的法律法規(guī)。

3.大模型和XGBoost各自的地盤

在機器學習(ML)生態(tài)系統(tǒng)中,傳統(tǒng)上存在兩個截然不同的群體:一是專注于表格數(shù)據(jù)的科學家,他們使用XGBoost、lightGBM等類似工具;另一個則是大型語言模型(LLM)的研究者。這兩組人分別使用了不同的技術(shù)和模型。Damein Benveniste在LinkedIn上的The AiEdge表示:“我一直是XGBoost的超級粉絲!曾經(jīng)有一段時間,我更像是一個XGBoost模型師,而不僅僅是一個機器學習模型師。”

大型語言模型(LLMs)產(chǎn)生文本輸出,但這里的重點在于利用LLMs生成的內(nèi)部嵌入(潛在結(jié)構(gòu)嵌入),這些嵌入可以傳遞給像XGBoost這樣的傳統(tǒng)表格模型。雖然Transformers無疑已經(jīng)徹底改變了生成式人工智能,但它們的優(yōu)勢在于處理非結(jié)構(gòu)化數(shù)據(jù)、序列數(shù)據(jù)以及涉及復雜模式的任務。

MachineHack的首席技術(shù)官Krishna Rastogi表示:“Transformers就像機器學習領(lǐng)域的氫彈,而XGBoost則是可靠的狙擊步槍。當涉及到表格數(shù)據(jù)時,XGBoost被證明是首選的精確射手?!?/p>

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-12-12 08:23:34

Java 5ordrialname

2024-11-21 08:00:00

矢量數(shù)據(jù)庫人工智能

2019-09-27 12:14:15

低代碼程序平衡

2016-03-24 10:25:25

敏捷開發(fā)競爭

2020-07-09 07:00:00

Python編程語言

2022-01-22 00:14:05

Windows 11微軟修復

2021-12-13 16:19:36

人工智能機器學習技術(shù)

2024-04-30 09:48:33

LLMRAG人工智能

2010-09-09 09:25:59

2025-04-21 08:11:09

2011-10-31 14:04:40

Windows XP

2025-10-30 02:11:00

2017-05-10 13:12:11

深度學習神經(jīng)網(wǎng)絡圖像處理

2025-05-20 06:00:00

AI人工智能RAG

2013-06-08 10:19:41

云計算云孤島

2025-01-03 08:14:33

2013-12-09 14:21:29

2012-07-13 17:39:53

大數(shù)據(jù)BigData社交媒體

2019-02-24 16:15:43

折疊屏手機三星Android

2016-04-27 15:50:01

API涌現(xiàn)挑戰(zhàn)
點贊
收藏

51CTO技術(shù)棧公眾號