編譯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
數(shù)據(jù)&AI企業(yè)家、投資人Oliver Molander 近日在LinkedIn上的帖子中打趣道:“如果你在2022年[ChatGPT推出]之前問人工智能專家什么是LLM,很多人可能會回答說這是一個法律學位?!彼a充說,有多少人發(fā)現(xiàn)很難接受人工智能遠遠不止是LLMs和文本到視頻模型。
圖片
在表格數(shù)據(jù)處理和信息解讀方面,真正的贏家是XGBoost(也被稱為Extreme Gradient Boosting)。在眾多深度學習技術(shù)的炒作中,甚至包括大型語言模型(LLMs)或最近興起的檢索增強生成(RAG)技術(shù)中,XGBoost在各個方面都表現(xiàn)出色。去年10月發(fā)布的XGBoost 2.0在多個新的分類任務上表現(xiàn)更加出色。
盡管XGBoost、深度學習或RAG等技術(shù)無法直接比較,但它們的功能是相同的——都是為了檢索、理解信息并生成輸出。
1.聽說過新的XGBoost LLM嗎?
盡管生成性人工智能和大型語言模型(LLMs)的發(fā)展取得了巨大進步,并且在依賴表格數(shù)據(jù)的領(lǐng)域中,XGBoost的實際效用仍然是無與倫比的。XGBoost的可解釋性、效率和魯棒性使其成為從金融到醫(yī)療保健等應用領(lǐng)域中不可或缺的工具。
然而,圍繞LLMs和RAG(檢索式生成)技術(shù)的熱潮讓人們開始忽視其他ML技術(shù)的重要性,例如XGBoost。風險資本家們急切地想要搭上GenAI和LLMs的快車,以至于每一個新術(shù)語往往被錯誤地標記為新型LLM。
但實際上,投資回報的很大一部分集中在預測性ML技術(shù)和如XGBoost和隨機森林等技術(shù)上。目前,大多數(shù)商業(yè)用途的AI/ML案例都是使用專有的表格業(yè)務數(shù)據(jù)完成的。
在處理表格數(shù)據(jù)集時,效率至關(guān)重要。XGBoost的多功能性不僅限于分類任務,還包括回歸和排序任務。無論你是需要預測一個連續(xù)的目標變量,根據(jù)相關(guān)性對項目進行排序,還是將數(shù)據(jù)分類到多個類別中,XGBoost都能輕松應對。
XGBoost的可解釋性、效率和多功能性使其成為許多預測建模嘗試的首選,特別是那些依賴于表格數(shù)據(jù)的嘗試。相反地,LLMs不斷演變的能力以及RAG的增強潛力為知識密集型應用提供了誘人的前景。
2.RAG太好了,但問題在于——
在2022年7月進行的一項研究中,分析了45個中等規(guī)模的數(shù)據(jù)集,結(jié)果顯示,像XGBoost和隨機森林這樣的基于樹的模型在應用于表格數(shù)據(jù)集時,繼續(xù)展現(xiàn)出比深度神經(jīng)網(wǎng)絡更優(yōu)越的性能。
這項研究就像是一場技術(shù)競賽,而基于樹的模型再次證明了它們在表格數(shù)據(jù)領(lǐng)域的霸主地位。
而RAG技術(shù)的亮相,則是在2020年,當時Meta AI的天才團隊決定為大型語言模型(LLMs)的世界增添一抹亮色。
RAG就像是一顆新星,它的出現(xiàn)改變了游戲規(guī)則。RAG的設(shè)計初衷是賦予LLMs迫切需要的信息檢索技術(shù),來解決那些帶來困擾的幻覺問題。簡而言之,RAG不僅為LLMs帶來了新的生命力,也為整個人工智能領(lǐng)域帶來了新的希望和可能性。
RAG技術(shù)為大型語言模型(LLMs)帶來了一種創(chuàng)新的數(shù)據(jù)處理方式,允許用戶引入新的數(shù)據(jù)集,為模型提供最新的信息以生成答案。這種技術(shù)有時被稱為“更高級的提示工程”。它正是企業(yè)所需要的,可以從它們自己的數(shù)據(jù)中生成洞見。然而,即便如此,這項技術(shù)并沒有完全解決LLMs中的幻覺問題。相反,由于人們開始更加信任這些模型,這個問題可能變得更加嚴重。
盡管RAG技術(shù)提供了巨大的潛力,但其部署并非沒有挑戰(zhàn),尤其是與數(shù)據(jù)隱私和安全相關(guān)的挑戰(zhàn)。例如,提示注入漏洞的存在強調(diào)了在利用RAG支持的模型時需要強有力的安全保障。這些挑戰(zhàn)要求開發(fā)者和企業(yè)在實施RAG技術(shù)時,必須采取更加細致和周密的措施,以確保用戶數(shù)據(jù)的隱私和安全得到保護,同時遵守相關(guān)的法律法規(guī)。
3.大模型和XGBoost各自的地盤
在機器學習(ML)生態(tài)系統(tǒng)中,傳統(tǒng)上存在兩個截然不同的群體:一是專注于表格數(shù)據(jù)的科學家,他們使用XGBoost、lightGBM等類似工具;另一個則是大型語言模型(LLM)的研究者。這兩組人分別使用了不同的技術(shù)和模型。Damein Benveniste在LinkedIn上的The AiEdge表示:“我一直是XGBoost的超級粉絲!曾經(jīng)有一段時間,我更像是一個XGBoost模型師,而不僅僅是一個機器學習模型師。”
大型語言模型(LLMs)產(chǎn)生文本輸出,但這里的重點在于利用LLMs生成的內(nèi)部嵌入(潛在結(jié)構(gòu)嵌入),這些嵌入可以傳遞給像XGBoost這樣的傳統(tǒng)表格模型。雖然Transformers無疑已經(jīng)徹底改變了生成式人工智能,但它們的優(yōu)勢在于處理非結(jié)構(gòu)化數(shù)據(jù)、序列數(shù)據(jù)以及涉及復雜模式的任務。
MachineHack的首席技術(shù)官Krishna Rastogi表示:“Transformers就像機器學習領(lǐng)域的氫彈,而XGBoost則是可靠的狙擊步槍。當涉及到表格數(shù)據(jù)時,XGBoost被證明是首選的精確射手?!?/p>















 
 
 










 
 
 
 