肖仰華:走向千行百業(yè)的大模型
現(xiàn)如今,我們站在了大模型技術和產(chǎn)業(yè)發(fā)展的中場思考階段。這個階段的開啟源于 ChatGPT 的誕生,它引發(fā)了廣泛而深入的關注。盡管這種關注對于推動技術和產(chǎn)業(yè)的發(fā)展起到了至關重要的作用,但同時我們也看到了一系列問題的浮現(xiàn)。這些問題包括成本和價值的問題以及一些根本性的缺陷,例如“幻覺”的問題。這些問題的存在使得我們有必要進行中場思考,以便總結上半場的經(jīng)驗和教訓,從而更好地開啟下半場。
一、時代背景
1、技術飛速發(fā)展
事實上,許多技術的發(fā)展和產(chǎn)品的演進背后都有其內在的邏輯,這是時代發(fā)展的內在動力。自去年 ChatGPT 于 11 月份發(fā)布以來,短短不到兩個月的時間內,用戶數(shù)就突破了近 1 億,而此前最流行的互聯(lián)網(wǎng)產(chǎn)品 TikTok 卻花了近九個月的時間??梢哉f,過去的十幾個月是一段極其夢幻的時期,對于我們這些從事技術和研發(fā)的人員來說,幾乎每一天都可能見證一個新的歷史時刻,OpenAI 的每一次動態(tài)都會引起了我們的高度關注,只因他們的許多技術往往能帶來歷史性的突破。
通用人工智能技術發(fā)展的日新月異且速度的明顯加快也說明了,在還沒有來得及消化舊技術的時候,新的概念就已經(jīng)出現(xiàn)。并且在過去的十多個月里,我們基本上一直處于這樣的狀態(tài),似乎唯一不變的就是變化本身,技術的變化和加速已經(jīng)成為了一種常態(tài)。

2、發(fā)展帶來了復雜性和風險
技術的快速變化已經(jīng)成為常態(tài),導致我們所處的世界日益復雜。以汽車為例,其構造需要大量的零件和元器件,而智能車需要運行幾億行代碼,顯示出的系統(tǒng)復雜性已經(jīng)超出了我們的認知能力。因此,我們現(xiàn)在正處在一個復雜系統(tǒng)的時代,面臨的挑戰(zhàn)也越來越復雜。
社會發(fā)展的不確定性與失控風險的增加,促使我們開始思考當下我們整個人類社會的一個共同命題,即應對這種失控的風險的能力,其中強大的認知能力就是關鍵。

3、大模型才是未來
但是,人類的認知能力有其極限。人類的智能作為一種典型的生物智能,發(fā)展速度相對緩慢,而機器的智能發(fā)展卻迅速無比。因此,歷史的發(fā)展使我們明白,我們需要考慮發(fā)展人機協(xié)作的認知,讓機器協(xié)助我們理解這個復雜的世界,以應對日益增加的失控風險。
機器認知能力是隨著算力和數(shù)據(jù)的增長而增長的,在算力和數(shù)據(jù)的加持下,其能力不斷提升,以此來應對這個世界的復雜性,大模型的出現(xiàn)成為了一種必然。
現(xiàn)今已經(jīng)涌現(xiàn)了各式各樣的大模型,并且能力還在增長,我們見證著通用人工智能的到來和進步,包括語言模型,多模態(tài)模型和具身模型等方方面面。

通用人工智能(AGI)已然形成了一場新的革命。與以往如蒸汽革命、電力革命不同,通用人工智能創(chuàng)造的是智力本身,是滲透到我們整個社會每一根毛細血管的能力,這一場革命必將影響廣泛且深遠。

4、大模型給我們帶來了什么?
那么大模型究竟給我們帶來了什么呢?
- 海量的參數(shù)化知識容器
語言模型以參數(shù)化形式編碼了數(shù)據(jù)中蘊含的知識,并且已基本上證實大模型是一個跨學科的全才,跨學科的知識容器。 - 人類認知能力的引擎
大模型更是能力的提供者,尤其是人類認知能力。今天的大模型能夠很好地勝任常識與概念的理解任務,還產(chǎn)生了一定的自我判斷和價值判斷。 - 日益成為自治智能體的大腦
大模型很有可能會成為一個自治智能體的大腦,即 Agent。未來的它除了認知外,還能夠成為一個決策的 Agent,能夠勝任各種復雜任務,以協(xié)助的角色融入到未來的千行百業(yè)當中。 - 消滅自然語言鴻溝
人機交互形式在未來會統(tǒng)一為自然語言,傳統(tǒng)人機交互是人“遷就”機器而采用繁瑣復雜的交互接口,大模型時代將人機交互范式統(tǒng)一為了自然語言形式。 - 消滅專業(yè)語言鴻溝
在以往,專業(yè)工作需要特定的形式語言(Python 等)與機器交互,而今天機器“理解”專業(yè)語言不再存在障礙,專業(yè)性的工作門檻將極大地降低。
二、定位與認知
1、大模型的各種能力
對于大模型的探索我們還需要更清晰地定位與認知。對于各個行業(yè)來說,相較于“通識”的全才,企業(yè)更需要的是“專識”的專家,所以在重視通用大模型的同時,垂類的領域大模型也是值得關注的。實際上通識專業(yè)認知能力是建立在通識能力基礎之上的,“通用”是理解“領域”的前提,要“煉制”通用的大語言模型,一般來講訓練語料越是廣泛而多樣,通用大模型能力越強。

另外,大模型的“舉一反三”能力也同樣值得我們關注。以往在任務訓練中,如果我們需要模型具備某一項能力,則需要去特定地訓練這類任務,且任務與任務之間是不具備組合能力的。而大模型卻能夠將任意兩種學科、技能進行組合創(chuàng)新,將兩個不相關的能力進行組合使用。

大模型還具有強大地評估評價的能力。以往的模型訓練都需要依賴標注數(shù)據(jù)來最終評估模型的好壞,而現(xiàn)在 GPT4 等優(yōu)秀的大模型,經(jīng)過適當?shù)囊龑е螅部梢跃邆淙祟愃?,甚至是專家水平的評估能力。

大模型對復雜任務的規(guī)劃、執(zhí)行和拆解能力也同樣值得重視。對于類似數(shù)據(jù)分析、統(tǒng)計假設檢驗這種復雜的任務,即使是豐富研究經(jīng)驗的人員來完成,也需要半天時間才能輸出報告,而只要 Agent 的能力足夠強,大模型可以在數(shù)十秒內完成整個流程。

更值得關注的是,通用大模型在跨越專業(yè)的知識方面存在巨大優(yōu)勢。人類在大部分情況下,可能會成為某個行業(yè)的專家,但很難成為全才,這使得我們的平均通識水平并不高。而大模型極大地提升了人類在各個領域的通識水平,這使得大模型能夠幫助人類完成跨系統(tǒng)、跨領域的專業(yè)工作,讓跨系統(tǒng)邊界的復雜系統(tǒng)認知成為可能。

2、大模型對于 To B 市場
在企業(yè)端市場也就是我們常說的 To B 市場,也將會因為 ChatGPT 的到來而迎來一場全新變革。與傳統(tǒng)的汽車制造業(yè)類比,大模型對于 To B 市場的首要意義在智能引擎升級。To B 產(chǎn)品是建立在智能引擎基礎之上的,傳統(tǒng)數(shù)據(jù)驅動、知識驅動或者二者聯(lián)合驅動的智能引擎,將會被全新的大模型引擎所重塑。

然而正如前文所述,大模型在領域復雜決策應用場景上仍然有明顯的短板與不足,尚達不到領域專家的能力。因此,我認為未來仍是以大模型為代表的數(shù)據(jù)驅動與領域知識圖譜為代表的知識驅動相結合的雙引擎驅動模式。由大模型實現(xiàn)領域專家的直覺決策,由知識圖譜實現(xiàn)領域專家的邏輯決策,唯有兩者結合才能復現(xiàn)領域專家解決問題的能力。如果與傳統(tǒng)的操作系統(tǒng)類比,大模型可以作為 To B 產(chǎn)品的控制器。作為具有一定的領域通識能力的大模型,有能力勝任企業(yè)級智能系統(tǒng)的控制器,協(xié)調傳統(tǒng)的 IT 系統(tǒng)(比如數(shù)據(jù)庫、知識庫、CRM、ERP、BI 系統(tǒng)等)。
然而在上述產(chǎn)品研發(fā)中,我們仍然面臨許多具有挑戰(zhàn)性的問題。
- 大模型需要與現(xiàn)有企業(yè)流程無縫融合,需要與現(xiàn)有工具或接口有效銜接。
- 大模型需要與員工、專家有效協(xié)同。
- 大模型需要領域知識注入,以解決幻覺問題。
3、大模型需要具備的能力
研究千行百業(yè)的智能化應用,究其本質,是一個復雜的認知決策任務。在實際應用場景中,我們需要的是機器的復雜決策能力,復雜決策是領域應用的根本特點,這絕不是開放式閑聊所能解決的問題。復雜決策涉及到許多能力,如豐富的應用知識、復雜的決策邏輯、宏觀態(tài)勢的研判能力、綜合任務的拆解能力、精細嚴密的規(guī)劃能力、復雜約束的取舍能力、未知事物的預見能力和不確定場景的推斷能力。

4、大模型的問題
而在大模型中,尤為重要的也是最迫切需要解決的,是“幻覺”問題,也就是大模型容易胡編亂造一些虛假事實。這個問題在模型本身是難以解決的,ChatGPT 在很多領域可以“創(chuàng)造答案”,但當用戶尋求正確答案時,ChatGPT 也有可能給出有誤導的回答。GPT4 也無法完全解決幻覺問題,增大模型規(guī)模和訓練量只能一定程度緩解。即使接入搜索引擎,NewBing 仍會不按材料進行回答,這和翻譯、摘要中的觀察一致。
最后,就是大模型缺乏領域“忠實度”的問題。大模型是從通用領域練出來的,它往往傾向于利用它在底座模型的通用領域學到的知識來回答問題,而不忠實于你給的行業(yè)的知識,不忠于你給的行業(yè)的文本。
三、場景與應用
1、深挖場景
到了 ToB 行業(yè),究竟我們該如何去發(fā)展大模型?這需要我們深挖,去挖掘我們的場景和應用。
首先大模型應當是百花齊放的,過去大家目睹了 OpenAI 在通用大模型的成功,隨后便一起擠在了通用大模型的賽道中,競爭尤為激烈。事實上在許多行業(yè)或領域中,垂類大模型的應用更值得我們去挖掘與研究。從通用大模型,到行業(yè)/領域大模型、場景大模型、科學/專業(yè)大模型,在很多垂直行業(yè),需要有很多專業(yè)的科學大模型才能夠勝任。

其中我尤為關注的是場景的智能化,我認為場景大模型將會是未來最可能率先落地的應用。因為通用大模型已經(jīng)有很強的通識能力,通識能力再加上簡單的崗位培訓就能夠勝任的工作,是最容易落地的,比如 HR、客服或窗口辦事員等。這一類恰恰是我們可以快速形成有效的解決方案獲得效果的場景。標準化、規(guī)范化、服務化的工作對機器來說是容易實現(xiàn)的。

另外關注的還有專業(yè)大模型,除了常常被提起的氣象大模型,醫(yī)學大模型之外。行業(yè)內還有更多的場景和復雜形態(tài)的數(shù)據(jù)能夠被大模型使用和解決,如代碼代碼、基因、圖、表等,且不同類型、結構的數(shù)據(jù)都可以使用預訓練的方式進行處理。

2、產(chǎn)品形態(tài)
而談到場景應用落地的形態(tài),具備決策能力的 Agent 將會是繞不開的話題。大模型已經(jīng)成為推動自主智能體發(fā)展的重要引擎。由于 LLM 擁有驚人的計算以及各種復雜的認知能力,能夠處理和理解龐大的數(shù)據(jù)集、更好地感知和理解世界。因而,大模型日益成為自治智能體的大腦。它們的“大腦”特質使得它們能夠處理多樣性的信息源,包括文本、圖像、聲音等,從而更全面地理解其周圍環(huán)境。
自治智能體能夠利用 LLM 負責的能力獨立地執(zhí)行任務、做出決策,并在沒有人為干預的情況下進行學習和改進。這種自主性使得它們能夠在特定任務中表現(xiàn)出驚人的靈活性和適應性,從而更好地滿足各種需求。
以 Travel Agent 為例,Agent 在決策過程中需要具備許多能力,如環(huán)境認知、場景認知、工具使用、運籌規(guī)劃、協(xié)同合作、意圖理解、約束規(guī)劃、個性適配等能力。

另外一個重要的產(chǎn)品形態(tài),則是統(tǒng)一智能的企業(yè)的信息門戶。現(xiàn)在企業(yè)中往往有著多個信息系統(tǒng),如 ERP、OA、代碼庫、知識管理平臺等等,未來大模型將能夠利用它的通識能力、任務分解與規(guī)劃能力,協(xié)調傳統(tǒng)的 IT 系統(tǒng)(數(shù)據(jù)庫、知識庫等)進行協(xié)同工作。

最后一個值得大家關注的在于數(shù)據(jù)要素。數(shù)據(jù)要成為資產(chǎn)、進行流通和交易,會涉及到復雜的數(shù)據(jù)治理問題,對于數(shù)據(jù)庫中錯誤的、違反常識的數(shù)據(jù),過去那種由人力或是規(guī)則來進行處理的方式是難以勝任龐大的數(shù)據(jù)工作的。大模型的通識理解、常識理解有助于它進行數(shù)據(jù)治理、數(shù)據(jù)評估、數(shù)據(jù)分級等工作,使它成為數(shù)據(jù)價值變現(xiàn)的重要方式。

四、成本與價值
1、大模型的成本
過去我們已經(jīng)發(fā)現(xiàn),不計成本的研發(fā)大模型,肯定是走不通的。而大模型能為我們節(jié)約許多成本。首先是人力的成本,過去傳統(tǒng)特征工程中,要靠專家來進行特征標注的工作,現(xiàn)在大模型以簡單的提示詞就可以辦到。
但大模型本身也帶來了巨大的成本。大模型成本=訓練成本+應用成本,需要引起重視,仍然不可忽視。GPT4 規(guī)模的大模型單次煉制成本接近 6300 萬美金,絕大部分的企業(yè)都沒辦法承受這份花銷。另外,高頻應用有可能帶來難以接受的應用成本,隨著使用需求的增加,調用API的花費也是不容小覷的。

2、降本方法
要想控制好成本,一定要靠大小模型協(xié)同,這是降低應用成本的有效方法。對于絕大多數(shù)簡單例子(80-20 法則),傳統(tǒng)的 BERT 模型就可解決,其應用成本可忽略不計。假若遇到需要一定常識理解、復雜推理的樣本,才需要交由大模型完成。并且,小模型的作用絕不僅僅是降低成本,大模型與小模型可以互相補充,各取所長。在可解釋性、可控性、推理速度上,小模型都是優(yōu)于大模型的。

降低成本的另外一個思路是提升大模型與知識圖譜的協(xié)同能力。在過去十年里,很多行業(yè)已經(jīng)建立起了很多規(guī)模和質量都不錯的知識圖譜。大模型可以將其利用起來,主要有三個思路:
- 提示階段,用知識來指引來讓它提示得更加專業(yè)。
- 生成階段,用知識增強的檢索來提升它生成的效果。
- 事后驗證,用知識庫的知識來驗證它的生成結果,避免“幻覺”的出現(xiàn)。

大模型的小型化也是降低大模型應用成本的有效思路之一,是大模型普及應用的重要趨勢之一。借助人類大腦功能分區(qū)理論對大模型的功能集約性開展研究是根本,小型化能夠幫助大模型在手機端等設備上的部署。

大模型的時效性也十分需要重視,時效性是發(fā)展大模型的核心競爭力之一。如金融數(shù)據(jù)這類場景,如果做不到實時數(shù)據(jù)的獲取與分析,其金融的決策是沒有意義的。保證時效性的隱性方法包括知識編輯和持續(xù)學習,顯性方法包括記憶增強、檢索增強和接入互聯(lián)網(wǎng)增強。
五、對策與路徑
- 建立訓練數(shù)據(jù)的分類體系
擺脫“煉丹”的工作流程,思考訓練過程背后不同的數(shù)據(jù)和參數(shù)對應的模型能力。掌握大模型煉制工藝的關鍵參數(shù)及其對大模型效果的評價體系是模型訓練的關鍵。清楚什么樣的數(shù)據(jù)決定怎樣的能力?建立數(shù)據(jù)特性與模型能力之間的因果關系尤為關鍵。

- 人類認知發(fā)展理論對大模型煉制的借鑒意義
大模型的發(fā)展是能被人類認知發(fā)展理論指引的,兒童的認知能力存在一個持續(xù)發(fā)展的過程,對大模型煉制存在指導意義。大模型在短短幾個月內就發(fā)展出了 Attention(注意力)、Desire(欲望)、Belief(信念)。基于 Theory of Mind (TOM, 認知發(fā)展理論),將人類與大模型的認知發(fā)展進行對比研究是將大模型從煉金術發(fā)展為科學的重要思路之一。

- 行業(yè)大模型訓練數(shù)據(jù)的選擇
在進行行業(yè)大模型微調的時候,行業(yè)數(shù)據(jù)的選擇也是一個重要的問題。過于通識的數(shù)據(jù)顯然沒有價值,而過于細節(jié)的數(shù)據(jù)也沒有必要。其中只有行業(yè)特有的、反常識的、高覆蓋的、形式多樣的數(shù)據(jù)值得被選擇和訓練。

- 基礎模型 + 優(yōu)質指令 = 技術價值
基礎模型能力決定了系統(tǒng)的天花板,而指令質量決定了系統(tǒng)的底線。指令數(shù)據(jù)可以讓大模型學習解決復雜的任務。優(yōu)質的指令數(shù)據(jù),可以放大模型的效果;相反,劣質的指令數(shù)據(jù)則會損害大模型的效果。底座模型和指令數(shù)據(jù)是相輔相成的。重底座、輕指令,重指令、輕底座,均不可取。

- 提升中文大模型的多模態(tài)、跨模態(tài)認知能力
大模型是認知文字、圖片、表格、聲音等多種模態(tài)的統(tǒng)一模型,它可以完成以往難以完成的各種跨模態(tài)的開放式聯(lián)合推理。著重研究大模型在多模態(tài)上的能力能夠為未來大模型的應用帶來很多實用的功能。

- 面向領域的評測—以日志運維為例
以運維數(shù)據(jù)為例,運維領域日志數(shù)據(jù)稀缺,公開數(shù)據(jù)集任務簡單,大模型缺乏對日志語言自身特點的考慮,而它構建的前提是有效的評測與評估。因此對于特定領域,開發(fā)對應的 benchmark 作為評估標準尤為重要。

- 面向知識的評測
建立大模型在專業(yè)知識上的能力,目前也出現(xiàn)了諸如 DomMa,Xiezhi(獬豸)-Benchmark 等專業(yè)知識的評估標準,用于從診斷與應用兩個角度,對大模型展開基于認知心理學、多學科、多維度的評測。我們要盡快建立面向解決問題能力的評測體系,要引導大模型從現(xiàn)在的“高分低能”發(fā)展到“高分高能”。

- 面向能力的評測——以復雜指令理解為例
除了知識以外,大模型解決問題的能力也尤為重要。國產(chǎn)的很多大模型在各種榜單中都取得不錯的成績,但在解決實際復雜問題時往往乏力。往往真正的用戶指令都是復雜的,里面混雜了很多任務、形式和約束,理解并解決復雜指令是國產(chǎn)大模型更應該重視的方面。

- 智能的整體性評測-智商測試
我們還需要重視綜合能力的評測,比如智商。目前大模型各種能力的評測難以從整體上反映大模型智力水平,因此我們需要使用常識和反常識的智力游戲進行智商測試。

- 智能的整體性評測-情商測試
除了智商之外,情商也同樣重要。目前大模型各種能力的評測難以從整體上反映大模型的情感能力,使用共情對話進行情商測試。學會理解用戶指令背后的情緒,提供更優(yōu)質的使用體驗,才有機會體現(xiàn)產(chǎn)品的商業(yè)價值。

- 重視并加強大模型訓練數(shù)據(jù)的治理
從整體上來看,大模型的工作 80% 以上都是數(shù)據(jù)的工作,因此,出于安全和效用的考慮,做好數(shù)據(jù)治理非常關鍵。

- 注重領域特異的自監(jiān)督任務設計
在訓練過程中,任務的設計也是值得重視的。面向領域定制預訓練任務能夠提升模型的理解能力,以旅行搜索為例,在解決路線規(guī)劃任務中,參考文本的 next token 預測任務進行設計顯然不符合POI數(shù)據(jù)的結構,將任務切換為 nearbyPOI 預測更能提升模型的理解能力。

- 注重領域知識增強預訓練
預訓練模型缺乏領域知識,通過領域知識能夠提升模型表現(xiàn)。在訓練過程中要想把領域知識給注入進去,可以通過自監(jiān)督的任務設計,將領域知識中例如詞匯表、術語表達等知識的習得設計為學習任務。

- 進一步提升大模型的認知能力
大模型的各項能力都需要在未來進行進一步的提升,因此要持續(xù)提升大模型在解決領域實際問題時所需的認知能力,如長文本處理、長短期記憶、復雜數(shù)量推理等等。

- 提升大模型的約束規(guī)劃能力
大模型要想在特定的場景中發(fā)揮作用,其約束規(guī)劃能力尤為重要。讓大模型能夠理解指令中給到的約束條件,規(guī)避被約束的行為并產(chǎn)生合理的規(guī)劃是大模型 Agent 落地的關鍵。

- 提升大模型數(shù)量推理能力和增強量綱與數(shù)值認知
今天的大模型在數(shù)值理解和數(shù)量理解方面仍然容易出錯。如果這個問題不解決,對數(shù)據(jù)量級敏感的行業(yè)例如金融、醫(yī)療等行業(yè),是沒辦法使用它的。當下學界、業(yè)界都在研發(fā)中通過加入數(shù)據(jù)庫、知識庫等辦法來緩解大模型短缺的數(shù)量理解能力帶來的問題。

- 提升大模型的否定判定與生成能力
大模型的邏輯能力同樣也是欠缺的,它對否定、與、或等邏輯判斷與生成的能力是有待提升的?,F(xiàn)有研究表明大模型在上下文豐富的場景,具備一定否定判斷與生成能力,但在上下文稀缺、任務復雜時能力仍然有限。

- 根據(jù)專家反饋靈敏調整大模型生成結果
大模型能否根據(jù)專家反饋及時調整結果是行業(yè)落地的關鍵問題之一。在運行環(huán)境中,讓大模型根據(jù)反饋來調整生成結果,杜絕大模型“死鴨子嘴硬”(不肯悔改)以及“墻頭草”(無主見)兩類極端錯誤。

- 基于大模型的行業(yè)智能化演進路徑
大模型的演變過程還很漫長,目前我們已經(jīng)走過了通識的階段,到了第二階段,也就是訓練專業(yè)大模型,未來還需要探索如何使用工具,從實踐中得到反饋,最終才能夠成為真正的行業(yè)專家。

六、總結
在大模型這個行業(yè)里面,我們需要合理定位、正確認識,場景多元,積極開辟新賽道,重視大模型的成本與價值,促進大模型與千行百業(yè)的深度融合。大模型不能只是煉金術,要成為科學才能持續(xù)發(fā)展;大模型背后的“人”學研究是關鍵。


























