大語言模型對汽車行業(yè)的影響和實踐探索
汽車行業(yè)作為技術創(chuàng)新的重要領域,正迅速采納大語言模型,如 GPT 系列,以推動行業(yè)的數(shù)字化轉(zhuǎn)型。這些模型在提升車載智能系統(tǒng)的交互體驗、優(yōu)化客戶服務、加速產(chǎn)品開發(fā)及市場營銷策略方面展現(xiàn)出巨大潛力。通過具體應用案例分析,接下來我們一起揭示大語言模型如何為汽車企業(yè)帶來效率提升和成本優(yōu)化,同時探討這些技術在未來汽車行業(yè)中的潛在發(fā)展方向。
一、大語言模型簡介
人工智能技術蓬勃發(fā)展,并于 2012 年開始加速。那一年,Hinton 及其指導的學生通過 AlexNet 網(wǎng)絡在 2012 年 ImageNet 圖像分類大賽中奪冠,標志著深度學習技術重新獲得了廣泛關注。自 2012 年至 2017 年間,有監(jiān)督學習技術成為了主流,期間圖像處理技術迅猛發(fā)展,然而自然語言處理領域卻未能實現(xiàn)突破性進展。
這個階段在解決自然語言處理問題時,雖然采用了循環(huán)神經(jīng)網(wǎng)絡、長短期記憶網(wǎng)絡等復雜的網(wǎng)絡結(jié)構,但仍未能解決自然語言處理領域的核心問題,如長期依賴導致的梯度消失問題、處理效率無法并行化,以及依賴大量標注數(shù)據(jù)的監(jiān)督學習模式使得數(shù)據(jù)獲取成本高昂。正因如此,該時期自然語言處理領域并未實現(xiàn)顯著的突破。
然而,一切在 2017 年發(fā)生了轉(zhuǎn)變,Google 發(fā)布了開創(chuàng)性的論文《Attention is All You Need》,首次提出了基于注意力機制的 Transformer 網(wǎng)絡架構。這種架構完全舍棄了傳統(tǒng)的循環(huán)和卷積網(wǎng)絡結(jié)構,實現(xiàn)了模型的并行化處理和自監(jiān)督學習,使得大量未標注數(shù)據(jù)得以有效利用。并行化處理降低了計算復雜度,加速了大規(guī)模計算任務的處理速度。
Transformer 網(wǎng)絡的提出促進了大規(guī)模預訓練模型的興起,標志性地將我們的研究方向分為三個主要類別:基于 Transformer 的 Encoder-Decoder 結(jié)構,分別形成了 Encoder 類、Decoder 類以及 Encoder-Decoder 的預訓練模型。例如,2018 年提出的 BERT 模型,屬于 Encoder 類,能夠執(zhí)行閱讀理解等任務,通過上下文推斷含義;而 GPT 系列模型,作為 Decoder 類,側(cè)重于根據(jù)前文預測后文;Encoder-Decoder 模型則在如機器翻譯等任務中表現(xiàn)出色。這些創(chuàng)新大大推動了自然語言處理技術的發(fā)展。
從下圖中可以看到基于 Transformer 架構衍生出的各類大型模型。左側(cè)圖展示了三個主要分支:紅色代表僅包含編碼器(encode only)的模型,中間部分包含編碼器和解碼器(encode-decode)的模型,而右側(cè)則聚焦于僅含解碼器(decode only)的模型。
右側(cè)的圖則依據(jù)模型的規(guī)模進行分類。我們可以觀察到,自 Transformer 誕生后,隨著 GPT-1 的推出,模型規(guī)模開始逐漸增大。隨后,BERT 的問世以及 GPT 系列的持續(xù)發(fā)展,在 Transformer 架構的基礎上不斷演進,展現(xiàn)了模型規(guī)模的快速增長趨勢。
下圖詳細闡述了 GPT 系列模型的演進歷程。自 Transformer 模型問世以來,OpenAI 以此為基礎,提出了一種新的范式:利用預訓練加微調(diào)的方法來處理自然語言任務。GPT-1 采用了 5GB 的訓練語料和 1 億參數(shù),盡管其性能不及隨后Google 推出的 BERT 模型,但 OpenAI 堅信未來的發(fā)展應朝向無監(jiān)督學習方向邁進。因此,在 2019 年,OpenAI 推出了 GPT-2,使用了 40GB 的訓練數(shù)據(jù)和 15 億參數(shù),并實施了 Zero-shot 學習,能在模型未接觸過的任務上進行作業(yè),盡管生成的文本已相對較長,但仍存在改進空間。
隨后,OpenAI 以 570GB 的數(shù)據(jù)訓練量和 1750 億參數(shù)推出了 GPT-3。與前作相比,GPT-3 采用了 Few-shot 學習方法,僅需少數(shù)樣本即可顯著提升性能,實現(xiàn)了接近監(jiān)督學習最優(yōu)效果的無監(jiān)督學習能力。
GPT-3 之后,OpenAI 轉(zhuǎn)而專注于模型的可控性問題。GPT-3 雖然功能強大,但其輸出內(nèi)容有時并不完全符合人類的意圖。這一挑戰(zhàn)促使 OpenAI 發(fā)展出 ChatGPT,旨在從有監(jiān)督學習向無監(jiān)督學習轉(zhuǎn)變,同時從不可控走向可控,進而發(fā)展至今日的多模態(tài)方向,標志著自然語言處理技術向更加高級的發(fā)展階段邁進。
ChatGPT 的推出,為大型模型的訓練提供了一種新的范式。這一訓練范式的核心在于先進行預訓練,緊接著通過有監(jiān)督的微調(diào)過程,進而采用獎勵建模,最終通過強化學習來優(yōu)化模型性能。這種方法論不僅加深了我們對大規(guī)模自然語言處理模型訓練的理解,而且為未來模型的發(fā)展指明了方向,即如何有效結(jié)合預訓練、微調(diào)和強化學習,以實現(xiàn)更高效、更精準的語言模型訓練。
二、大語言模型對汽車行業(yè)的影響
上述訓練范式提出之后,國內(nèi)大型模型相關的發(fā)展也隨之加速。目前,大型模型的生態(tài)系統(tǒng)主要分為兩類:一類是以 OpenAI 的 ChatGPT 為代表的閉源模型,這類模型通過提供 API 服務進行應用;另一類是以 Meta 的 LLAMA 為代表的開源模型生態(tài)。除此之外,國內(nèi)的大型模型發(fā)展同樣迅猛,展現(xiàn)了中國在人工智能領域的強大實力和獨特貢獻。這些發(fā)展不僅促進了技術的進步,還為未來的人工智能應用和研究打開了新的可能性。
大模型的快速發(fā)展,不僅在國內(nèi)外科技領域引起轟動,也為汽車行業(yè)帶來了實質(zhì)性的應用機遇。通過這些實際應用案例,我們得以洞察大型語言模型所擁有的獨特能力。首先是理解能力的顯著提升。與早期模型相比,現(xiàn)代大型模型能更加自然地理解人類語言,其交互體驗遠勝過以往,讓人們更愿意與之對話,不再感覺像是與一臺機器人交流。其次,生成能力也大大增強。開發(fā)人員可以利用這些模型編寫代碼,生成符合預期的汽車外觀設計等內(nèi)容,極大地拓展了創(chuàng)造性應用的邊界。再有,規(guī)劃能力的提升讓大模型能夠協(xié)助人們規(guī)劃活動、安排日程,有效地優(yōu)化活動流程和步驟。最后,評估能力也是一個重要的進步。用戶可以向模型提出評估要求,例如對文本進行評分、檢測錯別字等,模型能夠根據(jù)要求完成評價任務。盡管在數(shù)學問題上可能仍存在不足,但在代碼審查和改進建議方面,大模型已展現(xiàn)出其潛在的評估和優(yōu)化能力。
汽車供應鏈的復雜性及其環(huán)節(jié)的廣泛性為大語言模型提供了廣闊的應用場景。從研發(fā)、生產(chǎn)制造,到銷售、物流,乃至售后服務,每一個環(huán)節(jié)都蘊含著與大語言模型結(jié)合的潛力。
在銷售和售后服務方面,大語言模型能夠處理和分析行業(yè)新聞,對新出臺的政策進行摘要,幫助企業(yè)快速把握行業(yè)動態(tài)。此外,通過匯總和分析來自各大 APP 的市場評價,模型可以為產(chǎn)品改進提供實時反饋,指導市場營銷策略的調(diào)整。
在產(chǎn)品研發(fā)和長期規(guī)劃方面,大語言模型通過處理大量文本數(shù)據(jù),能夠挖掘出創(chuàng)新點和用戶需求,為產(chǎn)品迭代和創(chuàng)新提供有力的數(shù)據(jù)支撐。
客服領域尤其能體現(xiàn)大模型的價值,不僅可以提供常規(guī)的客戶咨詢響應,還能在專業(yè)知識領域內(nèi)提供支持,如快速識別合適的維修方案,從而提高服務效率和顧客滿意度。
總的來說,大語言模型能夠深入汽車供應鏈的各個環(huán)節(jié),優(yōu)化流程,提高效率,同時也為企業(yè)提供了前所未有的洞察力,從而在競爭激烈的市場中獲得優(yōu)勢。
在汽車行業(yè)中,大型語言模型展現(xiàn)出多種關鍵應用場景:
- 語音助手與車載娛樂。智能座艙可以劃分為三個主要功能:一是執(zhí)行基本命令,比如查詢天氣、股票信息或播放音樂;二是通過語音控制車輛的內(nèi)部系統(tǒng),以一系列語句完成復雜操作;三是將車輛當作多功能的 AI 助手,它能在游戲中擔當各種角色,豐富娛樂體驗。
- 客戶支持與售后。在這里,大模型可協(xié)助坐席人員處理客戶的咨詢與問題,提升服務效率。
- 銷售與市場營銷。通過分析用戶通過各種渠道提出的需求,有助于大模型精準營銷和銷售策略的優(yōu)化。
- 車輛設計和系統(tǒng)研發(fā)。由于該領域涉及大量專業(yè)知識,通用大模型可能需要針對性的微調(diào)或?qū)m椨柧毑拍馨l(fā)揮作用。
- 企業(yè)內(nèi)部知識服務。大模型可以通過問答系統(tǒng)或檢索企業(yè)內(nèi)部的知識庫來優(yōu)化知識管理。
- 自動駕駛技術。在此,大模型能生成逼真的模擬場景,助力自動駕駛系統(tǒng)的測試和開發(fā)。
三、大語言模型的實踐探索
在本節(jié)中,將介紹大型語言模型在實際操作中的探索。隨著去年 LLAMA-70B 模型的問世,我們見證了開源大模型數(shù)量的顯著增加,并借此機會進行了一系列的實踐探索。這些探索主要基于 Transformer 結(jié)構,可分為三大類:語言理解、語言生成以及機器翻譯相關任務。
具體到問答機器人,我們嘗試了 FAQ 問答,針對常見問題提供快速響應;此外,我們還開展了基于汽車手冊或企業(yè)內(nèi)部知識文檔的長文本問答實踐。在傳統(tǒng) NLP 任務方面,借鑒 OpenAI 發(fā)布的 GPT-2 研究成果,我們測試了模型在文本分類上的能力,并嘗試利用其生成報告的摘要。在 AI 代理的應用上,我們開發(fā)了自然語言查詢數(shù)據(jù)庫的功能,允許不具備編程技能的用戶通過自然語言完成數(shù)據(jù)庫查詢,尤其適用于無法直接生成報表的臨時查詢。進一步地,我們還探索了 AI 代理在更廣泛任務中的應用,例如自動填寫請假申請等行政事務。
接下來,將詳細介紹 FAQ 問答機器人的應用場景。
在大模型興起之前,常規(guī)做法是建立并維護一個問答知識庫,對用戶提出的查詢進行匹配,匹配工作通常是 Q-Q 的相似性,或是 Q-A 間的相似性,有時則是將這兩者結(jié)合起來進行。這一過程最終會產(chǎn)出一個答案。
這里的主要挑戰(zhàn)包括相似問題的生成,因為標準問題的變體可能非常多,這就需要大量的人力投入。另一個挑戰(zhàn)是語義相似度模型的匹配準確度,Q-Q 和 Q-A 的匹配質(zhì)量完全取決于相似度模型的性能,這就使得其語義理解的能力相對較弱。
我們從去年 6 月份開始嘗試了幾個不同版本的大語言模型。最初,我們直接使用指令詢問大模型,但這樣的方式無法達到我們預期的效果。隨后,我們對大模型進行了微調(diào),并結(jié)合 prompt 進行了實驗,這種方法在問答生成上的效果有所改善,但結(jié)果的不確定性依然較大。
我們的第三次嘗試結(jié)合了自有知識庫的相似度匹配和經(jīng)過微調(diào)的大模型,這種方法的表現(xiàn)超過了前兩種。但當時使用的都是較小的 6B 模型,即便采用了 RAG(Retriever-Augmented Generation)加上 prompt 和微調(diào)的方式,生成的結(jié)果仍舊難以控制。之后,我們嘗試了 13B 和 70B 的大模型,并專注于利用這些模型的理解能力而非生成能力,這樣做取得了不錯的效果。
此外,我們也嘗試了多種使用 prompt 的技巧。分享一個小竅門:prompt 需要明確且清晰,指令需精準無誤,而最終輸出的結(jié)果最好是有強代碼結(jié)構的,比如 JSON 格式,或者是預先定義的明確結(jié)構。如果模型較大,使用 few-shot 方法效果會更好;只需給出幾個示例,模型便能呈現(xiàn)出較佳的性能。再者,向模型說明思考方式,逐步引導其如何操作,也能有效提升結(jié)果。
在實際測試中,我們主要使用了 40 對 FAQ 標準問,并測試了 167 條數(shù)據(jù)。在第一版中,我們采用傳統(tǒng)的語義相似性方法進行問答,手動擴展了 300 條相似問,得到的準確率為 82%。需要注意的是,這個準確率是基于我們自己的測試數(shù)據(jù)得出的,不同的數(shù)據(jù)集可能會有不同的準確率。
在第二版中,我們利用大模型生成每個標準問的 50 條相似問,這在使用大型語言模型時相對容易實現(xiàn)。結(jié)合語義相似性和大模型的方法,我們獲得了 94% 的回答準確率。這里的“準確”是指生成的答案必須與知識庫中的標準答案完全一致。雖然剩余的 6% 在檢查時發(fā)現(xiàn)與知識庫中的答案有些模糊匹配的情況,但 94% 的準確率在我們看來,實際上已經(jīng)非常接近完美了。在第三版的實驗中,我們將每個標準問的相似問擴展到 100 條,測試后發(fā)現(xiàn)準確率略有下降,為 93%。
在 FAQ 問答場景的測試中得出的結(jié)論是,大型語言模型能夠協(xié)助我們擴展相似問題。此外,結(jié)合了 RAG 索引輔助生成與大型語言模型(LLM)的方法能夠提高 FAQ 智能問答場景的準確率??傮w來看,效果的優(yōu)劣與召回數(shù)據(jù)的相關性以及大型語言模型的理解能力密切相關。
四、數(shù)據(jù)分析人員的要求
關于數(shù)據(jù)分析人員的能力要求,大模型的出現(xiàn)確實引發(fā)了一部分人的焦慮,擔心自己的工作會被取代,或者擔心趕不上這一技術浪潮。然而,我認為大模型不會取代我們的工作,而是會成為我們完成任務的強大助手,促使我們做出積極的改變。通過前期的一些探索,我們發(fā)現(xiàn)大語言模型實際上能在數(shù)據(jù)分析工作中發(fā)揮重要作用。
在項目實施過程中,大模型可以在多個階段提供支持。例如,在需求定義階段,它能夠提供需求靈感、輔助編寫和潤色文檔,提供關鍵需求信息,甚至在我們還未完全明確需求時補充設計元素。它還能幫助審核文檔,確保關鍵信息的包含。
在構建階段,大模型能輔助生成代碼,補充代碼注釋,以及進行不同開發(fā)語言之間的代碼翻譯。這在一些擁有較老系統(tǒng)需要語言轉(zhuǎn)換的公司中尤其有用,特別是當這些系統(tǒng)的代碼注釋不夠充分時。此外,大模型還能進行代碼審核,確保代碼符合公司的要求,輔助開發(fā)框架的設計和生成。
在測試階段,大模型能夠幫助生成測試用例、編寫測試文檔以及修復 bug。這些都是在大模型應用場景中應該考慮到的作用。
對于數(shù)據(jù)分析人員而言,大模型的出現(xiàn)帶來了技能要求的變化。首先,大模型可以輔助寫代碼,提高代碼編寫效率。這意味著數(shù)據(jù)分析人員不僅要掌握編碼技能,還需要能夠明確地定義和描述問題,以便大模型能高效生成代碼。因此,問題定義、分解能力以及設計規(guī)劃能力變得尤為重要。
其次,代碼質(zhì)量的辨別能力也變得關鍵。雖然大模型能生成代碼,但有時候生成的代碼可能是錯誤的。如果數(shù)據(jù)分析人員本身編碼水平有限,可能難以識別錯誤,進而影響工作效率。這意味著對代碼質(zhì)量的判斷能力對于數(shù)據(jù)分析人員來說變得更加重要,特別是對于高資質(zhì)人員的需求可能會增加,而對于剛?cè)腴T的人員需求可能減少。但對新手來說,大模型也提供了學習和成長的機會。
第三,代碼測試和診斷能力。隨著 AI 生成代碼的普及,數(shù)據(jù)分析人員需要能夠診斷和測試大模型生成的代碼,這要求具備高度的代碼理解能力和測試技能。
第四,掌握 prompt 工程能力。大模型的輸出質(zhì)量很大程度上取決于 prompt 的編寫質(zhì)量。寫好 prompt 是達成高效輸出的關鍵,同時也需要考慮到安全管控和響應時間的優(yōu)化。
此外,作為算法相關人員,需要掌握對大模型的評估和評價能力,判斷不同模型是否適用于特定應用場景,以及它們的優(yōu)勢和局限性。同時,對算力和資源的評估也變得重要,需要在使用大模型和資源投入之間做出權衡。
最后,選擇合適的解決方案對于特定場景至關重要,并不是所有問題都需要用到大模型。數(shù)據(jù)分析人員需要具備判斷并選擇最適合當前場景解決方案的能力。
五、問答環(huán)節(jié)
Q1:如何保證大模型的可控性?
A1:目前,RAG(Retriever-Augmented Generation)是大家討論的熱點。使用 RAG 的通常做法是:首先將知識向量化存儲到向量數(shù)據(jù)庫中,然后查詢與之相似的問題,并讓大模型生成答案。但是,如果僅僅按照這種方式操作,很難保證生成的答案與知識庫中的信息完全一致,即使考慮到大模型的規(guī)模,也存在一定的困難。
我們之所以能實現(xiàn) 94% 的準確率,與知識庫內(nèi)容完全匹配,是因為我們采取了特定的策略。在提問時,我們根據(jù)問題的相似性選擇最相似的幾個問題,然后在生成答案時指導大模型選擇與哪個問題最相似,而不是直接將問題和答案一起提供給大模型讓其理解后再生成答案。我們是讓大模型直接返回最相似問題的編號。通過這種方式,我們可以通過編號直接獲取對應的準確答案,從而保證了答案的相似性和準確性。
Q2:大語言模型可以做推薦系統(tǒng)嗎?
A2:在我們的汽車行業(yè)場景中,使用大語言模型進行推薦的案例相對較少。我們主要在售后服務領域探索推薦系統(tǒng)的應用,由于汽車配件的種類較少,這與電商領域的推薦系統(tǒng)有所不同,因此我們還未在電商領域那樣廣泛嘗試使用大語言模型進行推薦。
在售后服務領域,大語言模型的應用主要集中在售后維修案例的檢索上,這涉及到與知識庫相關的內(nèi)容檢索。例如,基于用戶對售后維修或保養(yǎng)的咨詢,以及參與售后活動的需求,大語言模型可以輔助客服人員檢索知識庫中的相關信息,從而提供輔助服務。
Q3:在 70B 的模型中,RAG +微調(diào) + prompt 是否效果比 RAG + prompt 好?
A3:由于資源限制,我們尚未對 70B 的大模型進行調(diào)整,這取決于具體應用場景的需求。如果是通用場景,我們目前的測試顯示不需要進行微調(diào)。然而,對于特定垂直領域,如汽車行業(yè)中的特殊場景,我們還沒有進行嘗試,可能會需要進行相應的微調(diào)。
Q4:大語言模型中做自然語言查詢數(shù)據(jù)庫,會不會有幻覺的問題?
A4:我們采用的自然語言查詢實現(xiàn)方式是這樣的:基于一種不會產(chǎn)生幻覺的方法,或者說,采用類似于 AI agent 的框架。它首先將自然語言轉(zhuǎn)換為 SQL 語句,然后執(zhí)行數(shù)據(jù)庫查詢。如果 SQL 語句轉(zhuǎn)換錯誤,則查詢結(jié)果也會出錯。通常情況下,我們的測試結(jié)果顯示,要么查詢正確,要么由于生成的 SQL 語句錯誤而沒有產(chǎn)生結(jié)果。我們使用的是 Vicuna-13B v1.5 版本來生成 SQL 語句,主要進行了單表查詢的測試。在單表情況下,處理單表操作是可行的,包括執(zhí)行 where 語句、模糊查詢等。
Q5:是否有嘗試過用 Stable Diffusion 進行汽車設計?
A5:SD(Stable Diffusion)可以應用于汽車設計領域,我們的設計部門已經(jīng)在使用它進行汽車設計工作。此外,SD 還能夠進行產(chǎn)品設計,我們已經(jīng)在進行一些相關的嘗試。它還能生成一些海報,使得我們?nèi)粘5暮笊晒ぷ鞅纫酝鼮檠杆佟?/span>
Q6:70B 模型的 GPU 配置要求是什么呢?以及它能支持多大的流量查詢?
A6:對于 70B 模型,我們采用了量化版本,例如使用 INT4 量化,需要 43G 的顯存。有關大模型的詳細配置,可以在官網(wǎng)找到相應的信息,這與模型能夠支持的流量查詢量密切相關。
我們實際測試情況供參考:72b-int4 用 vllm 推理加速,輸入輸出共 1000 token,4 秒之內(nèi)返回,用 A100 40G 2 張,可以支持 4 個并發(fā)。