譯者 | 陳峻
審校 | 重樓
近年來,預測式人工智能(Predictive AI)通過先進的推薦算法、風險評估模型、以及欺詐檢測工具,一直在推高著該領(lǐng)域公司的投資回報率。然而,今年初突然殺出的生成式人工智能(Generative AI)突然成為了全球熱點話題。每個人都在熱議如何利用大語言模型(Large Language Model,LLM)進行內(nèi)容的生成;以及利用客戶服務或擴散模型(Diffusion Model),進行視覺內(nèi)容的創(chuàng)建。那么,生成式人工智能將替代預測式人工智能,成為提高生產(chǎn)力的關(guān)鍵驅(qū)動因素嗎?
為了回答這個問題,本文將和您一起討論推動這兩大類人工智能方法的關(guān)鍵性機器學習技術(shù),與之相關(guān)的獨特優(yōu)勢和挑戰(zhàn),以及他們各自適用的真實業(yè)務應用。
基本定義
不可否認,生成式人工智能和預測式人工智能是兩種強大的AI類型,它們在商業(yè)和其他領(lǐng)域都有著廣泛的應用。雖然都使用機器學習從數(shù)據(jù)中獲取“知識”,但它們的學習方式和目標有所不同:
- 預測式人工智能通常被用于基于歷史數(shù)據(jù),來預測未來的事件或結(jié)果。也就是說,它通過識別歷史數(shù)據(jù)中的模式,并使用這些模式去預測未來的趨勢。例如,它可以根據(jù)客戶購買的歷史數(shù)據(jù)集,通過訓練智能模型,以預測次月哪些客戶最有可能流失。
- 生成式人工智能通常被用來創(chuàng)建諸如:文本、圖像、音樂和代碼等新鮮內(nèi)容。它通過從現(xiàn)有的數(shù)據(jù)中學習,以生成與訓練數(shù)據(jù)類似的新數(shù)據(jù)。例如,它可以通過在廣告樣本的數(shù)據(jù)集上進行訓練,進而用于生成新的、創(chuàng)造性的、且有效的廣告。
如上表所示,兩者的基本區(qū)別在于,預測式人工智能的輸出是預測,而生成式人工智能的輸出是新的內(nèi)容。以下是幾個典型領(lǐng)域的示例:
- 自然語言處理(NLP):預測式NLP模型可以將文本分類為諸如:垃圾郵件與非垃圾郵件等預定義的類別,而生成式NLP模式可以根據(jù)諸如:社交媒體帖子或產(chǎn)品描述等給定的提示,來創(chuàng)建新的文本。
- 圖像處理:預測式圖像處理模型,如卷積神經(jīng)網(wǎng)絡(CNN),可以將圖像分類為預定義的標簽,例如:識別雜貨店貨架上的不同產(chǎn)品。而生成式模型可以利用擴散模型,創(chuàng)建培訓數(shù)據(jù)中沒有的新圖像,例如:廣告活動的虛擬模型。
- 藥物發(fā)現(xiàn):預測式藥物發(fā)現(xiàn)模型可以預測一種新的化合物,是否有毒或有潛力作為一種治療藥物。例如:生殖藥物類生成式模型,可以創(chuàng)建新的、更高效、更低毒性的分子結(jié)構(gòu)。
我們有必要了解驅(qū)動這兩種類型AI的不同機器學習算法的各自優(yōu)、劣勢,以便為業(yè)務需求選擇正確的實現(xiàn)方式。
預測與生成式人工智能算法的工作原理
預測式人工智能通?;诒O(jiān)督式機器學習,來標記數(shù)據(jù)。此處的標簽數(shù)據(jù)是指使用正確的輸入和輸出對或序列,來注釋數(shù)據(jù)。模型通過學習輸入與輸出數(shù)據(jù)之間的數(shù)學關(guān)系,來對新的數(shù)據(jù)進行預測。
預測式人工智能算法可以基于諸如:線性回歸、邏輯回歸、決策樹、以及隨機森林等基本的機器學習模型,來預測包括:連續(xù)變量(例如,銷售量)和二進制變量(例如,客戶是否會流失)等各類信息。在某些情況下,由于能夠?qū)W習到數(shù)據(jù)中的復雜模式,因此深度學習算法和強化學習在預測式人工智能的任務中,能夠表現(xiàn)出卓越的性能,非常適合于預測客戶行為、檢測欺詐、以及診斷結(jié)果等任務。
上圖展示了預測式人工智能如何基于一組輸入數(shù)據(jù),來預測二進制變量--是否患有心臟病的過程。當醫(yī)療服務提供商希望使用預測式人工智能,來識別有心臟病風險的患者時,他們可能會使用過往患者的歷史數(shù)據(jù),來了解不同特征(如,患者的人口統(tǒng)計數(shù)據(jù)、健康和治療狀況)與心臟病的關(guān)系。機器學習模型可以從中發(fā)現(xiàn)意外的模式,并提供關(guān)于哪些患者更易患心臟病的準確預測。據(jù)此,醫(yī)療保健提供者可以制定個性化的預防計劃。
與預測式人工智能相比,生成式人工智能通常使用無監(jiān)督或半監(jiān)督式學習算法,來訓練模型。也就是說,無監(jiān)督學習算法能夠從未標記的數(shù)據(jù)中學習,而半監(jiān)督學習算法則會從未標記和少量標記的數(shù)據(jù)組合中學習。總的說來,它們不需要大量標記數(shù)據(jù),只需通過屏蔽部分訓練數(shù)據(jù),然后訓練模型,便可恢復被屏蔽掉的數(shù)據(jù)。例如,大語言模型就是通過將訓練數(shù)據(jù)中的一些標記,隨機替換為特殊標記(如,[MASK])來進行訓練。然后,此類模型會學習根據(jù)前后單詞的上下文,以預測被屏蔽的標記。下圖展示了BERT架構(gòu)中的屏蔽過程。
另一種常見的生成式人工智能模型是:被用于圖像和視頻生成與編輯的擴散模型。這些模型是通過在圖像中加入噪聲,然后訓練神經(jīng)網(wǎng)絡去除噪聲,以完成構(gòu)建。
上圖展示的過程是:首先向數(shù)據(jù)集圖像添加噪聲,然后訓練模型來推斷缺失的信息,從而構(gòu)建出擴散模型。雖然在面對足夠大量的未標記數(shù)據(jù)進行訓練時,LLM和擴散模型可以展現(xiàn)優(yōu)異的性能。然而,為了改善特定用例的結(jié)果,開發(fā)人員經(jīng)常會在少量標記的數(shù)據(jù)上,對生成的模型進行微調(diào),通過強化學習并整合人類的反饋,來減少對抗性反應的數(shù)量,進而提高模型的整體性能。
在實際應用中,營銷是最先受益于生成式人工智能的業(yè)務領(lǐng)域之一。例如,為了生成諸如:博文和社交媒體帖子等創(chuàng)造性的內(nèi)容,營銷機構(gòu)可以首先選擇一個經(jīng)過預處理的LLM,來證明其用例的可接受性能。然后,他們可以根據(jù)機構(gòu)客戶的現(xiàn)有內(nèi)容數(shù)據(jù)集對模型進行微調(diào)。一旦完成訓練,該模型便可被用于生成適合于本機構(gòu)客戶需求的新的內(nèi)容輸出。
優(yōu)勢和劣勢
預測式人工智能通常具有如下兩方面的主要優(yōu)勢:
- 高精度:通過訓練,預測式人工智能模型可以在諸如:產(chǎn)品推薦、欺詐檢測和風險評估等許多任務中,實現(xiàn)非常高準確性的預測。
- 自動化:預測性人工智能可以通過自動化各項任務,來解放人類工作者,讓其專注于更具戰(zhàn)略性和創(chuàng)造性的工作。
當然,預測式人工智能也存在著如下三個方面的挑戰(zhàn):
- 對標簽數(shù)據(jù)的要求:預測式人工智能模型需要已標記的數(shù)據(jù),而收集這些數(shù)據(jù)往往既昂貴又耗時。
- 成功的標準過高:在實際應用中,預測性人工智能應用通常被期望具有高準確性,而這對于某些具有復雜影響因素的任務而言,可能很難實現(xiàn)。
- 模型的維護:預測式人工智能模型需要定期根據(jù)新的數(shù)據(jù),予以持續(xù)的培訓,以保持其準確性。而這對于資源有限的公司來說,可能也是一個挑戰(zhàn)。
我們再來看看生成式人工智能算法的優(yōu)勢:
- 提高生產(chǎn)力和效率:生成式人工智能可以加快內(nèi)容的創(chuàng)建、代碼的編寫、圖像的設(shè)計與構(gòu)建過程,從而為企業(yè)節(jié)省大量時間和金錢。
- 創(chuàng)造力:生成式人工智能可以產(chǎn)生人類可能沒有想到的新創(chuàng)意。這可以幫助企業(yè)開發(fā)出新的產(chǎn)品和服務,并能夠改進現(xiàn)有的產(chǎn)品和服務。
當然,作為一項非常新的技術(shù),生成式人工智能同樣也面臨著許多挑戰(zhàn):
- 缺乏可靠性:生成式人工智能應用往往存在著高度的不可靠性。它們可能會產(chǎn)生一些虛假的或誤導性的信息,這些通常都需要人工的干預。
- 對預處理模型的依賴:企業(yè)通常需要依賴由外部創(chuàng)建的預處理模型,來生成智能應用。而這很可能會限制他們對于模型及其輸出的控制。
- 版權(quán)和知識產(chǎn)權(quán)問題:由于生成式人工智能模型是根據(jù)受版權(quán)保護的數(shù)據(jù)進行訓練的,因此使用者很可能并不清楚誰真正擁有由模型生成的內(nèi)容的版權(quán)。
可以說,上述兩種AI的優(yōu)、劣勢,在很大程度上決定了可以應用的關(guān)鍵領(lǐng)域。
真實世界的應用
我們首先來看預測式人工智能的應用領(lǐng)域。憑借著高度準確的預測能力,以及能夠獲得足夠多的已標記數(shù)據(jù)來訓練AI模型,該預測可以完全自動化各項任務。因此,其適用的場景包括:
- 產(chǎn)品推薦系統(tǒng):預測式人工智能可被用于根據(jù)客戶過去的購買歷史和瀏覽行為,向其推薦產(chǎn)品。
- 欺詐檢測系統(tǒng):預測式人工智能可以協(xié)助識別各種欺詐交易和活動。
- 風險評估系統(tǒng):預測式人工智能模型允許企業(yè)評估貸款違約、保險索賠、以及客戶流失等業(yè)務風險事件。
- 需求預測系統(tǒng):通過準確預測對于產(chǎn)品和服務的需求,預測式人工智能夠幫助企業(yè)規(guī)劃生產(chǎn)和庫存水平,并制定各種營銷活動。
- 預測性維護系統(tǒng):此類人工智能可用于預測機器和設(shè)備可能發(fā)生故障的時間,從而幫助企業(yè)規(guī)避代價高昂的停機時間,并延長資產(chǎn)的使用壽命。
與預測式人工智能不同,生成式人工智能并不要求我們產(chǎn)生最佳的輸出。只要其自動生成的結(jié)果“足夠好”,仍然可以幫助企業(yè)提高生產(chǎn)力和效率。不過,值得注意的是,生成式人工智能應用并不總是可靠,在部署時可能會產(chǎn)生錯誤的信息或意外的輸出。鑒于該局限性,生成式人工智能最適合于正確性不重要的實驗性場合(例如,AI聊天機器人),或者是有人工參與的環(huán)節(jié)(例如,在發(fā)布、發(fā)送或執(zhí)行之前,需要人工檢查和編輯模型輸出的所有內(nèi)容)。
下面是生成式人工智能應用的典型示例:
- 內(nèi)容創(chuàng)建:生成式人工智能模型可以加速博客文章、產(chǎn)品描述和社交媒體廣告的生成。例如,作者可以提供詳細的說明,來指導內(nèi)容的輸出,然后審查和編輯由此產(chǎn)生的內(nèi)容。
- 圖像生成:生成式人工智能可用于為產(chǎn)品設(shè)計、營銷和娛樂,生成逼真的圖像和視頻。在此基礎(chǔ)上,設(shè)計師可以查看、編輯和安排這些自動生成的視覺內(nèi)容,而無需從頭開始創(chuàng)建。
- 代碼生成:生成式人工智能模型可用于為軟件應用程序編寫代碼,或向開發(fā)人員建議代碼的更改。據(jù)此,開發(fā)人員可以在執(zhí)行代碼之前,審查和編輯相應的代碼。
- 藥物發(fā)現(xiàn):生成式人工智能可以通過識別新的候選藥物并預測其特性,來加速藥物的開發(fā),而人類只需控制和保證其質(zhì)量,以及評估由其生成的藥物模型。
小結(jié)
綜上所述,預測式人工智能憑借著其高精度的自動化流程,以及無需人工監(jiān)督的特點,目前仍主導著高端人工智能市場。而生成式人工智能是一個新興的、快速發(fā)展的領(lǐng)域,并且有可能徹底改變許多商業(yè)領(lǐng)域的應用。雖然生成式人工智能是否會成為可與預測性人工智能相比肩的主要生產(chǎn)力驅(qū)動因素尚待觀察,但是其潛力是不可小覷的。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項目實施經(jīng)驗,善于對內(nèi)外部資源與風險實施管控,專注傳播網(wǎng)絡與信息安全知識與經(jīng)驗。
原文標題:Generative vs Predictive AI: Key Differences & Real-World Applications,作者:Mariya Yao