生成式AI與預(yù)測(cè)式AI的主要區(qū)別與實(shí)際應(yīng)用

作者：陳峻 2023-11-29 08:00:00

本文將和您一起討論推動(dòng)這兩大類人工智能方法的關(guān)鍵性機(jī)器學(xué)習(xí)技術(shù)，與之相關(guān)的獨(dú)特優(yōu)勢(shì)和挑戰(zhàn)，以及他們各自適用的真實(shí)業(yè)務(wù)應(yīng)用。

譯者 | 陳峻

審校 | 重樓

近年來(lái)，預(yù)測(cè)式人工智能（Predictive AI）通過(guò)先進(jìn)的推薦算法、風(fēng)險(xiǎn)評(píng)估模型、以及欺詐檢測(cè)工具，一直在推高著該領(lǐng)域公司的投資回報(bào)率。然而，今年初突然殺出的生成式人工智能（Generative AI）突然成為了全球熱點(diǎn)話題。每個(gè)人都在熱議如何利用大語(yǔ)言模型（Large Language Model，LLM）進(jìn)行內(nèi)容的生成；以及利用客戶服務(wù)或擴(kuò)散模型（Diffusion Model），進(jìn)行視覺內(nèi)容的創(chuàng)建。那么，生成式人工智能將替代預(yù)測(cè)式人工智能，成為提高生產(chǎn)力的關(guān)鍵驅(qū)動(dòng)因素嗎？

為了回答這個(gè)問題，本文將和您一起討論推動(dòng)這兩大類人工智能方法的關(guān)鍵性機(jī)器學(xué)習(xí)技術(shù)，與之相關(guān)的獨(dú)特優(yōu)勢(shì)和挑戰(zhàn)，以及他們各自適用的真實(shí)業(yè)務(wù)應(yīng)用。

基本定義

不可否認(rèn)，生成式人工智能和預(yù)測(cè)式人工智能是兩種強(qiáng)大的AI類型，它們?cè)谏虡I(yè)和其他領(lǐng)域都有著廣泛的應(yīng)用。雖然都使用機(jī)器學(xué)習(xí)從數(shù)據(jù)中獲取“知識(shí)”，但它們的學(xué)習(xí)方式和目標(biāo)有所不同：

預(yù)測(cè)式人工智能通常被用于基于歷史數(shù)據(jù)，來(lái)預(yù)測(cè)未來(lái)的事件或結(jié)果。也就是說(shuō)，它通過(guò)識(shí)別歷史數(shù)據(jù)中的模式，并使用這些模式去預(yù)測(cè)未來(lái)的趨勢(shì)。例如，它可以根據(jù)客戶購(gòu)買的歷史數(shù)據(jù)集，通過(guò)訓(xùn)練智能模型，以預(yù)測(cè)次月哪些客戶最有可能流失。
生成式人工智能通常被用來(lái)創(chuàng)建諸如：文本、圖像、音樂和代碼等新鮮內(nèi)容。它通過(guò)從現(xiàn)有的數(shù)據(jù)中學(xué)習(xí)，以生成與訓(xùn)練數(shù)據(jù)類似的新數(shù)據(jù)。例如，它可以通過(guò)在廣告樣本的數(shù)據(jù)集上進(jìn)行訓(xùn)練，進(jìn)而用于生成新的、創(chuàng)造性的、且有效的廣告。

如上表所示，兩者的基本區(qū)別在于，預(yù)測(cè)式人工智能的輸出是預(yù)測(cè)，而生成式人工智能的輸出是新的內(nèi)容。以下是幾個(gè)典型領(lǐng)域的示例：

自然語(yǔ)言處理（NLP）：預(yù)測(cè)式NLP模型可以將文本分類為諸如：垃圾郵件與非垃圾郵件等預(yù)定義的類別，而生成式NLP模式可以根據(jù)諸如：社交媒體帖子或產(chǎn)品描述等給定的提示，來(lái)創(chuàng)建新的文本。
圖像處理：預(yù)測(cè)式圖像處理模型，如卷積神經(jīng)網(wǎng)絡(luò)（CNN），可以將圖像分類為預(yù)定義的標(biāo)簽，例如：識(shí)別雜貨店貨架上的不同產(chǎn)品。而生成式模型可以利用擴(kuò)散模型，創(chuàng)建培訓(xùn)數(shù)據(jù)中沒有的新圖像，例如：廣告活動(dòng)的虛擬模型。
藥物發(fā)現(xiàn)：預(yù)測(cè)式藥物發(fā)現(xiàn)模型可以預(yù)測(cè)一種新的化合物，是否有毒或有潛力作為一種治療藥物。例如：生殖藥物類生成式模型，可以創(chuàng)建新的、更高效、更低毒性的分子結(jié)構(gòu)。

我們有必要了解驅(qū)動(dòng)這兩種類型AI的不同機(jī)器學(xué)習(xí)算法的各自優(yōu)、劣勢(shì)，以便為業(yè)務(wù)需求選擇正確的實(shí)現(xiàn)方式。

預(yù)測(cè)與生成式人工智能算法的工作原理

預(yù)測(cè)式人工智能通?；诒O(jiān)督式機(jī)器學(xué)習(xí)，來(lái)標(biāo)記數(shù)據(jù)。此處的標(biāo)簽數(shù)據(jù)是指使用正確的輸入和輸出對(duì)或序列，來(lái)注釋數(shù)據(jù)。模型通過(guò)學(xué)習(xí)輸入與輸出數(shù)據(jù)之間的數(shù)學(xué)關(guān)系，來(lái)對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

預(yù)測(cè)式人工智能算法可以基于諸如：線性回歸、邏輯回歸、決策樹、以及隨機(jī)森林等基本的機(jī)器學(xué)習(xí)模型，來(lái)預(yù)測(cè)包括：連續(xù)變量（例如，銷售量）和二進(jìn)制變量（例如，客戶是否會(huì)流失）等各類信息。在某些情況下，由于能夠?qū)W習(xí)到數(shù)據(jù)中的復(fù)雜模式，因此深度學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)在預(yù)測(cè)式人工智能的任務(wù)中，能夠表現(xiàn)出卓越的性能，非常適合于預(yù)測(cè)客戶行為、檢測(cè)欺詐、以及診斷結(jié)果等任務(wù)。

上圖展示了預(yù)測(cè)式人工智能如何基于一組輸入數(shù)據(jù)，來(lái)預(yù)測(cè)二進(jìn)制變量--是否患有心臟病的過(guò)程。當(dāng)醫(yī)療服務(wù)提供商希望使用預(yù)測(cè)式人工智能，來(lái)識(shí)別有心臟病風(fēng)險(xiǎn)的患者時(shí)，他們可能會(huì)使用過(guò)往患者的歷史數(shù)據(jù)，來(lái)了解不同特征（如，患者的人口統(tǒng)計(jì)數(shù)據(jù)、健康和治療狀況）與心臟病的關(guān)系。機(jī)器學(xué)習(xí)模型可以從中發(fā)現(xiàn)意外的模式，并提供關(guān)于哪些患者更易患心臟病的準(zhǔn)確預(yù)測(cè)。據(jù)此，醫(yī)療保健提供者可以制定個(gè)性化的預(yù)防計(jì)劃。

與預(yù)測(cè)式人工智能相比，生成式人工智能通常使用無(wú)監(jiān)督或半監(jiān)督式學(xué)習(xí)算法，來(lái)訓(xùn)練模型。也就是說(shuō)，無(wú)監(jiān)督學(xué)習(xí)算法能夠從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)，而半監(jiān)督學(xué)習(xí)算法則會(huì)從未標(biāo)記和少量標(biāo)記的數(shù)據(jù)組合中學(xué)習(xí)?？偟恼f(shuō)來(lái)，它們不需要大量標(biāo)記數(shù)據(jù)，只需通過(guò)屏蔽部分訓(xùn)練數(shù)據(jù)，然后訓(xùn)練模型，便可恢復(fù)被屏蔽掉的數(shù)據(jù)。例如，大語(yǔ)言模型就是通過(guò)將訓(xùn)練數(shù)據(jù)中的一些標(biāo)記，隨機(jī)替換為特殊標(biāo)記（如，[MASK]）來(lái)進(jìn)行訓(xùn)練。然后，此類模型會(huì)學(xué)習(xí)根據(jù)前后單詞的上下文，以預(yù)測(cè)被屏蔽的標(biāo)記。下圖展示了BERT架構(gòu)中的屏蔽過(guò)程。

另一種常見的生成式人工智能模型是：被用于圖像和視頻生成與編輯的擴(kuò)散模型。這些模型是通過(guò)在圖像中加入噪聲，然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)去除噪聲，以完成構(gòu)建。

上圖展示的過(guò)程是：首先向數(shù)據(jù)集圖像添加噪聲，然后訓(xùn)練模型來(lái)推斷缺失的信息，從而構(gòu)建出擴(kuò)散模型。雖然在面對(duì)足夠大量的未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，LLM和擴(kuò)散模型可以展現(xiàn)優(yōu)異的性能。然而，為了改善特定用例的結(jié)果，開發(fā)人員經(jīng)常會(huì)在少量標(biāo)記的數(shù)據(jù)上，對(duì)生成的模型進(jìn)行微調(diào)，通過(guò)強(qiáng)化學(xué)習(xí)并整合人類的反饋，來(lái)減少對(duì)抗性反應(yīng)的數(shù)量，進(jìn)而提高模型的整體性能。

在實(shí)際應(yīng)用中，營(yíng)銷是最先受益于生成式人工智能的業(yè)務(wù)領(lǐng)域之一。例如，為了生成諸如：博文和社交媒體帖子等創(chuàng)造性的內(nèi)容，營(yíng)銷機(jī)構(gòu)可以首先選擇一個(gè)經(jīng)過(guò)預(yù)處理的LLM，來(lái)證明其用例的可接受性能。然后，他們可以根據(jù)機(jī)構(gòu)客戶的現(xiàn)有內(nèi)容數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)。一旦完成訓(xùn)練，該模型便可被用于生成適合于本機(jī)構(gòu)客戶需求的新的內(nèi)容輸出。

優(yōu)勢(shì)和劣勢(shì)

預(yù)測(cè)式人工智能通常具有如下兩方面的主要優(yōu)勢(shì)：

高精度：通過(guò)訓(xùn)練，預(yù)測(cè)式人工智能模型可以在諸如：產(chǎn)品推薦、欺詐檢測(cè)和風(fēng)險(xiǎn)評(píng)估等許多任務(wù)中，實(shí)現(xiàn)非常高準(zhǔn)確性的預(yù)測(cè)。
自動(dòng)化：預(yù)測(cè)性人工智能可以通過(guò)自動(dòng)化各項(xiàng)任務(wù)，來(lái)解放人類工作者，讓其專注于更具戰(zhàn)略性和創(chuàng)造性的工作。

當(dāng)然，預(yù)測(cè)式人工智能也存在著如下三個(gè)方面的挑戰(zhàn)：

對(duì)標(biāo)簽數(shù)據(jù)的要求：預(yù)測(cè)式人工智能模型需要已標(biāo)記的數(shù)據(jù)，而收集這些數(shù)據(jù)往往既昂貴又耗時(shí)。
成功的標(biāo)準(zhǔn)過(guò)高：在實(shí)際應(yīng)用中，預(yù)測(cè)性人工智能應(yīng)用通常被期望具有高準(zhǔn)確性，而這對(duì)于某些具有復(fù)雜影響因素的任務(wù)而言，可能很難實(shí)現(xiàn)。
模型的維護(hù)：預(yù)測(cè)式人工智能模型需要定期根據(jù)新的數(shù)據(jù)，予以持續(xù)的培訓(xùn)，以保持其準(zhǔn)確性。而這對(duì)于資源有限的公司來(lái)說(shuō)，可能也是一個(gè)挑戰(zhàn)。

我們?cè)賮?lái)看看生成式人工智能算法的優(yōu)勢(shì)：

提高生產(chǎn)力和效率：生成式人工智能可以加快內(nèi)容的創(chuàng)建、代碼的編寫、圖像的設(shè)計(jì)與構(gòu)建過(guò)程，從而為企業(yè)節(jié)省大量時(shí)間和金錢。
創(chuàng)造力：生成式人工智能可以產(chǎn)生人類可能沒有想到的新創(chuàng)意。這可以幫助企業(yè)開發(fā)出新的產(chǎn)品和服務(wù)，并能夠改進(jìn)現(xiàn)有的產(chǎn)品和服務(wù)。

當(dāng)然，作為一項(xiàng)非常新的技術(shù)，生成式人工智能同樣也面臨著許多挑戰(zhàn)：

缺乏可靠性：生成式人工智能應(yīng)用往往存在著高度的不可靠性。它們可能會(huì)產(chǎn)生一些虛假的或誤導(dǎo)性的信息，這些通常都需要人工的干預(yù)。
對(duì)預(yù)處理模型的依賴：企業(yè)通常需要依賴由外部創(chuàng)建的預(yù)處理模型，來(lái)生成智能應(yīng)用。而這很可能會(huì)限制他們對(duì)于模型及其輸出的控制。
版權(quán)和知識(shí)產(chǎn)權(quán)問題：由于生成式人工智能模型是根據(jù)受版權(quán)保護(hù)的數(shù)據(jù)進(jìn)行訓(xùn)練的，因此使用者很可能并不清楚誰(shuí)真正擁有由模型生成的內(nèi)容的版權(quán)。

可以說(shuō)，上述兩種AI的優(yōu)、劣勢(shì)，在很大程度上決定了可以應(yīng)用的關(guān)鍵領(lǐng)域。

真實(shí)世界的應(yīng)用

我們首先來(lái)看預(yù)測(cè)式人工智能的應(yīng)用領(lǐng)域。憑借著高度準(zhǔn)確的預(yù)測(cè)能力，以及能夠獲得足夠多的已標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練AI模型，該預(yù)測(cè)可以完全自動(dòng)化各項(xiàng)任務(wù)。因此，其適用的場(chǎng)景包括：

產(chǎn)品推薦系統(tǒng)：預(yù)測(cè)式人工智能可被用于根據(jù)客戶過(guò)去的購(gòu)買歷史和瀏覽行為，向其推薦產(chǎn)品。
欺詐檢測(cè)系統(tǒng)：預(yù)測(cè)式人工智能可以協(xié)助識(shí)別各種欺詐交易和活動(dòng)。
風(fēng)險(xiǎn)評(píng)估系統(tǒng)：預(yù)測(cè)式人工智能模型允許企業(yè)評(píng)估貸款違約、保險(xiǎn)索賠、以及客戶流失等業(yè)務(wù)風(fēng)險(xiǎn)事件。
需求預(yù)測(cè)系統(tǒng)：通過(guò)準(zhǔn)確預(yù)測(cè)對(duì)于產(chǎn)品和服務(wù)的需求，預(yù)測(cè)式人工智能夠幫助企業(yè)規(guī)劃生產(chǎn)和庫(kù)存水平，并制定各種營(yíng)銷活動(dòng)。
預(yù)測(cè)性維護(hù)系統(tǒng)：此類人工智能可用于預(yù)測(cè)機(jī)器和設(shè)備可能發(fā)生故障的時(shí)間，從而幫助企業(yè)規(guī)避代價(jià)高昂的停機(jī)時(shí)間，并延長(zhǎng)資產(chǎn)的使用壽命。

與預(yù)測(cè)式人工智能不同，生成式人工智能并不要求我們產(chǎn)生最佳的輸出。只要其自動(dòng)生成的結(jié)果“足夠好”，仍然可以幫助企業(yè)提高生產(chǎn)力和效率。不過(guò)，值得注意的是，生成式人工智能應(yīng)用并不總是可靠，在部署時(shí)可能會(huì)產(chǎn)生錯(cuò)誤的信息或意外的輸出。鑒于該局限性，生成式人工智能最適合于正確性不重要的實(shí)驗(yàn)性場(chǎng)合（例如，AI聊天機(jī)器人），或者是有人工參與的環(huán)節(jié)（例如，在發(fā)布、發(fā)送或執(zhí)行之前，需要人工檢查和編輯模型輸出的所有內(nèi)容）。

下面是生成式人工智能應(yīng)用的典型示例：

內(nèi)容創(chuàng)建：生成式人工智能模型可以加速博客文章、產(chǎn)品描述和社交媒體廣告的生成。例如，作者可以提供詳細(xì)的說(shuō)明，來(lái)指導(dǎo)內(nèi)容的輸出，然后審查和編輯由此產(chǎn)生的內(nèi)容。
圖像生成：生成式人工智能可用于為產(chǎn)品設(shè)計(jì)、營(yíng)銷和娛樂，生成逼真的圖像和視頻。在此基礎(chǔ)上，設(shè)計(jì)師可以查看、編輯和安排這些自動(dòng)生成的視覺內(nèi)容，而無(wú)需從頭開始創(chuàng)建。
代碼生成：生成式人工智能模型可用于為軟件應(yīng)用程序編寫代碼，或向開發(fā)人員建議代碼的更改。據(jù)此，開發(fā)人員可以在執(zhí)行代碼之前，審查和編輯相應(yīng)的代碼。
藥物發(fā)現(xiàn)：生成式人工智能可以通過(guò)識(shí)別新的候選藥物并預(yù)測(cè)其特性，來(lái)加速藥物的開發(fā)，而人類只需控制和保證其質(zhì)量，以及評(píng)估由其生成的藥物模型。

小結(jié)

綜上所述，預(yù)測(cè)式人工智能憑借著其高精度的自動(dòng)化流程，以及無(wú)需人工監(jiān)督的特點(diǎn)，目前仍主導(dǎo)著高端人工智能市場(chǎng)。而生成式人工智能是一個(gè)新興的、快速發(fā)展的領(lǐng)域，并且有可能徹底改變?cè)S多商業(yè)領(lǐng)域的應(yīng)用。雖然生成式人工智能是否會(huì)成為可與預(yù)測(cè)性人工智能相比肩的主要生產(chǎn)力驅(qū)動(dòng)因素尚待觀察，但是其潛力是不可小覷的。

譯者介紹

陳峻（Julian Chen），51CTO社區(qū)編輯，具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn)，善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控，專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。

原文標(biāo)題：Generative vs Predictive AI: Key Differences & Real-World Applications，作者：Mariya Yao

責(zé)任編輯：華軒來(lái)源： 51CTO