網(wǎng)絡(luò)安全人士必知的AI專業(yè)術(shù)語
隨著人工智能的迅猛發(fā)展,我們正置身于第四次工業(yè)革命的浪潮中。在這個數(shù)字化的時代,網(wǎng)絡(luò)安全成為各行業(yè)至關(guān)重要的議題。作為網(wǎng)絡(luò)安全從業(yè)人員,不僅需要熟練掌握傳統(tǒng)安全領(lǐng)域的知識,更需要深刻理解和運用人工智能,以在風(fēng)云變幻的網(wǎng)絡(luò)戰(zhàn)場中保護(hù)信息資產(chǎn)。人工智能不僅為網(wǎng)絡(luò)安全提供了創(chuàng)新性的解決方案,同時也成為潛在的攻擊目標(biāo)。防御者需要利用先進(jìn)的AI技術(shù),如機器學(xué)習(xí)和深度學(xué)習(xí),來檢測和應(yīng)對日益復(fù)雜的威脅。同時,保障AI本身的安全性也尤為關(guān)鍵,防范對模型的攻擊和濫用。下面梳理了一些專業(yè)術(shù)語。

1.人工智能(AI)
通俗來講,是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),人工智能是先“人工”后“智能”。人工智能行業(yè)有句話:有多少智能,背后就有多少人工。人工智能是新的工業(yè)革命,誰掌握了人工智能,誰就掌握了未來。
2.人工智能五大核心技術(shù)
主要包括計算機視覺、機器學(xué)習(xí)、自然語言處理、機器人和語音識別。
3.人工智能三個階段
總體來說,人工智能分為計算智能、感知智能及認(rèn)知智能三個階段。計算智能就是數(shù)據(jù)運算和統(tǒng)計;感知智能就是視覺、觸覺、聲音等元素的探測和感知,對元素的識別與分類;認(rèn)知智能就是對獲取信息的理解、推理和決策,具備人類的基本思考認(rèn)知能力。
4.人工智能三大學(xué)派
符號主義學(xué)派關(guān)注使用符號和規(guī)則來表示知識和推理。該學(xué)派認(rèn)為智能是通過符號處理和邏輯推理來實現(xiàn)的。代表性的系統(tǒng)包括專家系統(tǒng),它使用規(guī)則庫進(jìn)行推理。
連接主義學(xué)派強調(diào)模仿人腦神經(jīng)網(wǎng)絡(luò)的工作方式。這種學(xué)派使用神經(jīng)網(wǎng)絡(luò)和分布式表示進(jìn)行學(xué)習(xí),強調(diào)從數(shù)據(jù)中提取模式和特征。深度學(xué)習(xí)就是連接主義學(xué)派的一部分,特別是基于深度神經(jīng)網(wǎng)絡(luò)的方法。
演化主義學(xué)派受到達(dá)爾文進(jìn)化論的啟發(fā),認(rèn)為智能是通過演化和遺傳機制逐步發(fā)展的。遺傳算法和進(jìn)化算法是演化主義學(xué)派的代表性方法,它們用于在搜索空間中找到適應(yīng)于特定任務(wù)的解決方案。
5.人工智能的三個核心要素
算法:借鑒人類的思考方式,算法是核心中的核心。是以哲學(xué)、數(shù)學(xué)、生物學(xué)、心理學(xué)、音樂學(xué)、神學(xué)、玄學(xué)等為基礎(chǔ)的思維邏輯和系統(tǒng)頂層認(rèn)知的智慧結(jié)晶。
數(shù)據(jù):用于訓(xùn)練的數(shù)據(jù),有標(biāo)注好的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)。
算力:計算機的處理能力。
沒有合適的算法,理論上就不能解決問題;沒有大量的數(shù)據(jù),就無法訓(xùn)練模型;沒有高性能的計算機(算力),訓(xùn)練速度就會非常緩慢。
6.算力需要的XPU
CPU:Central Processing Unit, 中央處理器
GPU:Graphics Processing Unit, 圖像處理器
TPU:Tensor Processing Unit, 張量處理器
DPU:Deep learning Processing Unit, 深度學(xué)習(xí)處理器
NPU:Neural network Processing Unit, 神經(jīng)網(wǎng)絡(luò)處理器
BPU:Brain Processing Unit, 大腦處理器
7.數(shù)據(jù)標(biāo)注
通過對數(shù)據(jù)貼標(biāo)簽、做記號、標(biāo)顏色或劃重點等方式,標(biāo)注出其中目標(biāo)數(shù)據(jù)的不同點、相似點或類別,以此達(dá)到讓機器學(xué)習(xí)的功能。AI算法需要通過數(shù)據(jù)訓(xùn)練不斷完善,而數(shù)據(jù)標(biāo)注是大部分AI算法得以有效運行的關(guān)鍵環(huán)節(jié)。
8.機器學(xué)習(xí)(ML)
機器學(xué)習(xí)是通過機器模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。
9.深度學(xué)習(xí)(DL)
利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程,類似人類通過大腦層層思考問題,由一個知識綜合多個知識/結(jié)果進(jìn)行層層推理思考,最終得出正確/錯誤的決策或知識去執(zhí)行。
10.自然語言處理(NLP)
對人類語言的處理,生成結(jié)構(gòu)化可定義的語言數(shù)據(jù),比如句型、語法等。
11.自然語言理解(NLU)
計算機能夠理解和生成人類語言,和人一樣能輕松溝通交流。
12.語音識別(ASR)
將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入。
13.語音合成(TTS)
計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚摹⒘骼恼Z言輸出的技術(shù)。
14.計算機視覺(CV)
計算機從圖像中識別出物體、場景和活動的能力,類似于人類日常生活中的視覺交互。
15.神經(jīng)網(wǎng)絡(luò)(CNN)
神經(jīng)網(wǎng)絡(luò)是一種計算模型,靈感來自于人腦的神經(jīng)系統(tǒng)結(jié)構(gòu)。它由神經(jīng)元和層級結(jié)構(gòu)組成,每個神經(jīng)元與其他神經(jīng)元相連,通過學(xué)習(xí)權(quán)重來處理輸入數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)可以進(jìn)行監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),廣泛用于機器學(xué)習(xí)任務(wù)。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)是神經(jīng)網(wǎng)絡(luò)的一種變體,具有多個層次和復(fù)雜的結(jié)構(gòu),特別適用于處理大規(guī)模、高維度的數(shù)據(jù),如圖像識別、語音識別和自然語言處理。神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域取得了顯著成就,推動了人工智能領(lǐng)域的發(fā)展。
16.人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)三者之間的關(guān)系
機器學(xué)習(xí)是人工智能的一個實現(xiàn)途徑,深度學(xué)習(xí)是機器學(xué)習(xí)的一種實現(xiàn)方法。
17.監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中分類方法的一種,將樣本數(shù)據(jù)和預(yù)期結(jié)果建立關(guān)聯(lián)關(guān)系,通過對已知的結(jié)果和已知的樣本數(shù)據(jù)進(jìn)行的不斷學(xué)習(xí)和訓(xùn)練,不斷調(diào)整優(yōu)化特征提取方法,提取樣本數(shù)據(jù)的特征值和預(yù)期結(jié)果形成映射關(guān)系。對于新數(shù)據(jù),借助樣本數(shù)據(jù)的特征提取方法,提取新數(shù)據(jù)的特征值,對新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測。
18.無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)就是不需要對樣本數(shù)據(jù)進(jìn)行結(jié)果標(biāo)注,數(shù)據(jù)獲取成本低,不需要人工標(biāo)記數(shù)據(jù),主要是分析和發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),數(shù)據(jù)本身的自有特征,進(jìn)行歸納和分類。無監(jiān)督學(xué)習(xí)整體上分為聚類和降維兩大類。
19.半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法。通過有標(biāo)簽數(shù)據(jù)輔助訓(xùn)練無標(biāo)簽數(shù)據(jù),無標(biāo)簽數(shù)據(jù)輔助訓(xùn)練出有標(biāo)簽數(shù)據(jù),將有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)通過兩種方法進(jìn)行不同維度的學(xué)習(xí)來提升單一方法的效果。
20.遷移學(xué)習(xí)
遷移學(xué)習(xí)是一種機器學(xué)習(xí)的方法,指的是一個預(yù)訓(xùn)練的模型被重新用在另一個任務(wù)中,起到舉一反三的作用,將部分知識或模型應(yīng)用到其它任務(wù)中,它并不是某一類特定的算法,而是一種處理問題的思想。
21.聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是一種分布式機器學(xué)習(xí)技術(shù),通過在多個擁有本地數(shù)據(jù)的數(shù)據(jù)源之間進(jìn)行分布式模型訓(xùn)練,在不需要交換本地個體或樣本數(shù)據(jù)的前提下,僅通過交換模型參數(shù)或中間結(jié)果的方式,構(gòu)建基于虛擬融合數(shù)據(jù)下的全局模型,從而實現(xiàn)數(shù)據(jù)數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)共享計算的平衡。例如手機輸入法在不同終端根據(jù)用戶本地數(shù)據(jù)訓(xùn)練模型。
22.強化學(xué)習(xí)
強化學(xué)習(xí)是一種機器學(xué)習(xí)的方法,是一種理解和自動化目標(biāo)導(dǎo)向?qū)W習(xí)和決策的計算方法,它強調(diào)個體通過與環(huán)境的直接交互來學(xué)習(xí),而不需要監(jiān)督或完整的環(huán)境模型。類似于在學(xué)習(xí)過程中,自律性強的學(xué)生設(shè)定自己的目標(biāo)和獎勵,達(dá)成某個階段目標(biāo)和獎勵,再不斷自我提高目標(biāo)和獎勵標(biāo)準(zhǔn),通過這種強化學(xué)習(xí)的方式不斷提升學(xué)習(xí)效果。
23.訓(xùn)練集
訓(xùn)練集是用于機器學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)集合,類似于課堂或課后作業(yè)。它包含了模型用于學(xué)習(xí)和調(diào)整參數(shù)的樣本數(shù)據(jù),其中每個樣本都有對應(yīng)的輸入特征和目標(biāo)標(biāo)簽。通過在訓(xùn)練集上進(jìn)行迭代訓(xùn)練,模型能夠?qū)W到數(shù)據(jù)中的模式和關(guān)系,以適應(yīng)任務(wù)的要求。訓(xùn)練集的質(zhì)量和多樣性對模型的性能至關(guān)重要,因為模型的泛化能力取決于其對訓(xùn)練集中不同情境和模式的學(xué)習(xí)程度。在訓(xùn)練完成后,模型可以用于對新的未見數(shù)據(jù)進(jìn)行預(yù)測和分類。
24.驗證集
驗證集是用于評估機器學(xué)習(xí)模型性能的數(shù)據(jù)集合,類似于課后小測驗。它通常是從原始數(shù)據(jù)中獨立劃分出來的,不參與模型的訓(xùn)練過程。驗證集用于調(diào)整模型的超參數(shù),評估模型在未見過的數(shù)據(jù)上的泛化能力,以及檢測模型是否存在過擬合或欠擬合。通過在訓(xùn)練過程中定期使用驗證集進(jìn)行性能評估,可以更好地調(diào)整模型,以提高其在未知數(shù)據(jù)上的預(yù)測準(zhǔn)確性。驗證集在模型開發(fā)和調(diào)優(yōu)過程中扮演重要角色,有助于選擇最佳模型和參數(shù)配置。
25.測試集
測試集是用于最終評估機器學(xué)習(xí)模型性能的獨立數(shù)據(jù)集,類似于期中期末考試。與訓(xùn)練集和驗證集不同,測試集在整個模型開發(fā)和調(diào)優(yōu)過程中都未被用于訓(xùn)練或調(diào)整模型。測試集的目的是模擬模型面對實際應(yīng)用中未見過的新數(shù)據(jù)時的表現(xiàn)。通過在測試集上進(jìn)行評估,可以更準(zhǔn)確地估計模型的泛化性能,并判斷模型是否能夠在真實場景中有效地進(jìn)行預(yù)測或分類。測試集評估結(jié)果有助于確認(rèn)模型的可靠性,并提供對模型在實際使用中的期望性能的信心。
26.過擬合
過擬合是指機器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未見過的測試數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。當(dāng)模型過于復(fù)雜,以至于記住了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是學(xué)到了數(shù)據(jù)的通用模式時,就容易發(fā)生過擬合。過擬合的模型在新數(shù)據(jù)上的泛化能力差,因為它過于適應(yīng)了訓(xùn)練數(shù)據(jù)的特定特征,而無法推廣到其他數(shù)據(jù)。為防止過擬合,可以采用一些方法,如增加訓(xùn)練數(shù)據(jù)量、使用正則化技術(shù)、降低模型復(fù)雜度或采用早停等策略,以確保模型更好地適應(yīng)整體數(shù)據(jù)分布而非僅僅記住訓(xùn)練數(shù)據(jù)的細(xì)節(jié)。
27.欠擬合
欠擬合是指機器學(xué)習(xí)模型無法在訓(xùn)練數(shù)據(jù)上學(xué)到足夠的信息,導(dǎo)致其在訓(xùn)練和測試數(shù)據(jù)上都表現(xiàn)不佳的情況。通常發(fā)生在模型過于簡單或特征提取能力不足的情況下。欠擬合的模型未能捕捉到數(shù)據(jù)的復(fù)雜結(jié)構(gòu)和關(guān)系,導(dǎo)致無法有效地進(jìn)行預(yù)測或分類。為克服欠擬合,可以嘗試增加模型復(fù)雜度、添加更多特征、調(diào)整模型架構(gòu)或使用更復(fù)雜的算法,以使模型能夠更好地適應(yīng)訓(xùn)練數(shù)據(jù)并提高泛化性能。
28.生成對抗網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)架構(gòu),由生成器和判別器組成。生成器負(fù)責(zé)從隨機噪聲生成逼真的數(shù)據(jù)樣本,而判別器則試圖區(qū)分生成的樣本和真實數(shù)據(jù)。兩者通過對抗訓(xùn)練相互提升性能,使生成器生成的樣本越來越難以與真實數(shù)據(jù)區(qū)分。GAN在圖像生成、風(fēng)格遷移等領(lǐng)域取得了成功,能夠生成逼真的圖像和內(nèi)容。然而,訓(xùn)練過程可能面臨挑戰(zhàn),如訓(xùn)練不穩(wěn)定性。GAN的創(chuàng)新在于通過對抗學(xué)習(xí)實現(xiàn)了高質(zhì)量的生成,具有廣泛的應(yīng)用潛力。
29.精確度
精確度是用于評估分類模型性能的指標(biāo),表示模型正確預(yù)測的樣本數(shù)量占總樣本數(shù)量的比例。計算方法為正確預(yù)測的樣本數(shù)除以總樣本數(shù),得到一個介于0和1之間的值。精確度越高,模型對樣本的分類準(zhǔn)確性越好。然而,當(dāng)類別不平衡時,精確度可能不是一個全面的評估指標(biāo),因為它不考慮假正例和假負(fù)例。在某些情況下,需結(jié)合其他指標(biāo)如召回率、F1分?jǐn)?shù)等來更全面地評估模型性能。
30.召回率
召回率是用于評估分類模型性能的指標(biāo),表示模型成功預(yù)測為正類別的樣本數(shù)量占實際正類別樣本總數(shù)的比例。計算方法為正確預(yù)測的正類別樣本數(shù)除以實際正類別樣本總數(shù),得到一個介于0和1之間的值。召回率衡量了模型對正類別樣本的覆蓋程度,即模型能夠識別出多少真正的正例。在一些應(yīng)用場景中,召回率比精確度更為重要,尤其是在關(guān)注遺漏正例的情境中,如醫(yī)學(xué)診斷或欺詐檢測。
31.F1值
F1值是綜合考慮精確度(Precision)和召回率(Recall)的評估指標(biāo),用于評估分類模型性能。F1值是這兩者的調(diào)和平均,計算方法為2 * (Precision * Recall) / (Precision + Recall)。F1值的范圍在0和1之間,取決于精確度和召回率的平衡。它對于解決類別不平衡的問題特別有用,因為它在兩者之間取得平衡。當(dāng)模型需要在精確性和覆蓋率之間做出權(quán)衡時,F(xiàn)1值提供了一個綜合的評估指標(biāo),對于評估模型在各個類別上的整體性能更具意義。
32.AIGC
AIGC指利用人工智能技術(shù)生成文字、圖像、音頻、視頻等內(nèi)容的方法。這涵蓋了各種生成式人工智能模型,如文本生成模型、圖像生成模型(如GAN),語音合成等。AIGC在創(chuàng)造性內(nèi)容生成、藝術(shù)創(chuàng)作、自動化媒體制作等方面具有廣泛的應(yīng)用潛力,為各種領(lǐng)域帶來創(chuàng)新和便利。

































