如何應(yīng)對生成式人工智能給出的無窮無盡的正確答案
生成式人工智能 (GenAI) 似乎承諾帶來前所未有的創(chuàng)新和自動化機會……然而,許多領(lǐng)導(dǎo)者難以清楚地表達 GenAI在組織層面提供的實際、有形價值。

那么,這種明顯的 GenAI 價值差距背后是什么?我們能做些什么來解決這個問題?
我們先暫停關(guān)于 GenAI 的成功如何取決于基礎(chǔ)模型、數(shù)據(jù)和定制的討論,以考慮另一個或者可以說更重要的GenAI 業(yè)務(wù)成功的投入:領(lǐng)導(dǎo)力。
我確信 GenAI 的機遇是真實存在的,但需要一種特殊的領(lǐng)導(dǎo)思維才能挖掘這些機遇。
領(lǐng)導(dǎo)力作為技術(shù)考慮因素
“...在生成式 AI 旅程的每個階段提出一個問題 ——‘這里的商業(yè)價值是什么’——可以幫助您的組織保持正軌?!?/p>
這種觀點來自亞馬遜網(wǎng)絡(luò)服務(wù) (AWS) 的湯姆·戈登 (Tom Godden),發(fā)表在《哈佛商業(yè)評論》的一篇關(guān)于企業(yè)領(lǐng)導(dǎo)者實施 GenAI 的技術(shù)考慮的文章中。
這是非常好的建議。但你可能因為這個建議聽起來像是給高管的標(biāo)準(zhǔn)建議而忽視它:不要在做某事時不考慮它能為你的組織帶來什么價值。
但是,與其他技術(shù)(包括您已經(jīng)習(xí)慣的傳統(tǒng)人工智能)相比,價值更重要的是——正如這篇 HBR 文章所建議的那樣——*技術(shù)考慮*和領(lǐng)導(dǎo)力是對 GenAI 系統(tǒng)的技術(shù)投入。
當(dāng)缺乏領(lǐng)導(dǎo)力作為技術(shù)投入時,GenAI 將在您的組織中一再失去其潛力。
與其他數(shù)據(jù)驅(qū)動技術(shù)相比,為什么這對 GenAI 來說是一個特殊的挑戰(zhàn)?
新的思維方式:無窮無盡的“正確”答案
正當(dāng)高管們逐漸意識到管理包括傳統(tǒng)人工智能在內(nèi)的生態(tài)系統(tǒng)意味著什么時,GenAI 要求我們進行另一次思維轉(zhuǎn)變;在這個轉(zhuǎn)變中,有無數(shù)正確答案。
- 傳統(tǒng)的人工智能用于自動執(zhí)行只有一個正確答案的任務(wù)。
 - 生成式人工智能用于自動執(zhí)行有無數(shù)正確答案的任務(wù)。
 
例如:
- 傳統(tǒng)人工智能:當(dāng)我站在自動護照檢查亭前時,如果面部識別系統(tǒng)錯誤地標(biāo)記了我,它可能會產(chǎn)生一大堆錯誤答案中的任何一個,但只有一個正確答案。
 - 生成式人工智能:當(dāng)我要求人工智能助手為我生成圖像時,我得到了相當(dāng)可靠的結(jié)果。當(dāng)我重復(fù)同樣的提示時,我得到了完全不同的圖像。兩者都是正確答案……但哪一個更正確呢?
 

以上哪幅圖像是對提示“藝術(shù)畫廊,橙色墻壁,黑色地板,有許多相同的藍色花卉畫的復(fù)制品”的“最佳”回應(yīng)?它比其他的好多少?這完全取決于旁觀者的眼光。
在無盡正確答案的世界中確定衡量標(biāo)準(zhǔn)
如果不更新思維模式,評估 GenAI 的投資回報率 (ROI) 就是一條統(tǒng)計死胡同。對于個人用戶來說,GenAI 可能感覺有用就足夠了,但對于您的組織來說這還不夠……
為了證明你對技術(shù)的投資有影響,你必須能夠衡量其績效。為了確保該測量的統(tǒng)計有效性,你需要提前提出指標(biāo)和定義。預(yù)測并評分 GenAI 無窮無盡的正確答案范圍……這是采用它所面臨的前所未有的領(lǐng)導(dǎo)力挑戰(zhàn)。
當(dāng)“最佳”取決于旁觀者的眼光時,投資回報率 (ROI) 在規(guī)模上是一個棘手的概念。
這就是領(lǐng)導(dǎo)力如此重要的原因:“最佳”取決于旁觀者的 GenAI。旁觀者是誰?誰是負(fù)責(zé)人(誠然,在大型組織中,這并不總是一個簡單的概念)。
當(dāng)多個答案都以其自身的方式有效時,設(shè)計績效指標(biāo)是一項特殊的挑戰(zhàn),因為成功取決于背景、判斷和主觀偏好。
因此,作為領(lǐng)導(dǎo)者必須定義價值對您的組織意味著什么,然后在可能尚未做好準(zhǔn)備的組織中倡導(dǎo)一種新的衡量思維方式。
克服這個障礙——這是一個關(guān)于人而非技術(shù)的巨大挑戰(zhàn)——你將解鎖巨大的機遇寶庫。
克服無盡正確答案的挑戰(zhàn)
讓我分享一些可能有助于您的 GenAI 性能測量和基準(zhǔn)測試之旅的建議:
- 明確誰來決定。也許 GenAI 驅(qū)動的組織中最重要的問題根本不是技術(shù)問題:誰來決定成功是什么樣子?
 - 明確目標(biāo)。在無休止的正確答案環(huán)境中,衡量指標(biāo)首先要明確您要實現(xiàn)的目標(biāo)。您的目標(biāo)是激發(fā)創(chuàng)造力、提高效率還是符合特定基調(diào)?還是完全不同的東西?
 - 成為有意義的作者。不要指望你的量化分析師提供簡單的指標(biāo),而要欣賞設(shè)計 GenAI 指標(biāo)的過程本身就有無數(shù)正確答案,并且需要勇敢的領(lǐng)導(dǎo)者做出判斷。
 - 從足夠好的角度來思考。不要比較正確答案,而要考慮設(shè)置標(biāo)準(zhǔn),將復(fù)雜的輸出縮減為熟悉的二進制:可接受或不可接受。請注意,如果您采用這種方法,您可能會找到減少模型升級的理由,這可能是最好的,特別是當(dāng)輸出不直接面向用戶時。
 - 使用人工評分作為代理。借鑒社會科學(xué)和過去十年使用可信評分者對系統(tǒng)輸出進行評分的最佳實踐,您可以選擇依靠人工對采樣輸出進行評估。
 - 嘗試實驗。避免直接測量麻煩的一種統(tǒng)計有效方法是運行受控實驗(例如A/B 測試)來證明您的 GenAI 對您的某個 KPI 有實質(zhì)性影響。
 - 將其與業(yè)務(wù)聯(lián)系起來。在可能的情況下,用可衡量的關(guān)系來表達 GenAI 輸出,以直接的業(yè)務(wù)指標(biāo),可以讓你的方法立足于現(xiàn)實。
 
規(guī)模需求需要衡量
這一切與管理人類創(chuàng)意工作者有何不同?與人類工作者不同,人工智能系統(tǒng)無法為自己承擔(dān)責(zé)任。
這取決于你作為領(lǐng)導(dǎo)者的職責(zé)。
如果你不愿意站出來為 GenAI 系統(tǒng)的價值發(fā)聲,那么你就只能將 GenAI 作為一種工作效率工具,供你的員工隨意使用。充其量,你只能開發(fā)出簡單的人機交互系統(tǒng),但僅此而已。
要釋放 GenAI 的全部潛力,您必須直面承擔(dān)無數(shù)正確答案的責(zé)任。
人工智能系統(tǒng)無法為自己承擔(dān)責(zé)任。這是你作為領(lǐng)導(dǎo)者的責(zé)任。
現(xiàn)在,企業(yè)領(lǐng)導(dǎo)者需要成為價值的代言人,并根據(jù)預(yù)期的業(yè)務(wù)成果和價值來闡述 GenAI 的機會和優(yōu)先事項。只有這樣,組織才能團結(jié)一致,共同實現(xiàn)明確的目標(biāo),充分利用 GenAI 的全部力量。
作為一名領(lǐng)導(dǎo)者,從模糊性中創(chuàng)造意義將完全落在您的肩上:您越能樹立新的清晰度和目的性標(biāo)準(zhǔn),您就越能激勵其他人迎接挑戰(zhàn)。















 
 
 

















 
 
 
 