數據來源仍然是人工智能主要瓶頸
?根據Appen本周發(fā)布的《人工智能和機器學習狀況》報告,各機構仍在努力獲取良好、干凈的數據,以維持其人工智能和機器學習計劃。

根據Appen對504名商業(yè)領袖和技術專家的調查,在人工智能的四個階段中,數據來源;數據準備;模型訓練和部署;人工主導的模型評估階段——數據來源消耗的資源最多、時間最長、最具挑戰(zhàn)性。
根據Appen的調查,數據來源平均消耗企業(yè)組織34%的人工智能預算,數據準備、模型測試和部署各占24%,模型評估占15%。該調查由哈里斯調查(Harris Poll)進行,受訪者包括來自美國、英國、愛爾蘭和德國的IT決策者、商業(yè)領袖和經理以及技術從業(yè)者。

就時間而言,數據來源大約消耗26%的時間,數據準備的時間為24%,模型測試、部署和模型評估的時間各為23%。最后,42%的技術人員認為數據來源是AI生命周期中最具挑戰(zhàn)性的階段,其他階段情況分別為:模型評估(41%)、模型測試和部署(38%)和數據準備(34%)。
盡管面臨挑戰(zhàn),但各企業(yè)組織都在努力使其發(fā)揮作用。據Appen稱,五分之四(81%)的受訪者表示,他們有足夠的數據支持他們的人工智能計劃。成功的關鍵可能在于:絕大多數(88%)的公司通過使用外部AI訓練數據提供商(如Appen)來擴充數據。
然而,數據的準確性還有待商榷。Appen發(fā)現,只有20%的受訪者報告數據準確率超過80%。只有6%(大約每20個人中有一個)說他們的數據準確性達到90%或更高。
考慮到這一點,根據Appen的調查,近一半(46%)的受訪者認為數據的準確性很重要。只有2%的人認為數據準確性不是很大的需求,而51%的人認為這是至關重要的需求。
Appen的首席技術官Wilson Pang對數據質量的重要性有著不同的看法,他的客戶中有48%認為數據質量不重要。
報告中說:“數據的準確性對人工智能和ML模型的成功至關重要,因為質量豐富的數據會產生更好的模型輸出和一致的處理和決策?!薄盀榱双@得好的結果,數據集必須準確、全面和可擴展?!?/p>
深度學習和以數據為中心的人工智能的興起,已經將人工智能成功的動力從良好的數據科學和機器學習建模轉移到良好的數據收集、管理和標簽。在當今的遷移學習技術中,這一點尤其明顯。人工智能的實踐者會放棄一個大型的預先訓練的語言或計算機視覺模型,用他們自己的數據對其中的一小部分進行再訓練。
更好的數據還可以幫助防止不必要的偏見滲透到人工智能模型中,防止人工智能可能導致的壞結果。對于大型語言模型來說,這一點尤其明顯。
報告中說:“隨著在多語言網絡抓取數據上訓練的大型語言模型(LLM)的興起,企業(yè)正面臨另一個挑戰(zhàn)。由于訓練語料庫中充斥著有毒的語言,以及種族、性別和宗教偏見,這些模型通常會表現出不受歡迎的行為。”
網絡數據的偏見引發(fā)了棘手的問題,雖然有一些變通辦法(改變訓練方案,過濾訓練數據和模型輸出,并從人類反饋和測試中學習),但需要進行更多的研究,以創(chuàng)建一個“以人為中心的LLM”基準和模型評估方法的良好標準。
Appen表示,數據管理仍然是人工智能面臨的最大障礙。調查發(fā)現,在人工智能循環(huán)中,41%的人認為數據管理是最大的瓶頸。排在第四位的是缺乏數據,30%的受訪者認為這是人工智能成功的最大障礙。
但也有一些好消息:企業(yè)用于管理和準備數據的時間正在下降。Appen說,今年的比例剛剛超過47%,而去年報告中的比例為53%。
“由于大多數受訪者使用外部數據提供商,可以推斷,通過外包數據來源和準備,數據科學家正在節(jié)省適當管理、清潔和標簽他們的數據所需的時間?!睌祿撕灩菊f。
然而,根據數據中相對較高的錯誤率判斷,也許組織不應該縮減其數據來源和準備過程(無論是內部的還是外部的)。當涉及到建立和維護AI流程時,有很多相互競爭的需求——雇傭合格的數據專業(yè)人員的需求是Appen確定的另一個首要需求。但是,在數據管理取得重大進展之前,組織應該繼續(xù)向他們的團隊施加壓力,繼續(xù)推動數據質量的重要性。
調查還發(fā)現,93%的組織強烈或在一定程度上同意AI倫理應該是AI項目的“基礎”。Appen首席執(zhí)行官Mark Brayan表示,這是一個良好的開端,但還有很多工作要做。Brayan在一份新聞稿中說:“問題是,許多人正面臨著試圖用糟糕的數據集構建偉大的人工智能的挑戰(zhàn),這為實現他們的目標制造了巨大的障礙?!?/p>
根據Appen的報告,企業(yè)內部自定義收集的數據仍然是用于人工智能的主要數據集,占數據的38%至42%。合成數據表現出驚人的強勁,占組織數據的24%至38%,而預標記數據(通常來自數據服務提供商)占數據的23%至31%。
特別是,合成數據有可能減少敏感AI項目中的偏差發(fā)生率,Appen 97%的調查參與者表示,他們在“開發(fā)包容性訓練數據集”中使用了合成數據。

報告中其他有趣地發(fā)現包括:
- 77%的組織每月或每季度對他們的模型進行再訓練;(Ai時代前沿解讀:人工智能不是一勞永逸的,根據應用需求不斷提升,需要不斷更新。)
 - 55%的美國企業(yè)聲稱自己領先于競爭對手,而在歐洲這一比例為44%;(Ai時代前沿解讀:歐洲人略微比美國人低調一些。)
 - 42%的組織報告稱人工智能“廣泛”推出,而在《2021年人工智能狀態(tài)報告》中,這一比例為51%;(Ai時代前沿解讀:人工智能應用越來越廣泛了。)
 - 7%的機構報告稱人工智能預算超過500萬美元,而去年這一比例為9%。(Ai時代前沿解讀:一方面可能由于人工智能逐漸成熟降低了成本,也說明人工智能不再是一個“奢侈品”,正逐漸成為企業(yè)的“必備品”。)
 















 
 
 











 
 
 
 