揭秘!百度智能云如何通過技術(shù)釋放數(shù)據(jù)要素價值
隨著數(shù)字經(jīng)濟時代的到來, 數(shù)據(jù)正在發(fā)揮著越來越大的價值,為各行各業(yè)的智能化轉(zhuǎn)型提供動能。12月25日,以“技術(shù)驅(qū)動,釋放數(shù)據(jù)要素價值”為主題的百度智能云TechDay暨百度技術(shù)開放日——數(shù)據(jù)眾包專場在北京舉行。百度作為一家深耕人工智能技術(shù)多年的公司,同時也是AI數(shù)據(jù)采集和標(biāo)注的先行者和推動者,百度智能云數(shù)據(jù)眾包依托百度10年AI數(shù)據(jù)經(jīng)驗、領(lǐng)先的產(chǎn)品技術(shù)能力和業(yè)界最大的數(shù)據(jù)標(biāo)注基地,正在為上百家領(lǐng)軍企業(yè)提供AI數(shù)據(jù)服務(wù),加速產(chǎn)業(yè)升級。
數(shù)據(jù)是人工智能技術(shù)發(fā)展的“燃料”。在今年,“數(shù)據(jù)”首次被中央納入生產(chǎn)要素,這代表數(shù)字中國建設(shè)再次提速。百度技術(shù)委員會理事長陳尚義表示:“2010年初,百度開始布局人工智能,是國內(nèi)投入最早、技術(shù)最強、布局最完整的人工智能領(lǐng)軍企業(yè),也是最懂?dāng)?shù)據(jù)的企業(yè)。目前百度智能云數(shù)據(jù)眾包已經(jīng)成為業(yè)界規(guī)模最大、品牌和技術(shù)最強的AI數(shù)據(jù)服務(wù)商,可以為廣大的AI開發(fā)者提供最專業(yè)、高質(zhì)量的一站式數(shù)據(jù)采集標(biāo)注等服務(wù)。”
百度技術(shù)委員會理事長 陳尚義
數(shù)據(jù)眾包模式是群體智能的一種集中體現(xiàn)。北京航空航天大學(xué)計算機學(xué)院的孫海龍教授分享了面向大數(shù)據(jù)產(chǎn)業(yè)的群體智能遇到的機遇與挑戰(zhàn)。他表示,群體智能是國家新一代人工智能發(fā)展規(guī)劃的核心內(nèi)容之一,為大數(shù)據(jù)智能產(chǎn)業(yè)發(fā)展提供重要的理論與技術(shù)支撐。特別是,數(shù)據(jù)眾包廣泛用于大數(shù)據(jù)感知、收集和分析等,已成為群體智能支撐大數(shù)據(jù)智能產(chǎn)業(yè)的重要形式,但仍面臨著群智資源管理、任務(wù)調(diào)度分配以及結(jié)果匯聚等多方面的技術(shù)挑戰(zhàn),解決這些挑戰(zhàn)性問題迫切需要學(xué)術(shù)界與產(chǎn)業(yè)界的深度合作。
北京航空航天大學(xué)計算機學(xué)院教授、博士生導(dǎo)師 孫海龍
一站式數(shù)據(jù)標(biāo)注服務(wù),引領(lǐng)數(shù)據(jù)產(chǎn)業(yè)發(fā)展
百度智能云數(shù)據(jù)眾包打造的AI數(shù)據(jù)標(biāo)注平臺,實現(xiàn)數(shù)據(jù)從采集、接入、清洗、標(biāo)注,到質(zhì)量管理、交付等各流程的一站式管理。
數(shù)據(jù)采集方面,百度智能云采集資源覆蓋40多個國家地區(qū),全國8大方言區(qū)。百度智能云數(shù)據(jù)眾包已實現(xiàn)到業(yè)內(nèi)最快的人像采集速度,每周可采集人像3萬個,采集語音5萬條。

數(shù)據(jù)標(biāo)注方面,百度智能云數(shù)據(jù)眾包已經(jīng)形成四大關(guān)鍵能力:支持全場景的數(shù)據(jù)標(biāo)注工具、全流程的流程平臺管理能力、智能的標(biāo)注技術(shù)以及龐大的資源支撐的能力,能夠針對各類AI應(yīng)用場景數(shù)據(jù)需求,提供一站式AI數(shù)據(jù)服務(wù)。百度智能云數(shù)據(jù)眾包沉淀了70余種數(shù)據(jù)標(biāo)注的能力,近十年來已經(jīng)為百度200多條產(chǎn)品線和業(yè)內(nèi)上百家行業(yè)頭部客戶提供了近5萬次AI數(shù)據(jù)服務(wù),正確率最高達(dá)到99.99%。
會上,百度智能云數(shù)據(jù)眾包團隊揭秘了AI數(shù)據(jù)標(biāo)注平臺的核心技術(shù)。數(shù)據(jù)標(biāo)注平臺由工具平臺、資源管理平臺和任務(wù)分發(fā)管理平臺組成。工具平臺滿足客戶語音、圖片、視頻、文本、3D點云等全類型、全場景數(shù)據(jù)標(biāo)注,支持點、線、框、區(qū)域等多種元素拖拽配置,每年支持?jǐn)?shù)千個不同規(guī)則項目需求;資源管理平臺與任務(wù)分發(fā)管理平臺,打造從數(shù)據(jù)接入、任務(wù)分配、資源調(diào)度、質(zhì)量審核、任務(wù)結(jié)算等全流程支撐體系,實現(xiàn)對百萬級任務(wù)和數(shù)十萬用戶實時管理。借助機器決策,標(biāo)注過程實現(xiàn)了人員和數(shù)據(jù)的自動流轉(zhuǎn),擺脫了人工干預(yù),兼顧了效率和公平。針對用戶歷史標(biāo)注行為進(jìn)行深度挖掘,結(jié)合百度自身的用戶畫像能力,系統(tǒng)能自動描繪出全面、精準(zhǔn)、多維的用戶畫像體系,為每一個數(shù)據(jù)標(biāo)注項目推薦最合適的標(biāo)、審人員,確保使用最匹配的人員為客戶釋放數(shù)據(jù)最大的價值,在保證質(zhì)量的同時更兼顧了效率。數(shù)據(jù)標(biāo)注平臺以百度智能云AI、大數(shù)據(jù)、云計算等能力為底座,基于領(lǐng)域驅(qū)動的微服務(wù)架構(gòu)、插件化的微內(nèi)核架構(gòu),保障平臺快速高效運行,為客戶創(chuàng)造大規(guī)模高質(zhì)量數(shù)據(jù)標(biāo)注服務(wù)保駕護(hù)航。

值得一提的是,百度智能云數(shù)據(jù)眾包不斷探索前沿智能標(biāo)注技術(shù),從0到1,構(gòu)建強大算法能力。目前,AI算法已貫穿標(biāo)注前、標(biāo)注中、標(biāo)注后全流程,廣泛應(yīng)用于預(yù)標(biāo)注、輔助標(biāo)注、質(zhì)量檢查、人員畫像等各環(huán)節(jié),累計提升標(biāo)注效率超60%,標(biāo)注錯誤自動檢出占比達(dá)70%,極大提升標(biāo)注效率與質(zhì)量。據(jù)介紹,AI輔助的智能標(biāo)注引入后,實現(xiàn)人體骨骼點標(biāo)注整體效率提升71%,OCR的輔助標(biāo)簽效率提升20%,3D連續(xù)幀障礙物預(yù)識別單幀效率提升28.8%。此外,數(shù)據(jù)眾包與百度研究院合作的基于深度學(xué)習(xí)的三維點云等前沿標(biāo)注技術(shù)持續(xù)激發(fā)AI數(shù)據(jù)的潛能,目前已在自動駕駛領(lǐng)域取得不俗進(jìn)展。
首發(fā)數(shù)據(jù)服務(wù)與資產(chǎn)管理平臺,提效AI算法模型迭代
作為此次活動的一大亮點,百度智能云發(fā)布了業(yè)內(nèi)首個智能駕駛領(lǐng)域數(shù)據(jù)服務(wù)與資產(chǎn)管理平臺,為智能駕駛企業(yè)用戶提供一體化智能數(shù)據(jù)服務(wù)解決方案。數(shù)據(jù)服務(wù)與資產(chǎn)管理平臺覆蓋“數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理、模型訓(xùn)練、模型評測”的人工智能開發(fā)全生命周期,幫助企業(yè)用戶圍繞數(shù)據(jù)打造AI Pipeline,提升AI算法模型迭代效率,讓數(shù)據(jù)更好的驅(qū)動模型開發(fā)。數(shù)據(jù)服務(wù)與資產(chǎn)管理平臺將以領(lǐng)先的數(shù)據(jù)服務(wù),為客戶打造AI數(shù)據(jù)閉環(huán),加速客戶數(shù)據(jù)價值實現(xiàn)。

數(shù)字經(jīng)濟時代,數(shù)據(jù)已經(jīng)成為關(guān)鍵生產(chǎn)要素?,F(xiàn)場的專家一致認(rèn)為,未來數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理、人才培訓(xùn)、流程標(biāo)準(zhǔn)等將成為AI數(shù)據(jù)服務(wù)進(jìn)一步發(fā)展的關(guān)鍵驅(qū)動,推動人工智能技術(shù)進(jìn)入大規(guī)模應(yīng)用。百度智能云數(shù)據(jù)眾包作為行業(yè)實踐的先行者,將依托“百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地”的專業(yè)標(biāo)注人力,以業(yè)界領(lǐng)先的技術(shù)實力賦能各行各業(yè),持續(xù)釋放數(shù)據(jù)要素的深層價值。