EasyDL輕松搞定對(duì)抗學(xué)習(xí) 多算法比對(duì)臨床試驗(yàn)數(shù)據(jù)
原創(chuàng)【51CTO.com原創(chuàng)稿件】圖像學(xué)習(xí)是一種精巧的算法,其對(duì)圖像的高適應(yīng)性,為很多產(chǎn)業(yè)變革帶來了質(zhì)變。然而對(duì)于企業(yè)來講,找到能夠熟練掌握深度學(xué)習(xí)的人才,來調(diào)整圖像學(xué)習(xí)參數(shù)是很難的,加上數(shù)據(jù)科學(xué)家團(tuán)隊(duì)昂貴的人力資源成本,很多中小企業(yè)望而卻步。然而,企業(yè)對(duì)于通過圖像識(shí)別適配行業(yè)解決一些痛點(diǎn)的需求是持續(xù)存在的。
百度EasyDL是百度公司為沒有算法基礎(chǔ)的開發(fā)者和企業(yè)提供的AI圖像識(shí)別方案,其具備少數(shù)據(jù)量、易于操作、快速訓(xùn)練圖像識(shí)別類AI模型的優(yōu)勢(shì)。EasyDL讓中小型企業(yè)及個(gè)人可以在很短的時(shí)間獲得AI能力,將圖像識(shí)別投入到生產(chǎn)或者興趣制作之中,它可作為一套優(yōu)秀技術(shù)解決方案的基石。
圖像特征學(xué)習(xí)算法是從傳統(tǒng)圖像模式識(shí)別算法中衍生的新型算法,其算法原型借鑒于Leica Biosystems的下屬品牌Aperio系列軟件Image Analysis,是非常成熟的Image Analysis的模式識(shí)別算法的迭代進(jìn)化算法。目前特征學(xué)習(xí)算法在臨床無染色尿沉渣檢驗(yàn)醫(yī)療器械產(chǎn)品中被越來越多的應(yīng)用。
在使用傳統(tǒng)或是AI的單一算法過程中,無論哪種算法我們都無法讓系統(tǒng)自行證明結(jié)果的正確性,但當(dāng)引入競(jìng)爭(zhēng)算法時(shí),通過兩種AI算法可以相互論證結(jié)果正確性。
傳統(tǒng)單一AI算法無法指出自身的識(shí)別錯(cuò)誤,往往需要人工復(fù)查每一個(gè)結(jié)果;而對(duì)抗算法可以有效的解決這一問題,人工只需要仲裁兩種AI的差異結(jié)果,即可完成正確的應(yīng)用過程中推理。而仲裁結(jié)果在完全自主對(duì)抗系統(tǒng)中,會(huì)將仲裁結(jié)果重新加入訓(xùn)練集,進(jìn)而進(jìn)化兩種AI的準(zhǔn)確性,這樣避免了單一AI算法的過學(xué)習(xí),也提高了AI的準(zhǔn)確性。
因此,我嘗試把EasyDL與特征學(xué)習(xí)互相對(duì)抗,它們均具備良好的易操作性,較少的樣本量;且EasyDL與圖像特征學(xué)習(xí)算法互通用學(xué)習(xí)樣本、樣本采集及標(biāo)注工具,故可相互形成對(duì)抗互校,形成更高形態(tài)的AI學(xué)習(xí),在互相較量中形成更為精準(zhǔn)的識(shí)別模型,不僅可滿足企業(yè)通過圖像學(xué)習(xí)解決實(shí)際問題的需求,而且可以得到較高的識(shí)別效果。
下面就以臨床檢驗(yàn)的數(shù)據(jù),按照?qǐng)D像模型制作的8個(gè)步驟,來做對(duì)抗的詳細(xì)說明:
特征學(xué)習(xí)從原始圖像中制作成可用于訓(xùn)練的圖像模型,需如下八個(gè)步驟:圖像增強(qiáng)、圖像切割、圖像標(biāo)注、圖像清洗、訓(xùn)練可用性審核(圖像審核)、單種類特征模型學(xué)習(xí)、多種類特異性特征學(xué)習(xí)、訓(xùn)練模型注入到作業(yè)程序。
EasyDL與特征學(xué)習(xí)的訓(xùn)練方式基本互通,只是單種類特征模型學(xué)習(xí)與多種類特異性特征學(xué)習(xí)過程中,EasyDL是由深度學(xué)習(xí)作為其中多個(gè)邏輯層,自主完成計(jì)算。
在訓(xùn)練模型注入到作業(yè)程序環(huán)節(jié)中,特征學(xué)習(xí)依靠本地內(nèi)網(wǎng)系統(tǒng)優(yōu)勢(shì)自動(dòng)完成,而EasyDL提供API接口及本地化識(shí)別SDK完成部署。
EasyDL與特征學(xué)習(xí)的對(duì)比
1) 圖像增強(qiáng)
特征學(xué)習(xí)提供比較適合臨床檢驗(yàn)鏡下圖像的“L30圖像增強(qiáng)”,用來調(diào)整圖像增強(qiáng)參數(shù),以獲得更好的圖像特征。增強(qiáng)后的圖像比增強(qiáng)前的圖像更加清晰,細(xì)胞內(nèi)紋路更加鮮明,背景更加純正,但有時(shí)也會(huì)遇到過增強(qiáng),所以要適配顯微鏡和攝像頭參數(shù)來進(jìn)行調(diào)節(jié)。
2) 圖像切割、圖像分類、圖像標(biāo)注。
圖像切割也可以使用特征學(xué)習(xí)的快速切割分類標(biāo)注軟件“L31圖像標(biāo)注”系統(tǒng)來完成。L31的使用非常便利,只需要圈選單個(gè)細(xì)胞,再點(diǎn)擊細(xì)胞分類,L31就會(huì)自動(dòng)完成圖像切割,并自動(dòng)命名為標(biāo)注名稱,并上傳至內(nèi)網(wǎng)圖像數(shù)據(jù)服務(wù)器“HomeShip\FH\細(xì)胞名稱\”之中。
EasyDL的訓(xùn)練圖像需要上傳至百度的平臺(tái)中,所以要在圖像清洗作業(yè)之后,將每一類細(xì)胞、結(jié)晶、管型、真菌單獨(dú)上傳即可,可以在EasyDL中直接標(biāo)注,也可以API上傳標(biāo)注后的訓(xùn)練數(shù)據(jù)。
特征學(xué)習(xí)自帶的圖像切割、分類、標(biāo)注系統(tǒng)
百度EasyDL的數(shù)據(jù)操作界面
3) 圖像清洗:
圖像清洗的目的在于清除掉與目標(biāo)對(duì)象無關(guān)的圖像信息,讓訓(xùn)練模型減少干擾訓(xùn)練的因素。“L33特征學(xué)習(xí)系統(tǒng)”自帶圖像修正工具,可以簡(jiǎn)單高效的處理訓(xùn)練圖像,將無效信息去除。修圖過程僅需要幾步:
1. 點(diǎn)擊兩次“闊邊”,擴(kuò)大邊界范圍
2. 點(diǎn)擊“標(biāo)記背景”,讓AI能夠獲知背景色,(小紅框)
3. 點(diǎn)擊“涂抹”擦掉無效的雜色與雜質(zhì)
4. 點(diǎn)擊“收邊”,盡可能將細(xì)胞主體放置在圖像中央
5. 點(diǎn)擊“保存圖像”,進(jìn)行保存
此內(nèi)置圖像修正工具,一般修正一張圖像僅需要10秒鐘。
4) 圖像訓(xùn)練,EasyDL圖像上傳與審核:
首先是在http://ai.baidu.com/easydl/ 注冊(cè)或登錄,點(diǎn)擊開始訓(xùn)練,具體見百度官方說明,然后,創(chuàng)建模型,填寫模型名稱等相關(guān)信息。
點(diǎn)擊“開始訓(xùn)練模型”, 選擇 “圖像分類”或“物體檢測(cè)”模型進(jìn)行訓(xùn)練
接下來,以物體檢測(cè)模型為例,詳細(xì)介紹使用步驟:
***步:創(chuàng)建模型。自定義模型名稱
會(huì)生成剛剛創(chuàng)建的模型并顯示模型ID
第二步:創(chuàng)建數(shù)據(jù)集。我們可以自主將剛剛通過特征學(xué)習(xí)處理的一個(gè)子類名稱,命名數(shù)據(jù)集名稱。這里創(chuàng)建了兩個(gè)數(shù)據(jù)集,正常紅細(xì)胞與正常白細(xì)胞,創(chuàng)建后點(diǎn)擊右側(cè)的“標(biāo)注/上傳”,導(dǎo)入數(shù)據(jù)圖像。需要注意的是每次只能上傳20張圖像。因?yàn)樗蟼鞯膱D集都是特征學(xué)習(xí)切割后的圖像,所以不會(huì)受到EasyDL的圖像大小限制。
上傳數(shù)據(jù)后進(jìn)行數(shù)據(jù)標(biāo)注,點(diǎn)擊添加標(biāo)簽,框選特征圖像,設(shè)定標(biāo)簽名稱并保存,“BLC”為白細(xì)胞(主要為中性粒細(xì)胞)。紅細(xì)胞及晶體標(biāo)簽方法等同白細(xì)胞,不再贅述。
值得一提的是,對(duì)于數(shù)據(jù)量特別多的模型,EasyDL最近還推出了“智能標(biāo)注”的功能,只需在“數(shù)據(jù)集標(biāo)注/上傳”的這一步驟中點(diǎn)擊“智能標(biāo)注”按鈕即可開啟。這個(gè)功能會(huì)自動(dòng)篩選出對(duì)提升模型效果來說比較重要的圖片進(jìn)行優(yōu)先標(biāo)注,并對(duì)其余圖片進(jìn)行預(yù)標(biāo)注,可以大大提升整個(gè)數(shù)據(jù)標(biāo)注過程的效率,還是非常方便的。
第三步:訓(xùn)練模型。數(shù)據(jù)集上傳完畢,點(diǎn)擊左部導(dǎo)航條“訓(xùn)練模型”選項(xiàng),以紅細(xì)胞為例,選擇訓(xùn)練紅細(xì)胞數(shù)據(jù)集。“離線識(shí)別SDK”選項(xiàng)不需要勾選,因?yàn)閷?duì)抗訓(xùn)練是基于端與云的雙平臺(tái)系統(tǒng)對(duì)抗。如果是沒有網(wǎng)絡(luò)環(huán)境下使用,可以勾選訓(xùn)練離線SDK。之后我們需要等待一定時(shí)間,讓百度強(qiáng)大的云平臺(tái)自行訓(xùn)練。本次訓(xùn)練約1.5小時(shí)。
第四步:模型校驗(yàn)。訓(xùn)練完成后,點(diǎn)擊左側(cè)導(dǎo)航欄校驗(yàn)?zāi)P汀?/p>
第五步:模型發(fā)布。校驗(yàn)?zāi)P托Ч梢詽M足使用后,點(diǎn)擊提交模型上線申請(qǐng),大約1個(gè)工作日內(nèi)就可以完成模型審核,通過后可進(jìn)行模型部署上線。
特征學(xué)習(xí)圖像審核:
特征學(xué)習(xí)圖像訓(xùn)練需要使用“L33圖像學(xué)習(xí)系統(tǒng)”,其由五部分構(gòu)成:特征提取方法編輯器、圖像目錄、可訓(xùn)練圖像清單、特征指標(biāo)清單、單指標(biāo)計(jì)分與學(xué)習(xí)狀況。特征基礎(chǔ)元素由特征方法編輯器控制,一般不建議修改。
圖像單體訓(xùn)練:
1.首先通過圖像目錄確認(rèn)訓(xùn)練圖集的路徑;
2.***次訓(xùn)練點(diǎn)擊“全否”,然后點(diǎn)擊紅色按鈕“開始訓(xùn)練”;
3.每次會(huì)自動(dòng)識(shí)別訓(xùn)練圖片的細(xì)胞邊緣,需要醫(yī)師確認(rèn)輪廓是否囊括整個(gè)細(xì)胞,如果囊括則點(diǎn)擊“是“,則進(jìn)行下一圖訓(xùn)練。
4.訓(xùn)練完成后會(huì)提示完成,“L33圖像學(xué)習(xí)系統(tǒng)”會(huì)自動(dòng)計(jì)算出學(xué)習(xí)的結(jié)果于“特征指標(biāo)清單”之中,可以點(diǎn)擊查看;
5.對(duì)于不可用的圖像可以點(diǎn)擊“否”,進(jìn)行暫停修正作業(yè),或刪除、或繼續(xù)修改;
6.“L33圖像學(xué)習(xí)系統(tǒng)”會(huì)自動(dòng)將打勾的圖像默認(rèn)為可用圖像,所以不會(huì)彈出選項(xiàng)。
特異性訓(xùn)練:
調(diào)整權(quán)值:在特征指標(biāo)清單中,可以根據(jù)待識(shí)別分型的特性,對(duì)特征指標(biāo)進(jìn)行選擇;未被選擇的指標(biāo)不會(huì)參與計(jì)算。例如紅細(xì)胞的體積和周長(zhǎng)在一定范圍,所以可被使用,而晶體沒有大小限制,卻有自身形狀和色彩的區(qū)別,因而可以使用特殊色系指標(biāo)。
每種指標(biāo)有各自的權(quán)重,點(diǎn)擊指標(biāo)后,可以選擇權(quán)重狀況。系統(tǒng)會(huì)根據(jù)權(quán)重選項(xiàng)的不同,自動(dòng)計(jì)算出指標(biāo)權(quán)重檔位,并在下次計(jì)算中,規(guī)劃計(jì)分標(biāo)準(zhǔn)。權(quán)重不同,計(jì)分棒的粗細(xì)也會(huì)不同,但是計(jì)分只會(huì)在下次訓(xùn)練中更新。
當(dāng)調(diào)整了權(quán)重后,再次點(diǎn)擊紅色按鈕“開始訓(xùn)練”,則程序會(huì)在3~5分值內(nèi)快速完成對(duì)新指標(biāo)的識(shí)別模型。
測(cè)試識(shí)別:測(cè)試識(shí)別依賴于“L35圖像識(shí)別系統(tǒng)”,L35是root主系統(tǒng)的后臺(tái)系統(tǒng),所以沒有操作界面,需要依賴指令打開;但我們提供了L35的測(cè)試指令文件。
測(cè)試模式下,L35不會(huì)對(duì)細(xì)胞種類進(jìn)行判定,而是將每一個(gè)細(xì)胞,針對(duì)該類型的識(shí)別計(jì)分進(jìn)行展示,一般情況下,符合識(shí)別模型(編號(hào)02為白細(xì)胞)為正數(shù),不符合及圖像質(zhì)量欠佳的為負(fù)數(shù),圖中白細(xì)胞基本為正數(shù),不符合的均為負(fù)數(shù)。
偶爾情況下,你粘連圖像會(huì)為正數(shù),此種狀況,只需要在尿沉渣主系統(tǒng)中,修改識(shí)別計(jì)分范圍即可,或在提取方法中,引用圖像分割函數(shù)。如果識(shí)別狀況仍然不滿意,可以通過調(diào)整權(quán)重實(shí)現(xiàn)精確控制識(shí)別,可以多嘗試幾次,即可成功。
正式識(shí)別程序,是由尿沉渣主系統(tǒng)控制并調(diào)用,識(shí)別結(jié)果會(huì)顯示在尿沉渣主系統(tǒng)之中。在主系統(tǒng)正式識(shí)別操作中,對(duì)于錯(cuò)誤的標(biāo)注進(jìn)行修改,系統(tǒng)會(huì)將被修改細(xì)胞圖自動(dòng)歸納為新的學(xué)習(xí)樣本,在下一次系統(tǒng)學(xué)習(xí)中,即可實(shí)現(xiàn)自我的升級(jí)迭代。
EasyDL的模型部署:
當(dāng)EasyDL模型審核通過之后,我們有兩種方法使用EasyDL的識(shí)別,一種是使用“體驗(yàn)H5”,生產(chǎn)H5的二維碼,上傳圖像進(jìn)行識(shí)別。另外還可以通過直接調(diào)用模型的API接口來實(shí)際測(cè)試效果。
對(duì)抗算法的實(shí)現(xiàn):
EasyDL支持部署在iOS、安卓系統(tǒng)、Windows、Linux系統(tǒng)的端設(shè)備之中,可實(shí)現(xiàn)雙前端AI對(duì)抗驗(yàn)證。
EasyDL與特征學(xué)習(xí)目前的對(duì)抗,主要體現(xiàn)在錯(cuò)誤識(shí)別的相互指正,然后通過人為分析結(jié)果,將錯(cuò)誤的圖像,重新加入到訓(xùn)練模型的數(shù)據(jù)集之中,讓模型實(shí)現(xiàn)疊代。目前,對(duì)抗訓(xùn)練仍是需要采用手工完成。
多種AI算法/產(chǎn)品相互的優(yōu)劣勢(shì)在臨床檢驗(yàn)?zāi)虺猎械谋容^:
EasyDL與特征學(xué)習(xí)目前各自的優(yōu)劣勢(shì):
EasyDL是百度出品的高級(jí)AI算法,其定位是易于訓(xùn)練的深度學(xué)習(xí)圖像識(shí)別模型訓(xùn)練平臺(tái)。其具備非常強(qiáng)的泛化識(shí)別能力、更簡(jiǎn)便的圖像計(jì)數(shù)和物體識(shí)別解決方案的部署能力,同時(shí)依賴于百度強(qiáng)大的云平臺(tái)訓(xùn)練,節(jié)約了企業(yè)對(duì)于訓(xùn)練服務(wù)器的投入、深度學(xué)習(xí)人才的投入,讓企業(yè)更加專注于業(yè)務(wù)產(chǎn)品化。
由于EasyDL對(duì)于訓(xùn)練圖像尺寸與大小的限制,在一些特定場(chǎng)景使用時(shí),例如工業(yè)及臨床顯微中,過GB存儲(chǔ)量的圖像,就需要切分后來實(shí)現(xiàn)大型圖像的訓(xùn)練和識(shí)別。對(duì)于醫(yī)療顯微、工業(yè)掃描作業(yè)中,是可以通過上下游的圖像處理系統(tǒng)進(jìn)行適配作業(yè)。
EasyDL增加了主要平臺(tái)的兼容能力,如iOS、安卓、Windows、Linux等。在WIN平臺(tái)上,也可以很好的通過winAPI對(duì)第三方軟件進(jìn)行智能化二次開發(fā),因此降低了企業(yè)的開發(fā)難度。
EasyDL現(xiàn)已完全具備生產(chǎn)力轉(zhuǎn)化作業(yè)能力,也正是工業(yè)與醫(yī)療領(lǐng)域所需要的得力圖像識(shí)別內(nèi)核系統(tǒng)。
特征學(xué)習(xí)的劣勢(shì)在于過度需要依賴圖像切割算法,面對(duì)較為復(fù)雜的圖像,因?yàn)椴荒芮懈畛鰝€(gè)體圖像,而無法識(shí)別;所以特征學(xué)習(xí)只能局限于特定的離散類型圖像:臨床細(xì)胞學(xué)、組織學(xué)、工業(yè)顆粒物檢測(cè)、流水線質(zhì)檢等。而在模型泛化的角度上看,特征學(xué)習(xí)完全是針對(duì)某一應(yīng)用的定制模型,無法具備泛化能力。
任何AI技術(shù)均為人工智能的一個(gè)角度,均不能獨(dú)立解決行業(yè)應(yīng)用的復(fù)雜問題,所以需要相互補(bǔ)償各自的缺點(diǎn),才能走的更遠(yuǎn)。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】





































































