在12家科技創(chuàng)業(yè)公司工作后,這是我的8條經(jīng)驗
這是一篇經(jīng)驗帖,作者 Daniel Shenfeld 曾在 12 家創(chuàng)業(yè)公司工作過,這些公司覆蓋金融科技、醫(yī)療、教育技術(shù)、生物技術(shù)等多個領(lǐng)域,所處的階段也各有不同,從種子前(pre-seed)到收購后都有。Daniel 在不同的公司中擔(dān)任各種各樣的職位,從基層員工到數(shù)據(jù)科學(xué)主管和戰(zhàn)略顧問主管都做過。在所有工作中,他一直致力于研究有趣的機器學(xué)習(xí)和數(shù)據(jù)科學(xué)問題。所有人都試圖創(chuàng)造偉大的產(chǎn)品,一些人確實成功了。
從這么多工作經(jīng)歷中他學(xué)到了什么?本文介紹了他對產(chǎn)品、數(shù)據(jù)和人才的 8 條經(jīng)驗。
關(guān)注產(chǎn)品,而非 AI
作為貨真價實的數(shù)學(xué)家,我一開始是被機器學(xué)習(xí)科學(xué)打動的,想創(chuàng)建新的算法和方法來解決挑戰(zhàn)。
但我很快就意識到,即便是最準(zhǔn)確的機器學(xué)習(xí)模型也沒法自己創(chuàng)造價值。機器學(xué)習(xí)和 AI 的價值是根據(jù)它們支持的產(chǎn)品來衡量的。弄清楚如何有效地做到這一點才是構(gòu)建 ML 驅(qū)動產(chǎn)品的真正意義所在。
《愛麗絲夢游仙境》的作者劉易斯·卡羅爾(Lewis Carroll)也是一位數(shù)學(xué)家。他發(fā)明了很多有吸引力的產(chǎn)品,盡管有一些并沒能像預(yù)期的那樣發(fā)揮作用。(本文所有插圖均來自約翰·坦尼爾(John Tenniel))。
關(guān)注問題,而非方法
如果以構(gòu)建產(chǎn)品為目標(biāo),那么機器學(xué)習(xí)和 AI 就只是達成目標(biāo)的手段。重要的是如何解決產(chǎn)品問題,而不是使用什么樣的方法。在大多數(shù)情況中,快捷但有缺陷的方法(quick and dirty solution)會讓你走得更遠。如果一個問題用簡單回歸就能很好地解決時,就不要訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)了。
當(dāng)關(guān)注問題本身時,你有時會發(fā)現(xiàn)機器學(xué)習(xí)并不是解決問題的工具。很多問題是流程的問題。即使在這些情況下,數(shù)據(jù)科學(xué)家也可以做出很多貢獻,因為他們天然傾向于采取嚴(yán)格、數(shù)據(jù)驅(qū)動的方法。但這并不表示用 AI 修復(fù)糟糕的流程是個好主意。只需修復(fù)流程。
尋找數(shù)據(jù)和產(chǎn)品之間的協(xié)同效應(yīng)
將現(xiàn)有產(chǎn)品和根據(jù)機器學(xué)習(xí)模型做的預(yù)測結(jié)果結(jié)合起來很少能體現(xiàn)出機器學(xué)習(xí)的真正價值。當(dāng)然,這也會給它們加一點分,但在強大的 AI 產(chǎn)品中,機器學(xué)習(xí)不只是附加功能。它是創(chuàng)造價值的引擎,而產(chǎn)品是建立在引擎基礎(chǔ)上的:產(chǎn)品和數(shù)據(jù)必須要協(xié)同工作。
如果做得好,就會形成強大的良性循環(huán),我稱之為「產(chǎn)品/數(shù)據(jù)擬合」(product/data fit):產(chǎn)品有效地意識到數(shù)據(jù)的潛在價值,同時持續(xù)生成必要數(shù)據(jù)來進一步改進產(chǎn)品。
將機器學(xué)習(xí)引入產(chǎn)品是次優(yōu)策略。
尤其是,AI 不能只停留在數(shù)據(jù)科學(xué)和工程團隊中。組織的其他部分,從產(chǎn)品到管理層,都要參與其中,來加速創(chuàng)造價值的過程。這需要大量的教育和投入,而這超出了工程師們以往構(gòu)建軟件的習(xí)慣(即便是在初創(chuàng)公司中)。
數(shù)據(jù)先行,AI 在后
機器學(xué)習(xí)和 AI 都需要大量數(shù)據(jù),更重要的是「高質(zhì)量數(shù)據(jù)」。如果你要從頭構(gòu)建一個產(chǎn)品,那從開始你就要考慮收集數(shù)據(jù)了。如果你要在現(xiàn)有產(chǎn)品中引入 AI 技術(shù),那在進入 AI 部分之前,首先要準(zhǔn)備好在數(shù)據(jù)工程和重建架構(gòu)方面進行大量投入。
這并不意味著你要在實現(xiàn)價值前預(yù)先加載所有工作。更好的數(shù)據(jù)操作意味著更好的分析,這對任何組織的學(xué)習(xí)和改進都至關(guān)重要。利用這些成果來展示價值并產(chǎn)生組織認(rèn)同。當(dāng)你的分析非常堅實時,就可以真正開始考慮機器學(xué)習(xí)了。
進行有效溝通
打造優(yōu)秀的產(chǎn)品需要優(yōu)秀的產(chǎn)品經(jīng)理和高管的支持。雖然 AI 和深度學(xué)習(xí)的力量吸引了許多人,但很少有非技術(shù)人員真正了解這些技術(shù)。有效討論機器學(xué)習(xí)和 AI 需要對統(tǒng)計學(xué)有深刻的理解,溝通鴻溝往往會造成不切實際的期望。
關(guān)于機器學(xué)習(xí)和 AI 的討論顯然不是完全基于業(yè)務(wù)指標(biāo)的
一個關(guān)鍵點是討論業(yè)務(wù)指標(biāo)的同時,也要思考如何將業(yè)務(wù)指標(biāo)轉(zhuǎn)換為模型指標(biāo)。這樣的話產(chǎn)品經(jīng)理要承擔(dān)很多責(zé)任,但對數(shù)據(jù)科學(xué)家而言也是如此,他們必須了解擬建產(chǎn)品相關(guān)領(lǐng)域的知識,還要深入理解業(yè)務(wù),這樣才能真正高效地工作。
快捷但有缺陷的方法副作用并沒有那么大
正如我前面提到的,快捷但有缺陷的方法會讓你走得更遠。部分在于,現(xiàn)在快捷但有缺陷的方法其實就是過去緩慢但準(zhǔn)確的方法。像 word2vec 這樣的工具變得和回歸一樣易于使用,而且研究者還在不斷創(chuàng)建功能強大的新工具。對任何數(shù)據(jù)科學(xué)家來說,充分了解不同的構(gòu)建模塊以及它們之間的粘合劑是非常必要的。
開源工具爆炸式增長的后果之一是,大多數(shù)情況下開發(fā)專門的 ML 平臺算不上一個好主意。當(dāng)然,你應(yīng)該有用常見構(gòu)建塊建立的專門算法,并將這些算法用在自己的問題和領(lǐng)域中。但,請把深度學(xué)習(xí)的研究留給谷歌的研究人員——要專注于業(yè)務(wù)問題,還記得嗎?
如有疑問,展示數(shù)據(jù)
向用戶展示數(shù)據(jù)很有用,但不是所有呈現(xiàn)方法都同樣效果拔群
在產(chǎn)品開發(fā)的早期階段,最重要的活動是獲得市場反饋。但機器學(xué)習(xí)需要大量數(shù)據(jù),而這需要很長時間。這就出現(xiàn)了一個問題:如何在沒有太多數(shù)據(jù)的情況下,獲得市場對某個數(shù)據(jù)產(chǎn)品的反饋?
一般來說解決方案是向用戶展示數(shù)據(jù)。人類一次只能處理少量數(shù)據(jù),所以沒有太多數(shù)據(jù)也沒關(guān)系。用戶會如何處理你展示給他們的數(shù)據(jù)呢?他們想掩飾哪些,又想深入挖掘哪些呢?公開之前無法獲取的信息是一種很強大的方法,而且能夠提供數(shù)據(jù)的潛在業(yè)務(wù)價值。
建立信任
信任是大多數(shù)技術(shù)成功的主要因素。最終,每一項技術(shù)都是供人類使用的,因此必須取得人們的信任。在機器學(xué)習(xí)應(yīng)用的背景下,有些人可能擔(dān)心他們的工作會被自動化取代。其他人則正在根據(jù)技術(shù)提供的信息做出重要決策。
如果一個 AI 產(chǎn)品中混合了這些擔(dān)憂,比如某個產(chǎn)品試圖做出決策,而不是讓人類自主決策,則會導(dǎo)致信任的快速流失。
信任易失不易得。打造人們信任的產(chǎn)品。
柴郡貓展示了一種獲得用戶信任的方法
原文鏈接:
https://towardsdatascience.com/what-ive-learned-working-with-12-machine-learning-startups-a9a3026d2419
【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】