偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

我研究了最熱門的200種AI工具,卻發(fā)現(xiàn)這個行業(yè)有點飽和

新聞 人工智能
在 LinkedIn 上,很多你申請的機器學習職位都有超過 200 名競爭者。在 AI 工具上人們也有這么多選擇嗎?

 在 LinkedIn 上,很多你申請的機器學習職位都有超過 200 名競爭者。在 AI 工具上人們也有這么多選擇嗎?

為了完整了解機器學習技術(shù)應(yīng)用的現(xiàn)狀,畢業(yè)于斯坦福大學,曾就職于英偉達的工程師 Chip Huyen 決定評測目前市面上所有能找到的 AI / 機器學習工具。

在搜索各類深度學習全棧工具列表,接受人們的推薦之后,作者篩選出了 202 個較為熱門的工具進行評測。最近,她的統(tǒng)計結(jié)果讓機器學習社區(qū)感到有些驚訝。

[[334289]]

首先要注意的是:

這一列表是在 2019 年 11 月列出的,最近開源社區(qū)可能會有新工具出現(xiàn)。

有些科技巨頭的工具列表龐大,無法一一列舉,比如 AWS 就已經(jīng)提供了超過 165 種機器學習工具。

有些創(chuàng)業(yè)公司已經(jīng)消失,其提出的工具不為人們所知。

作者認為泛化機器學習的生產(chǎn)流程包括 4 個步驟:

項目設(shè)置

數(shù)據(jù) pipeline

建模和訓(xùn)練

服務(wù)

作者依據(jù)所支持的工作步驟將工具進行分類。項目設(shè)置這一步?jīng)]有算在內(nèi),因為它需要項目管理工具,而不是機器學習工具。由于一種工具可能不止用于一個步驟,所以分類并不簡單?!肝覀兺黄屏藬?shù)據(jù)科學的極限」,「將 AI 項目轉(zhuǎn)變?yōu)楝F(xiàn)實世界的商務(wù)成果」,「允許數(shù)據(jù)像您呼吸的空氣一樣自由移動」,以及作者個人最喜歡的「我們賴以生存和呼吸的數(shù)據(jù)科學」,這些模棱兩可的表述并沒有讓問題變得更簡單。

工具的時間演變歷程

作者追溯了每種工具發(fā)布的年份。如果是開源項目,則查看首次提交,以查看項目開始公開的時間。如果是一家公司,則查看該公司在 Crunchbase 上的創(chuàng)辦年份。然后她繪制了隨著時間的推移,每個類別中工具數(shù)量的變化曲線。具體如下圖所示:

我研究了最熱門的200種AI工具,卻發(fā)現(xiàn)這個行業(yè)有點飽和

不出所料,數(shù)據(jù)表明,隨著 2012 年深度學習的復(fù)興,該領(lǐng)域才開始呈爆炸式增長。

AlexNet 之前(2012 年之前)

直到 2011 年,該領(lǐng)域仍然以建模訓(xùn)練工具為主導(dǎo),有些框架(比如 scikit-learn)仍然非常流行,有些則對當前的框架(Theano)產(chǎn)生了影響。2012 年以前開發(fā)出來且至今仍在使用的一些工具要么完成 IPO(如 Cloudera、Datadog 和 Alteryx),要么被收購(Figure Eight),要么成為受社區(qū)歡迎并積極開發(fā)的開源項目(如 Spark、Flink 和 Kafka)。

開發(fā)階段(2012-2015)

隨著機器學習社區(qū)采用「let’s throw data at it」的方法,機器學習空間就變成了數(shù)據(jù)空間。當調(diào)查每個類別中每年開發(fā)出的工具數(shù)量時,這一點更加明顯。2015 年,57%(82 個工具中有 42 個)的工具都是數(shù)據(jù) pipeline 工具。具體如下圖所示:

我研究了最熱門的200種AI工具,卻發(fā)現(xiàn)這個行業(yè)有點飽和

生產(chǎn)階段(2016 年至今)

每個人都知道越基礎(chǔ)的研究越重要,但大多數(shù)公司都無法支持研究人員進行純技術(shù)方向的探索——除非能夠看到短期商業(yè)利益。隨著機器學習研究、數(shù)據(jù)和已訓(xùn)練模型數(shù)量的增多,開發(fā)者和機構(gòu)的需求增加,市場對于機器學習工具的需求也有了巨大的增長。

2016 年,谷歌宣布將神經(jīng)機器學習技術(shù)應(yīng)用到谷歌翻譯中,這是深度學習在現(xiàn)實世界里首次落地的重要標志。

這一全景圖仍不完整

AI 創(chuàng)業(yè)公司現(xiàn)在已經(jīng)有很多了,但它們大多數(shù)都面向技術(shù)的落地(提供面向消費者的應(yīng)用),而不是提供開發(fā)工具(如向其他公司售賣框架和軟件開發(fā)包)。用風險投資的術(shù)語來說,大多數(shù)初創(chuàng)公司都是垂直 AI 領(lǐng)域里的。在福布斯 2019 年公布的 50 大 AI 初創(chuàng)公司里,只有 7 家是以機器學習開發(fā)工具為主業(yè)的。

對于大多數(shù)人來說,應(yīng)用更為直觀。你可以走進一家公司說:「我們可以讓你們的一半客服工作實現(xiàn)自動化?!构ぞ邔崿F(xiàn)的價值總是間接的,但又深入整個生態(tài)系統(tǒng)。在一個市場中,很多公司都可以提供相同的應(yīng)用,但其背后用到的工具卻只有寥寥幾種。

經(jīng)過大量搜索和比對,在這里作者只列出了 200 余個 AI 工具,相對于傳統(tǒng)計算機軟件工程來說這個數(shù)字很小。如果你想評測傳統(tǒng)的 Python 應(yīng)用開發(fā),你可以用谷歌幾分鐘內(nèi)找出至少 20 個工具,但如果你想試試機器學習模型,事情就完全不一樣了。

機器學習工具面臨的問題

很多傳統(tǒng)的軟件工具都可以用于開發(fā)機器學習應(yīng)用。但是在機器學習應(yīng)用中,也有很多挑戰(zhàn)是獨有的,需要特殊的工具。

在傳統(tǒng)軟件開發(fā)流程中,寫代碼是最難的一步,但在機器學習工作中,寫代碼只是整個流程中耗費精力較小的一部分。開發(fā)一個可以帶來很大性能提升,并且在現(xiàn)實世界中可以落地的新模型非常耗費時間和資金。大多數(shù)公司都會選擇不去開發(fā)新模型,而是直接拿來就用。

對于機器學習來說,使用最多 / 最好數(shù)據(jù)的應(yīng)用總會獲勝。所以與其專注于提升深度學習算法,大多數(shù)公司都會花費大量時間提升數(shù)據(jù)的質(zhì)量。因為數(shù)據(jù)的變化總是很快,機器學習應(yīng)用也需要快速的開發(fā)和部署。在很多例子中,你甚至需要每天都部署新的模型。

此外,ML 算法的規(guī)模也是一個問題。預(yù)訓(xùn)練的大規(guī)模 BERT 模型具有 3.4 億參數(shù),大小為 1.35GB。即使 BERT 模型可以擬合手機等消費類設(shè)備,但在新樣本上運行推理所耗費的大量時間就使其對于現(xiàn)實世界的眾多應(yīng)用毫無用處。

試想,如果自動補全模型提示下一個字符所花費的時間比用戶自己鍵入的時間還要長,那么有什么必要用這個模型呢?

Git 通過逐行的差異比較實現(xiàn)了版本控制,因而對大多數(shù)傳統(tǒng)軟件工程程序的效果很好。但是,Git 并不適用于數(shù)據(jù)庫或者模型檢查點的版本控制。Panda 對大多數(shù)傳統(tǒng)數(shù)據(jù)框操作的效果很好,但在 GPU 上不起作用。

CSV 等基于行的數(shù)據(jù)格式對于使用較少數(shù)據(jù)的應(yīng)用有很好的效果。但是,如果你的樣本具有很多特征,并且你只想利用其中的一個子特征,則使用基于行的數(shù)據(jù)格式依然需要你加載所有的特征。PARQUET 和 OCR 等柱狀文件格式針對這種用例進行了優(yōu)化。

ML 應(yīng)用面臨的一些問題如下所示:

監(jiān)測:怎么知道你的數(shù)據(jù)分布已經(jīng)改變以及需要重新訓(xùn)練模型?

數(shù)據(jù)標注:如何快速地標注新數(shù)據(jù),或者為新模型重新標注現(xiàn)有數(shù)據(jù)?

CI/CD 測試:由于你不能花幾天的時間等著模型訓(xùn)練和收斂,所以如何運行測試以確保每次改變后模型像期望地那樣運行?

部署:如何封裝和部署新模型或者替換現(xiàn)有模型?

模型壓縮:如何壓縮 ML 模型使其擬合消費類設(shè)備?

推理優(yōu)化:如果加速模型的推理時間?是否可以將所有操作融合在一起?是否可以采用更低精度?縮小模型或許可以加速推理過程。

邊緣設(shè)備:硬件運行 ML 算法速度快且成本低。

隱私:如何在保護隱私的同時利用用戶數(shù)據(jù)來訓(xùn)練模型?如何使流程符合《通用數(shù)據(jù)保護條例》(GDPR)?

在下圖中,作者根據(jù)開發(fā)工具能夠解決的主要問題列出了它們的數(shù)量:

我研究了最熱門的200種AI工具,卻發(fā)現(xiàn)這個行業(yè)有點飽和

一大部分集中在數(shù)據(jù) pipeline,包括數(shù)據(jù)管理、貼標簽、數(shù)據(jù)庫 / 查詢、數(shù)據(jù)處理和數(shù)據(jù)生成。數(shù)據(jù) pipeline 工具可能也想成為一體化平臺(all-in-one platform)。由于數(shù)據(jù)處理是項目中最耗費資源的階段,一旦有人在你的平臺上放置他們的數(shù)據(jù),那就很有可能給他們提供預(yù)構(gòu)建或預(yù)訓(xùn)練的模型。

建模和訓(xùn)練工具大多是框架。當前深度學習框架之爭有所平靜,主要集中在 PyTorch 和 TensorFlow 這兩者之間,以及基于這兩者解決 NLP、NLU 和多模態(tài)問題等特定任務(wù)的更高級的框架。分布式訓(xùn)練領(lǐng)域也有一些框架。還有一個出自谷歌的新框架 JAX,每個討厭 TensorFlow 的谷歌員工都力捧這個框架。

存在一些用于實驗追蹤的獨立工具,一些流行深度學習框架還有內(nèi)置的實驗追蹤功能。超參數(shù)調(diào)整很重要,所以出現(xiàn)專門用于超參數(shù)調(diào)整的工具并不奇怪,但是它們似乎沒有一個流行起來。因為超參數(shù)調(diào)整的瓶頸不是設(shè)置,而是運行它所需的算力。

尚未解決但最令人興奮的問題在部署和服務(wù)空間中。缺少服務(wù)方法的原因之一是研究人員與生產(chǎn)工程師之間缺乏溝通。在有能力進行人工智能研究的公司(常常是大公司),研究團隊與部署團隊是分開工作的,兩個團隊僅通過 P 打頭的經(jīng)理:產(chǎn)品經(jīng)理、程序經(jīng)理、項目經(jīng)理互相交流進行溝通。而員工可以看到整個堆棧的小公司就會受到即時產(chǎn)品需求的限制。

只有少數(shù)幾家初創(chuàng)公司能夠縮小差距,這些公司通常是由已有成就的研究人員創(chuàng)建,并且有足夠的資金雇傭優(yōu)秀的工程師。而這樣的初創(chuàng)公司將會占據(jù)人工智能工具市場很大一部分。

開源和開放內(nèi)核(open-core)

作者選擇的 202 種工具中有 109 種是開源軟件(Open Source Software, OSS),并且沒有開源的工具也常常與其他開源工具綁在一起。

開源軟件的出現(xiàn)和發(fā)展由多種原因促成,以下是所有開源軟件支持者談?wù)摂?shù)年的一些原因,包括透明度、協(xié)作、靈活性以及合乎倫理道德??蛻艨赡懿幌M褂脽o法獲取源代碼的新工具。否則,如果不開放源代碼的工具無法使用,則必須重寫代碼。這是初創(chuàng)公司經(jīng)常出現(xiàn)的狀況。

開源軟件并不意味著非盈利和免費,開發(fā)者有其更深遠的目的。需要看到,開源軟件的維護耗時且花費不菲。傳聞 TensorFlow 團隊的成員數(shù)接近 1000 人。一家企業(yè)提供開源軟件肯定有其商業(yè)目的,舉例而言,越來越多的人使用某家公司的開源軟件,那么該公司的名頭就會越來越響,人們也就更加信任這家公司的專業(yè)技術(shù),最終可能會購買他們的專有工具,甚至加入他們的團隊。

這樣的例子比比皆是。谷歌不遺余力地推廣他們的工具,其目的是想用戶使用其云服務(wù)。英偉達維護 cuDF,旨在售賣更多的 GPU。Databricks 免費提供 MLflow,但也售賣他們的數(shù)據(jù)分析平臺。

此外,網(wǎng)飛公司最近成立了專門的機器學習團隊,并推出了自己的 Metaflow 框架,從而也加入到了機器學習(ML)的發(fā)展大潮中,以吸引人才。Explosion 免費提供 SpaCy,但同時對 Prodigy 收費。HuggingFace 是一個特例,它免費提供 transformer,但不清楚究竟如何盈利。

隨著軟件開源成為一種標準,初創(chuàng)公司找到一種行之有效的商業(yè)模式變得很困難。任何剛起步的工具類公司都必須與現(xiàn)有開源工具競爭。所以,如果初創(chuàng)公司選擇開源內(nèi)核的商業(yè)模式,則必須決定開源軟件中涵蓋哪些功能,付費版本中包含哪些內(nèi)容才不顯得貪得無厭,以及如何讓免費使用工具的用戶開始付費。

未來展望

關(guān)于 AI 泡沫是否破裂的討論此起彼伏。很大一部分的 AI 投資流向了自動駕駛汽車,但我們已了解完全自動駕駛的車輛離落地應(yīng)用還有很長的路要走,一些人猜測投資者將會對 AI 完全喪失信心。

谷歌暫停了 ML 研究人員的招聘,優(yōu)步也解雇了 AI 團隊中一半的研究人員。這些決策都是在新冠肺炎爆發(fā)之前做出的。此外,有傳言稱,由于選擇攻讀機器學習的人數(shù)太多了,市場上 ML 的工作需求卻遠遠少于掌握 ML 技術(shù)的人才。

那么問題來了,現(xiàn)在進入 ML 領(lǐng)域還是好時機嗎?不可否認,AI 炒作確實存在,在某種程度上,這種熱度需要「降溫」。這一點可能已經(jīng)發(fā)生了。然而,作者并不認為 ML 會消失??赡茉絹碓缴俚钠髽I(yè)能夠支撐得起 ML 研究,但依然會有企業(yè)需要工具將它們的 ML 付諸生產(chǎn)。

由此,如果必須在工程和 ML 兩者之間選擇,作者建議選擇工程。優(yōu)秀的工程師學習 ML 知識更加容易,但 ML 專家想要成為優(yōu)秀的工程師就比較困難了。如果可以成為一位能夠構(gòu)建優(yōu)秀 ML 工具的工程師,那真是再好不過了!

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2020-12-09 06:17:40

編程語言開發(fā)數(shù)據(jù)科學

2010-07-16 16:45:56

職場培訓(xùn)

2024-08-09 16:30:08

2024-12-09 14:01:00

2021-04-11 07:48:42

定時任務(wù)Linux jdk

2023-02-13 22:41:24

RedisMQRocketMQ

2017-11-28 16:57:18

2013-09-16 11:04:23

大數(shù)據(jù)大數(shù)據(jù)發(fā)展

2013-09-17 10:04:36

大數(shù)據(jù)西大荒

2024-08-26 09:36:06

2021-03-09 08:00:13

設(shè)計秒殺TPS

2021-12-17 11:10:05

Chrome開發(fā)工具

2025-06-04 08:10:59

2023-12-06 09:17:50

2024-09-02 14:40:49

2013-12-25 10:27:13

IT認證

2017-09-06 08:41:47

2023-12-28 10:15:38

2013-12-16 15:56:15

網(wǎng)絡(luò)技術(shù)SDNBYOD

2021-05-26 09:35:22

Github開源項目
點贊
收藏

51CTO技術(shù)棧公眾號