數(shù)據(jù)科學家的工具列表:提高生產(chǎn)效率的工具包
作者:讀芯術
新的東西令人激動,新的框架、新的儀器、新的工具,都會讓生活變得更輕松。保持更新很難,我們需要花更多的時間在其上。
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
新的東西令人激動,新的框架、新的儀器、新的工具,都會讓生活變得更輕松。保持更新很難,我們需要花更多的時間在其上。
當然,我們并不是要一直更新到最新的發(fā)現(xiàn),它可能是某個特定庫的新的小版本,也可能是處于興趣或是工作需要而尋找?,F(xiàn)在開始吧!
- Texthero:文本從零到多個的預處理、向量化、可視化。應用tf-idf和tokenize查找功能來實現(xiàn)面向線性通信模型的主成分分析。
- Google Data Studio:未來的前端。以googledocs(谷歌文件)的方式創(chuàng)建儀表板、報表和分析,只需插入數(shù)據(jù)庫,上傳csv文件,就可以開始了。
- Deepnote:出色的jupyter筆記本??梢栽谀愕臑g覽器中進行協(xié)作、代碼評審、可以更好的繪圖、支持aws3、MongoDB等等。
- Streamlit:是構建數(shù)據(jù)應用程序的最快方式,谷歌數(shù)據(jù)工作室的替代品,創(chuàng)建基于python的web應用程序、可視化和報表。

從R轉為python可以試試plotnine,這是一個基于ggplot2的Python圖形語法呈現(xiàn)方式。
- pivottablejs:在Jupyter筆記本中拖放數(shù)據(jù)透視表。
- RISE:把你的筆記本變成顯示基于.js-的幻燈片。
- gmaps:基于谷歌地圖的可視化庫——創(chuàng)建漂亮的交互式地圖和熱圖。
- flair:由來自柏林的扎蘭多支持研發(fā)的最先進的自然語言處理中的一個簡單框架。
- light fm:由python實現(xiàn)的流行推薦算法。
- ds-cheatsheets:大量備忘單集合,從python到R,包括SQL。
- Scraper.AI:真實有效的網(wǎng)絡爬蟲工具。
- AlwaysAI:在數(shù)分鐘內(nèi)將計算機視覺模型部署到邊緣設備,如Nvidia Jetson、Raspberry PI,其目錄涵蓋了不同的預訓練模型,從對象分割到估計。
- Notion:具有配置項的記筆記軟件,使用Markdown來創(chuàng)建表格,列表,畫板還有看板。

概念:你將實際使用的筆記應用程序
- Weights & Biases:在訓練深度學習模型時,經(jīng)常會發(fā)生實驗結果丟失、被覆蓋或難以跟蹤的情況。Weights &Biases只需通過添加幾行代碼就可以幫助你跟蹤模型訓練以及實驗。

- 無代碼機器學習?Obviously AI也許是AutoML的下一步。上傳(或連接)數(shù)據(jù)、選擇目標就足夠了,剩下的工作將由ObviouslyAI進行訪問ML過程,使其讓任何人都可以訪問。它們還為你生成一個決策圖譜,提供一個可解釋的模型。

- ML Playground:運行不同的算法,添加神經(jīng)網(wǎng)絡,刪除圖層,繪制數(shù)據(jù),或上傳自己的數(shù)據(jù)。
- Papers with code:正如其名,找到Github的腳本文件,準備被分叉開。
- Clever Grid:一個1核的圖形處理器和250GB的培訓數(shù)據(jù),每天約10歐元。
- AWS DeepRacer:訓練你的自動駕駛(模型)車,在著名的F1賽道上與其他人競爭,比如巴塞羅那——加泰羅尼亞賽道。你也可以在亞馬遜上購買DeepRacer汽車的硬件版本。
- MusicTime for Spotify:一個VSCode編輯器插件,它可以在編寫代碼時發(fā)現(xiàn)最受歡迎的音樂。
- gspread_dataframe:是否必要把padas庫中的數(shù)據(jù)發(fā)送到Google Sheets。
- Kite:AI遇到代碼自動完成提供建議,它們?yōu)橹饕膒ythonide提供插件,比如VSCode、Pycharm和Spyder。

- PuLP:對整數(shù)規(guī)劃和線性規(guī)劃有興趣嗎?對生產(chǎn)優(yōu)化或多武裝犯罪分子之類的問題感興趣嗎?看看他們的案例研究吧。
- 使用Scikit Learn、Keras和TensorFlow進行實際操作機器學習:構建智能系統(tǒng)的概念、工具和技術:這本書數(shù)據(jù)科學家得人手一本,它涵蓋了從基本到高級的數(shù)據(jù)科學主題,十分實用且包含如何手動操作。
- datatau:數(shù)據(jù)科學領域的黑客新聞。
- Deta:一個慷慨大方的免費云端儲存提供商。
- 尋找副業(yè)項目?找到你感興趣的副業(yè)并參與其中,去看看 Solodoers吧。
- cookiecutter-data-science:數(shù)據(jù)科學的項目引導者。數(shù)據(jù)科學的代碼質量無非是正確性和再現(xiàn)性問題。
- tqdm:我們一直希望在for循環(huán)中有一個進度條。
- ELI5:可視化和調(diào)試各種機器學習模型,從黑匣子到可解釋的人工智能。

- gpxpy:你知道你可以把最喜歡的跑步應用程序數(shù)據(jù)導出到一個.gpx文件中嗎?這些文件可以被解析成pandas,我曾經(jīng)做過類似的事情,從一次帆船旅行中導出數(shù)據(jù):

- 《找到你的第一份數(shù)據(jù)科學工作》:一本免費的關于數(shù)據(jù)科學職業(yè)生涯和專家建議的書,一共70頁。
- GluonTS:基于mxnet的亞馬遜方式概率時間序列建模。

- Lifelines:實現(xiàn)通用生存分析模型的Python庫。生存分析廣泛用于預測事件在特定時間發(fā)生的可能性,例如,客戶將取消訂閱我們的服務。
- tensor-house:一個企業(yè)操作的參考機器學習和優(yōu)化模型集合,對于想學習如何使用不同的機器學習模型來解決不同問題的人來說非常有趣。
- Gradio:讓模型創(chuàng)建易于使用的界面設計,對于展示模型預測非常有幫助,包括自然語言分析、圖像和回歸。

這些工具值得好好探索一陣兒啦。

責任編輯:趙寧寧
來源:
今日頭條
























