​關於深度學習、NLP和計算機視覺的30個頂級Python庫

livevideostack 發佈 2021-08-11T21:46:20.202180+00:00

再次感謝艾哈邁德·阿尼斯(Ahmed Anis)為收集這些數據做出的貢獻,並感謝KDnuggets的其他工作人員的意見,見解和建議。作者 / Matthew Mayo原文連結 / https://www.kdnuggets.

再次感謝艾哈邁德·阿尼斯(Ahmed Anis)為收集這些數據做出的貢獻,並感謝KDnuggets的其他工作人員的意見,見解和建議。


作者 / Matthew Mayo

原文連結 / https://www.kdnuggets.com/2020/11/top-python-libraries-deep-learning-natural-language-processing-computer-vision.html


請注意,下面是由Gregory Piatetsky繪製的圖示,並按類型標表示了每個庫,按星標和貢獻者對其進行繪製,它的符號大小則是以該庫在Github上的提交次數的對數表示。


圖1:用於深度學習、自然語言處理和計算機視覺的頂級Python庫

由星級和貢獻者數量繪製;按提交的對數表示相對大小


那麼,廢話少說,下面是就是由KDnuggets員工精心挑選出來,可用於深度學習、自然語言處理和計算機視覺的30個頂級Python庫。


由於微信公眾號跳轉連結只能設置公眾號推文,連結需自行粘貼至瀏覽器中訪問。


深度學習


1. TensorFlow(https://github.com/tensorflow/tensorflow)


星標:149000,提交數:97741,貢獻者:2754


TensorFlow是一個用於機器學習的端到端的開源平台。它具備著全面綜合的、靈活的工具、庫和社區資源生態系統,可以幫助研究人員去推動機器學習先進的技術的發展,並讓開發人員可以輕鬆地構建和部署基於機器學習的應用程式。




2. Keras(https://github.com/keras-team/keras)

星標:50000,提交數:5349,貢獻者:864


Keras是一個用Python編寫的深度學習API,其運行於機器學習的頂級平台TensorFlow之上。




3. PyTorch(https://github.com/pytorch/pytorch)

星標:43200,提交數:30696,貢獻者:1619


具有強大GPU加速,和使用Python實現的張量和動態神經網絡。




4. fastai(https://github.com/fastai/fastai)

星標:19800,提交數:1450,貢獻者:607


通過利用當下最佳的技術實踐,fastai極快地簡化了訓練過程,並加速了神經網絡。




5. PyTorch Lightning

(https://github.com/PyTorchLightning/pytorch-lightning)

星標:9600,提交數:3594,貢獻者:317


針對於高性能人工智慧研究的封裝輕量級PyTorch。可以縮小你的模型,而不是提供小的樣板。




6. JAX(https://github.com/google/jax)

星標:10000,提交數:5708,貢獻者:221


Python+NumPy程序的可組合轉換:區分,向量化,在GPU/TPU上的JIT,等等。




7. MXNet(https://github.com/apache/incubator-mxnet)

星標:19100,提交數:11387,貢獻者:839


帶有動態和突變感知的數據流管理調度程序的輕量、便捷、靈活的分布式/移動機器學習庫:支持Python、R、Julia、Scala、Go、JavaScript等等。




8. Ignite(https://github.com/pytorch/ignite)

星標:3100,提交數:747,貢獻者:112


高級庫,可以幫助培訓和評估神經網絡在PyTorch中實現靈活和透明的使用。


自然語言處理


9. FastText(https://github.com/facebookresearch/fastText)

星標:21700,提交數:379,貢獻者:47


fastText是一個可以用來高效學習單詞表意和句子分類的庫。




10. spaCy(https://github.com/explosion/spaCy)

星標:17400,提交數:11628,貢獻者 482


用來實現工業級自然語言處理(NLP),通過使用Python和Cython。




11. gensim(https://github.com/RaRe-Technologies/gensim)


星標:11200,提交數:4024,貢獻者:361


Gensim是一個Python庫,用於主題建模、文檔索引和相似度檢索,具有大型語料庫。目標受眾是自然語言處理(NLP)和信息檢索(IR)社區。




12. NLTK(https://github.com/nltk/nltk)

星標:9300,提交數:13990,貢獻者:319


NLTK——自然語言工具箱——是一套開源Python模塊、數據集和教程,用於針對支持自然語言處理方面的研究和開發。




13. Datasets (Huggingface)

(https://github.com/huggingface/datasets)

星標:4300,提交數: 568,貢獻者:64


用於自然語言處理的,使用PyTorch, TensorFlow, NumPy和Pandas的工具,具有快速,高效,開放訪問的數據集和自然語言處理評估指標。




14. Tokenizers (Huggingface)
(https://github.com/huggingface/tokenizers)


星標:3800,提交數:1252,貢獻者:30


為研究和生產優化的快速、頂級的分詞器。




15. Transformers (Huggingface)

(https://github.com/huggingface/transformers)


星標:3500,提交數:5480,貢獻者:585


transformer:針對 Pytorch和TensorFlow 2.0的最頂級的自然語言處理庫。




16. Stanza(https://github.com/stanfordnlp/stanza/)

星標:4800,提交數:1514,貢獻者:19


針對許多人類語言的正式標準NLP Python庫。




17. TextBlob(https://github.com/sloria/textblob)

星標:7300,提交數:542,貢獻者:24


簡單、python風格、文本處理——情感分析、詞性標記、名詞短語提取、翻譯等等。




18. PyTorch-NLP

(https://github.com/PetrochukM/PyTorch-NLP)

星標:1800,提交數:442,貢獻者:15


PyTorch自然語言處理(NLP)的基本工具。




19. Textacy(https://github.com/chartbeat-labs/textacy)

星標:1500,提交數:1324,貢獻者:23


一個Python庫,用於執行各種自然語言處理(NLP)任務,構建在一個高性能spaCy庫之上。




20. Finetune(https://github.com/IndicoDataSolutions/finetune)

星標:626,提交數:1405,貢獻者:13


Finetune是一個庫,它允許用戶利用最先進的預訓練的NLP模型來執行廣泛的下游任務。




21. TextHero(https://github.com/jbesomi/texthero)

星標:1900,提交數:266,貢獻者:17


文本預處理,表示和可視化,從零到精通。




22. Spark NLP(https://github.com/JohnSnowLabs/spark-nlp)

星標:1700,提交數:4363,貢獻者:50


Spark NLP是一個構建在Apache Spark ML之上的自然語言處理庫。




23. GluonNLP(https://github.com/dmlc/gluon-nlp)

星標:2200,提交數:712,貢獻者:72


GluonNLP是一個工具包,它支持簡單的文本預處理、數據集加載和神經模型構建,以幫助您加快自然語言處理(NLP)研究。


計算機視覺


24. Pillow(https://github.com/python-pillow/Pillow)


星標:7800,提交數:10799,貢獻者:303


Pillow是對用戶十分友好的PIL分支。PIL是Python的圖像庫。




25. OpenCV(https://github.com/opencv/opencv)

星標:49600,提交數:29453,貢獻者:1234


開源計算機視覺庫。




26. scikit-image(https://github.com/scikit-image/scikit-image)

星標:4000,提交數:12352,貢獻者:403


python中的圖像處理。




27. Mahotas(https://github.com/luispedro/mahotas)


星標:644,提交數:1273,貢獻者:25


Mahotas是個包含了最快的計算機視覺算法(所有算法用C++實現保證運行速度)的庫,針對numpy數組運行。




28. Simple-CV(https://github.com/sightmachine/simplecv)


星標:2400,提交數:2625,貢獻者:69


SimpleCV是一個開源機器視覺框架,使用OpenCV和Python程式語言。




29. GluonCV(https://github.com/dmlc/gluon-cv)

星標:4300,提交數:774,貢獻者:101


GluonCV提供了計算機視覺中最先進(SOTA)深度學習模型的實現。




30. Torchvision(https://github.com/pytorch/vision)

星標:7500,提交數:1286,貢獻者:334


torchvision包由流行的數據集、模型架構和用於計算機視覺中常見的圖像轉換方法組成。

關鍵字: