概述

利用這段時間，用這些頂級的開源項目來製作你的數據科學簡歷
從Facebook AI的計算機視覺框架到OpenAI的GPT-3模型，我們涵蓋了廣泛的開源數據科學項目

介紹

「到目前為止，你完成了多少數據科學項目？」

這是面試者在數據科學面試中經常問的問題。我曾進行了幾次這樣的面試。這個問題基本上開門見山就會詢問。如果你是一個數據科學的新手，尤其需要注意

僅僅學習課程或獲得證書是不夠的。我認識的幾乎每個人都持有數據科學各個方面的證書。如果你不把它和實際經驗結合起來，它就不會給你的簡歷增加任何價值。

而這正是開源數據科學項目發揮如此關鍵作用的地方。面試者喜歡那些接手這些項目並提出解決方案的申請人。這顯示了你對這個領域的好奇心、熱情和熱情。相信我，在簡歷中加入數據科學項目會增加你被錄用的機會。

但你應該選擇哪些數據科學項目呢？我收集了前幾個月最好的項目並把它們帶給你。在本月的版本中，我們將涵蓋廣泛的主題，從Facebook人工智慧的game-changing DEtection TRansformer（DETR）框架到OpenAI的GPT-3。

Facebook AI的DEtection TRansformer (DETR)

連結：https://github.com/facebookresearch/detr

Facebook人工智慧的DETR很容易成為5月份發布的最有趣的開源項目。它在一周內積累了近3000顆star，這一事實很能說明問題。

DETR（DEtection TRansformer的縮寫）是計算機視覺空間中的一個變化轉換器。該框架是解決目標檢測問題的一種創新和有效的方法。DETR速度極快，效率極高。

正如我們的常駐數據科學家Prateek Joshi所說：

「DETR模型非常簡單，不需要安裝任何庫就可以使用它。藉助於基於transformers的編碼器-解碼器體系結構，DETR將目標檢測問題視為直接集合預測問題。」

我們在這裡詳細介紹了DETR，以幫助你了解它在下面是如何工作的，以及如何將它用於對象檢測任務。你還可以查看Facebook人工智慧團隊發布的Colab Notebook，查看DETR模型的實際應用。

https://colab.research.google.com/github/facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb

Real-Time Image Animation

實時圖像動畫：https://github.com/anandpawara/Real_Time_Image_Animation

另一個有趣的開源計算機視覺項目。顧名思義，是讓我們使用OpenCV實時執行圖像動畫。看看我從項目的GitHub存儲庫中獲取的這個示例：

模型模擬了人在鏡頭前的表情，並相應地改變了圖像。這是計算機視覺的一個傑出應用，我們肯定會在內部嘗試這個項目。這類項目將在業界有大量的應用，從時裝和零售到營銷和廣告。

最初的開發人員已經很友好地發布了原始碼以及Colab Notebook。去嘗試下吧

https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb

OpenAI的GPT-3

連結：https://github.com/openai/gpt-3

OpenAI又實現了一個！在去年發布了GPT-2並掀起了一股熱潮之後，他們已經開放了他們最新的自然語言處理（NLP）框架GPT-3！

簡單地說，GPT-3是同類中最大的NLP模型。它有1750億個參數（沒錯，你讀得沒錯），而且體積龐大，幾乎有350GB。GPT-3幾乎是歷史上最昂貴的模型之一（訓練費用約為1200萬美元）。

語言模型需要大量的數據來訓練人類在幾秒鐘內就能完成的任務，這已經不是什麼秘密了。升級–GPT-3。在討論GPT-3如何在引擎蓋下工作的官方論文中，OpenAI展示了擴展語言模型如何極大地提高任務無關性和少量鏡頭的性能。

現在這一部分可能會涉及到很多數據科學倫理人士——GPT-3可以很容易地生成新聞文章的樣本，而人類很難將其識別為假新聞。在當今相互關聯的世界，這可能是災難性的。為了公平起見，他們在論文中討論了這個問題。

基於PyAudio的實時音頻分析

連結：https://github.com/tr1pzz/Realtime_PyAudio_FFT

這個開源的數據科學項目是個人的最愛。這個Python庫由Xander Steenbrugge創建並發布，他是前兩次DataHack峰會上備受尊敬的演講者，它使我們能夠執行實時音頻分析。

正如Xander在他的GitHub存儲庫中所說：

這是一個簡單的包，用於在本機Python中進行實時音頻分析，它使用PyAudio和Numpy從實時音頻流中提取和可視化FFT特徵

這裡的FFT代表快速傅立葉變換。它是一個出色的工具，在你的數據科學技能集，因為它解答了廣泛的問題，你可以使用它。

TextShot，獲取文本的Python工具

連結：https://github.com/ianzhao05/textshot

你有沒有遇到過圖片或截圖有文字，但不能完全提取文字？我知道有一些工具是為這個目的而存在的，但我不想在我的機器上安裝任何額外的軟體。

現在，我們可以簡單地使用這個Python工具抓取螢幕截圖並從中提取文本，稱為TextShot（好名字），這是一個很好的工具，可以快速收集我們的數據科學項目所需的任何文本數據。以下是一個演示TextShot的工作原理：

TextShot要求你在計算機上安裝谷歌的Tesseract。

Machine Learning Visuals-數據科學專業人士交流的絕佳方式

連結：https://github.com/dair-ai/ml-visuals

我喜歡這個開源存儲庫，許多新來的人（甚至是有經驗的人）經常在技術和科學交流上有矛盾。

ML Visuals是一個開源的協作項目，旨在幫助數據科學界理解和改進技術交流。這個出色的存儲庫提供了大量的視覺、模板和圖形，幫助你構建一個完美的演示文稿或研究論文。

這個項目最棒的部分是你可以在谷歌的幻燈片上找到所有東西。看看我從這些幻燈片中拍攝的幾張圖片：

很棒！

結尾

在這個月我收集了很多有趣的開源數據科學項目！例如Facebook人工智慧的DETR上和OpenAI的GPT-3。

6個開源數據科學項目

概述

介紹