5 步入門和精通機器學習
我教了一個5步驟的過程,您可以用來開始應用機器學習。
這是非常規的。
傳統的機器學習教學方法是自下而上的。
從理論和數學開始,然後是算法實現,然後送您開始研究如何開始解決實際問題。
機器學習的傳統入門方法在從業者的道路上存在空白。
機器學習精通的方法可以解決這一問題,並從最有價值的結果開始。
它針對企業要付費的結果:
如何交付結果。
可以可靠地進行預測的一組預測或模型形式的結果。
這是一種自上而下,結果優先的方法。
從實現市場上最理想的結果的目標開始,帶您從業者到結果的最短路徑是什麼?
我們可以通過以下5個步驟來概括此路徑:
- 第1步:調整心態 (相信!)。
- 步驟2:選擇一個流程(如何獲得結果)。
- 步驟3:選擇一個工具(實現)。
- 步驟4:練習數據集(已投入工作)。
- 步驟5:建立檔案袋(顯示您的技能)。
而已。
這是我所有電子書培訓背後的理念。
這就是為什麼我創建了這個網站。我知道一種簡單的方法,只需要分享即可。
以下是說明過程的動畫片,為簡潔起見,省略了步驟1(思維定式)和步驟2(表明您的工作)。
一種更好的學習機器學習的方法,從端到端解決機器學習問題開始。
讓我們仔細看看每個步驟。
步驟0:地標
在我們開始之前,您必須了解機器學習的里程碑。
我通常只是假設這一點,但是除非您了解一些真正的基礎知識,否則您將無法繼續進行。
例如:
- 您應該知道什麼是機器學習,並能夠向同事解釋。什麼是機器學習?
- 您應該知道一些機器學習問題的例子實用機器學習問題
- 您應該知道機器學習是解決一些複雜問題的唯一方法。機器學習事項
- 您應該知道,預測建模是應用機器學習中最有用的部分。預測建模的溫和介紹
- 您應該知道機器學習在AI和數據科學方面的適用範圍機器學習適合什麼地方?
- 您應該知道可用的機器學習算法的類型。機器學習算法之旅
- 您應該知道一些基本的機器學習術語如何談論機器學習中的數據
步驟1:心態
機器學習不僅適合教授。
它不僅適合有天賦的人或學者。
你必須相信
您可以學習該主題並將其應用於解決問題。
沒有理由不這樣做。
- 您不需要編寫代碼。
- 您無需了解或擅長數學。
- 您不需要更高的學位。
- 您不需要大數據。
- 您不需要訪問超級計算機。
- 您不需要很多時間。
想不開機器學習入門的藉口非常容易。
確實,只有一件事可以阻止您入門並擅長機器學習。
是你。
- 也許您只是找不到動機。
- 也許您認為您必須從頭開始執行所有操作。
- 也許您一直在選擇高級問題,而不是初學者問題。
- 也許您沒有一個系統的過程可用來交付結果。
- 也許您沒有使用好的工具和庫。
清除限制信念,阻止您入門。
這篇文章可能會有所幫助:
- 是什麼讓您從機器學習目標中退縮?
您可以打很多減速帶。
識別它們,解決它們,然後繼續前進。
為什麼要機器學習?
知道可以進行機器學習後,請了解原因。
- 也許您有興趣了解有關機器學習算法的更多信息。
- 也許您對創建預測感興趣。
- 也許您對解決複雜的問題感興趣。
- 也許您對創建更智能的軟體感興趣。
- 也許您甚至有興趣成為一名數據科學家。
認真思考這個話題,嘗試找出你的「 為什麼 」。
這篇文章可能會有所幫助:
- 為什麼要進入機器學習?
一旦有了「 為什麼 」,就找到您的部落。
您最喜歡哪一組機器學習從業人員?
- 也許您是一個有普遍興趣的商人。
- 也許您是負責項目的經理。
- 也許您是機器學習的學生。
- 也許您是機器學習研究員。
- 也許您是一個棘手問題的研究員。
- 也許您想實現算法
- 也許您需要一次性的預測。
- 也許您需要可以部署的模型。
- 也許您是一名數據科學家。
- 也許您是數據分析師。
每個部落都有不同的興趣,並且將從不同的方向進入機器學習領域。
並非所有書籍和材料都適合您,找到您的部落,然後找到與您說話的材料。
這篇文章可能會有所幫助:
- 找到您的機器學習部落
步驟2:選擇流程
您是否想要可靠地獲得高於平均水平的結果?
您需要遵循系統的流程。
- 一個過程使您可以利用和重用最佳實踐。
- 這意味著您不必依賴記憶或直覺。
- 它指導您完成一個端到端的項目。
- 這意味著您始終知道下一步該怎麼做。
- 可以根據您的特定問題類型和工具進行定製。
一個系統的過程是,一方面過山車的好壞一方面高於平均水平,另一方面永遠改善結果。
我會選擇高於平均水平並永遠改善結果。
我推薦的流程模板如下:
- 步驟1:定義您的問題。
- 第2步:準備數據。
- 第3步:抽查算法。
- 步驟4:改善結果。
- 步驟5:呈現結果。
下面是一個很好的動畫片,總結了這個系統的過程:
選擇一個系統的,可重複的過程,您可以使用它來始終如一地交付結果。
您可以在帖子中了解有關此過程的更多信息:
- 應用機器學習過程
您不必使用此過程,但是您確實需要一個系統的過程來解決預測建模問題。
步驟3:選擇工具
選擇一種可以用來提供機器學習結果的最佳工具。
將您的過程映射到該工具上,並學習如何最有效地使用它。
我最推薦三種工具:
- Weka機器學習工作檯(非常適合初學者)。Weka提供了GUI介面,不需要任何代碼。我將其用於快速的一次性建模問題。Weka機器學習迷你課程
- Python生態系統(非常適合中級)。特別是在SciPy平台上的熊貓和scikit-learn。您可以在開發中使用相同的代碼和模型,它們足夠可靠,可以在操作中運行。Python機器學習迷你課程
- R平台(非常適合高級)。R是專為統計計算而設計的,儘管該語言是不可思議的,並且某些軟體包的文檔記錄很少,但它提供了最多的方法以及最新的技術。R機器學習迷你課程
我還對專業領域提出建議:
- 深度學習的Keras。它使用Python,意味著您可以利用整個Python生態系統,從而節省大量時間。介面非常乾淨,同時還支持Theano和Keras後端的功能。深度學習迷你課程
- XGBoost用於梯度增強。這是該技術最快的實現方式。它還支持R和Python,使您可以在項目中利用這兩個平台。XGBoost迷你課程
這些只是我的個人建議,我有很多帖子,並且每個帖子都有更詳細的培訓。
了解如何很好地使用所選工具。研究一下。成為其中的專家。
什麼程式語言?
程式語言無關緊要。
即使您使用的工具也沒有關係。
您解決問題所學到的技能將輕鬆地在平台之間轉移。
不過,以下是一些有關機器學習中最受歡迎的語言的調查結果:
- 機器學習的最佳程式語言
步驟4:對數據集進行練習
一旦有了流程和工具,就需要練習。
你需要練習很多。
在標準機器學習數據集上進行練習。
- 使用從實際問題域中收集的真實數據集(而不是人為的)。
- 使用適合內存或excel電子表格的小型數據集。
- 使用易於理解的數據集,以便您知道預期的結果。
在不同類型的數據集上練習。練習一些使您不舒服的問題,因為您必須提高自己的技能才能找到解決方案。在數據問題中找出不同的特徵,例如:
- 不同類型的監督學習,例如分類和回歸。
- 來自數十,數百,數千和數百萬個實例的不同大小的數據集。
- 少於十個,數十個,成百上千個屬性的不同數量的屬性。
- 實數,整數,類別,序數和混合的不同屬性類型。
- 不同的領域迫使您快速了解和描述沒有以前經驗的新問題。
使用UCI機器學習存儲庫
這些是最常用和最易理解的數據集,也是最佳起點。
在帖子中了解更多信息:
- 使用UCI機器學習存儲庫中的小型內存數據集練習機器學習
使用機器學習競賽,例如Kaggle
這些數據集通常更大,需要更多的準備才能很好地建模。
有關您可以練習的最受歡迎的數據集的列表,請參閱以下文章:
- 現實世界機器學習問題之旅
練習自己設計的問題
收集有關您重要的機器學習問題的數據。
您會發現自己設計的問題和解決方案會帶來更多收穫。
有關更多信息,請參見以下文章:
- 研究與您息息相關的機器學習問題
步驟5:建立投資組合
您將建立一個已完成項目的集合。
善加利用。
當您研究數據集並獲得更好的結果時,請創建半正式的輸出來總結您的發現。
- 也許上傳您的代碼並在自述文件中進行總結。
- 也許您將結果寫在博客文章中。
- 也許您會製作一張幻燈片。
- 也許您在youtube上創建了一個小視頻。
這些已完成項目中的每個項目都代表您不斷增長的投資組合中的一個。
就像畫家一樣,您可以構建完整的作品集,以證明您在通過機器學習交付結果方面不斷增長的技能。
您可以在帖子中了解有關此方法的更多信息:
- 建立機器學習檔案袋
您可以自己使用此投資組合,並在較大和更宏大的項目中利用以前的結果中的代碼和知識。
一旦您的投資組合成熟,您甚至可以選擇利用它來承擔更多的工作責任或擔任新的以機器學習為中心的角色。
有關更多信息,請參閱帖子:
- 獲得報酬以應用機器學習
技巧和竅門
以下是使用此過程時可能要考慮的一些實用技巧。
- 從一個簡單的過程(如上)和一個簡單的工具(如Weka)開始,然後一旦有了信心就繼續前進。
- 從最簡單和最常用的數據集(鳶尾花和皮馬糖尿病)開始。
- 每次您應用該過程時,都要尋找改進方法及其用法。
- 如果發現新方法,請找出將它們集成到流程中的最佳方法。
- 研究算法,但是要儘可能多地研究算法,以幫助您在過程中獲得更好的結果。
- 向專家學習和學習,看看可以竊取並添加到過程中的方法。
- 像處理預測建模問題一樣研究工具,並充分利用它。
- 解決越來越難的問題,不要輕易解決,因為您不會從中學到很多東西。
- 專注於清楚地呈現結果,您做得越好,投資組合的影響就越大。
- 在論壇和問答網站上參與社區活動,並提出和回答問題。
摘要
在這篇文章中,您發現了一個簡單的五步過程,可用於入門並在應用機器學習中取得進步。
儘管布局簡單,但確實需要艱苦的工作,但確實有回報。
我的許多學生都在這個過程中工作,並成為機器學習工程師和數據科學家。
喜歡點下關注,你的關注是我寫作的最大支持