機器學習中常用的十類算法 - 人工智能之python

Python老師給大家準備了一系列的python相關課程，感興趣的朋友可以點擊本文結尾的「了解更多」

AI技術發展的三大支柱：「算法＋大數據＋計算能力」，算法是

人工智慧

發展的核心關鍵之一，很多技術環節和系統功能的實現都依賴於算法的精準度，算法的優劣直接影響了人工智慧的發展方向。那麼我們當下感受到的人工智慧生活服務，運用了哪些AI算法呢？跟隨OFweek編輯一起來看看吧。

1．人工神經網絡

人工神經網絡（ANN）以大腦處理機製作為基礎，開發用於建立複雜模式和預測問題的算法。該類型算法在語音、語義、視覺、各類遊戲等任務中表現極好，但需要大量數據進行訓練，且訓練要求很高的硬體配置。

ANN在圖像和字符識別中起著重要的作用，手寫字符識別在欺詐檢測甚至國家安全評估中有很多應用。ANN 的研究為深層神經網絡鋪平了道路，是「深度學習」的基礎，現已在

計算機視覺

、語音識別、

自然語言處理

等方向開創了一系列令人激動的創新。

2．決策樹

在機器學習中，決策樹是一個預測模型，他代表的是對象屬性與對象值之間的一種映射關係。其採用一種樹形結構，其中每個內部節點表示一個屬性上的測試，每個分支代表一個測試輸出，每個葉節點代表一種類別。

決策樹算法屬於非參數型，較為容易解釋，但其趨向過擬合；可能陷入局部最小值中；無法在線學習。決策樹的生成主要分為兩步：1．節點的分裂：當一個節點所代表的屬性無法給出判斷時，則選擇將該節點分成2個子節點 2．閾值的確定：選擇適當的閾值使得分類錯誤率最小。

3．集成算法

簡單算法一般複雜度低、速度快、易展示結果，其中的模型可以單獨進行訓練，並且它們的預測能以某種方式結合起來去做出一個總體預測。每種算法好像一種專家，集成就是把簡單的算法組織起來，即多個專家共同決定結果。

集成算法比使用單個模型預測出來的結果要精確的多，但需要進行大量的維護工作。

AdaBoost的實現是一個漸進的過程，從一個最基礎的分類器開始，每次尋找一個最能解決當前錯誤樣本的分類器。好處是自帶了特徵選擇，只使用在訓練集中發現有效的特徵，這樣就降低了分類時需要計算的特徵數量，也在一定程度上解決了高維數據難以理解的問題。

4．回歸算法

回歸分析是在一系列的已知自變量與因變量之間的相關關係的基礎上，建立變量之間的回歸方程，把回歸方程作為算法模型，通過其來實現對新自變量得出因變量的關係。因此回歸分析是實用的預測模型或分類模型。

5．貝葉斯算法

樸素貝葉斯分類是一種十分簡單的分類算法：對於給出的待分類項，求解在此項出現的條件下各個類別出現的機率，哪個最大，就認為此待分類項屬於哪個類別。

樸素貝葉斯分類分為三個階段，1．根據具體情況確定特徵屬性，並對每個特徵屬性進行適當劃分，形成訓練樣本集合2．計算每個類別在訓練樣本中的出現頻率及每個特徵屬性劃分對每個類別的條件機率估計3．使用分類器對待分類項進行分類。

6．K近鄰

K緊鄰算法的核心是未標記樣本的類別，計算待標記樣本和數據集中每個樣本的距離，取距離最近的k個樣本。待標記的樣本所屬類別就由這k個距離最近的樣本投票產生，給定其測試樣本，基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本，然後基於這k個「鄰居」的信息來進行預測。

K緊鄰算法準確性高，對異常值和噪聲有較高的容忍度，但計算量較大，對內存的需求也較大。該算法主要應用於文本分類、模式識別、圖像及空間分類。

7．聚類算法

聚類算法是機器學習中涉及對數據進行分組的一種算法。在給定的數據集中，我們可以通過聚類算法將其分成一些不同的組。應用中科利用聚類分析，通過將數據分組可以比較清晰的獲取到數據信息。該算法讓數據變得有意義，但存在結果難以解讀，針對不尋常的數據組，結果可能無用。

在商業領域中，聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。

8．隨機森林算法

隨機森林是一種有監督學習算法，基於決策樹為學習器的集成學習算法。隨機森林非常簡單，易於實現，計算開銷也很小，但是它在分類和回歸上表現出非常驚人的性能，因此，隨機森林被譽為「代表集成學習技術水平的方法」。

隨機森林擁有廣泛的應用前景，從市場營銷到醫療保健保險，既可以用來做市場營銷模擬的建模，統計客戶來源，保留和流失，也可用來預測疾病的風險和病患者的易感性。

9．支持向量機

支持向量機通過尋求結構化風險最小來提高學習機泛化能力，實現經驗風險和置信範圍的最小化，從而達到在統計樣本量較少的情況下，亦能獲得良好統計規律的目的。它是一種二類分類模型，其基本模型定義為特徵空間上的間隔最大的線性分類器，即支持向量機的學習策略便是間隔最大化，最終可轉化為一個凸二次規劃問題的求解。

支持向量機可應用於諸如文本分類，圖像分類，生物序列分析和生物數據挖掘，手寫字符識別等領域。

10．深度學習

深度學習基於人工神經網絡的機器學習，區別於傳統的機器學習，深度學習需要更多樣本，換來更少的人工標註和更高的準確率。

深度學習是學習樣本數據的內在規律和表示層次，這些學習過程中獲得的信息對諸如文字，圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力，能夠識別文字、圖像和聲音等數據。作為複雜的機器學習算法，在語音和圖像識別方面取得的效果，遠遠超過先前相關技術。

小結

算法是計算機科學領域最重要的基石之一，當下需要處理的信息量是呈指數級的增長，每人每天都會創造出大量數據，無論是三維圖形、海量數據處理、機器學習、語音識別，都需要極大的計算量，在AI時代越來越多的挑戰需要靠卓越的算法來解決。