算法偏見：被AI算法包圍的時代 - 中國電氣傳動網

人工智慧在各個領域似乎被吹捧為在各種應用領域實現自動化決策的「聖杯」，被認為可以做得比人類更好或更快，但事實上人工智慧面臨了一個大挑戰就是算法偏見。

人工智慧是否全能

機器是沒有情感的，只能根據輸入的數據來進行學習，然後按照既定設計完成相應功能，AI需要大量數據來運作，但通常沒有合適的數據基礎設施來支持AI學習，最終AI的數據基礎不夠，無法真正有效地完成功能，更多的是從事一些指令性的工作，就像生產線上的機器手一樣，都是提前輸入指令，由機器手臂按照固定的步驟操作完成。

人類對大腦還是未知的，我們並不清楚大腦是如何進行學習和工作的，AI其實就是模仿人腦去思考和工作，但我們對大腦的機理並不清楚，就無法讓AI完全模擬人腦，無法完全代替人腦去學習和工作，AI更多時候是根據輸入的數據，將見到的問題錄入與已輸入的數據進行對比，有重疊度比較高的就認為匹配成功，執行相應的預設動作，當已有的樣本庫里沒有匹配到，那AI也不知道該怎麼辦。在很多人類活動中，摻雜著很多複雜的社會問題，比如說種族歧視、國家競爭、疾病傳染等問題，AI顯然還意識不到這些問題的存在，這些數據不好採集和錄入，AI算法也沒有考慮這些社會因素。

算法的偏見來自哪裡

工程師很少刻意將偏見教給算法，那偏見究竟從何而來，這個問題與人工智慧背後的核心技術—機器學習休戚相關。機器學習過程可化約為如下步驟，而為算法注入偏見的主要有三個環節—數據集構建、目標制定與特徵選取（工程師）、數據標註（標註者）。

工程師是規則制定者，算法工程師從頭到尾參與了整個系統，包括：機器學習的目標設定、採用哪種模型、選取什麼特徵（數據標籤）、數據的預處理等。不恰當的目標設定，可能從一開始就引入了偏見，比如意圖通過面相來識別罪犯；不過，更典型的個人偏見代入，出現在數據特徵的選取環節。

數據標籤就是一堆幫助算法達成目標的判定因素。算法就好像一隻嗅探犬，當工程師向它展示特定東西的氣味後，它才能夠更加精準地找到目標。因此工程師會在數據集中設置標籤，來決定算法要學習該數據集內部的哪些內容、生成怎樣的模型。

對於一些非結構化的數據集如大量描述性文字、圖片、視頻等，算法無法對其進行直接分析。這時就需要人工為數據進行標註，提煉出結構化的維度，用於訓練算法。舉一個很簡單的例子，有時Google Photos會請你幫助判斷一張圖片是否是貓，這時你就參與了這張圖片的打標環節。

當打標者面對的是「貓或狗」的提問時，最壞結果不過是答錯；但如果面對的是「美或丑」的拷問，偏見就產生了。作為數據的加工人員，打標者時常會被要求做一些主觀價值判斷，這又成為偏見的一大來源。

打標過程正是將個人偏見轉移到數據中，被算法吸納，從而生成了帶有偏見的模型。現如今，人工打標服務已成為一種典型商業模式，許多科技公司都將其海量的數據外包進行打標。這意味著，算法偏見正通過一種「隱形化」、「合法化」的過程，被流傳和放大。

人工智慧偏見的分類

偏見不是以一種形式出現的，而是有各種類型的。這包括交互偏見、潛意識偏見、選擇偏見、數據驅動的偏見和確認偏見。

交互偏見：是指用戶由於自己與算法的交互方式而使算法產生的偏見。當機器被設置向周圍環境學習時，它們不能決定要保留或者丟棄哪些數據，什麼是對的，什麼是錯的。相反，它們只能使用提供給它們的數據——不論是好的、壞的，還是丑的，並在此基礎上做出決策。機器人Tay便是這類偏見的一個例子，它是受到一個網絡聊天社區的影響而變得偏種族主義。

潛意識偏見：是指算法錯誤地把觀念與種族和性別等因素聯繫起來。例如，當搜索一名醫生的圖像時，人工智慧會把男性醫生的圖像呈現給一名女性，或者在搜索護士時反過來操作。

選擇偏見：是指用於訓練算法的數據被傾向性地用於表示一個群體或者分組，從而使該算法對這些群體有利，而代價是犧牲其他群體。以招聘為例，如果人工智慧被訓練成只識別男性的簡歷，那么女性求職者在申請過程中就很難成功。

數據驅動的偏見：是指用來訓練算法的原始數據已經存在偏見了。機器就像孩子一樣：他們不會質疑所給出的數據，而只是尋找其中的模式。如果數據在一開始就被曲解，那麼其輸出的結果也將反映出這一點。

確認偏見：這類似於數據驅動的偏見，偏向於那些先入為主的信息。它影響人們怎樣收集信息，以及人們怎樣解讀信息。例如，如果自己覺得8月份出生的人比其他時候出生的更富有創造性，那就會偏向於尋找強化這種想法的數據。

Applause推出偏見解決方案

應用測試公司Applause推出了新的人工智慧解決方案，同時提供AI訓練所需的龐大數據。

Applause已經為其應用程式測試解決方案建立了龐大的全球測試社區，該解決方案受到谷歌、Uber、PayPal等品牌的信任。

具體地說，Applause的新解決方案跨越五種獨特的AI活動類型：

①語音：源發聲以訓練支持語音的設備，並對這些設備進行測試，以確保它們能夠準確地理解和響應；

②OCR：提供文檔和對應的文本來訓練識別文本的算法，並比較列印文檔和識別文本的準確性；

③圖像識別：交付預定義對象和位置的照片，並確保正確識別圖片和識別對象；

④生物識別：獲取生物特徵輸入，如人臉和指紋，並測試這些輸入是否會產生易於使用且實際有效的體驗；

⑤聊天機器人：給出樣本問題和不同的意圖讓聊天機器人回答，並與聊天機器人互動，以確保它們能像人類那樣準確地理解和響應。

結尾：

但回過頭來，技術不過是社會與人心的一面鏡子。某種程度上，算法偏見就像在這個我們認為進步、美好的當下，重新呈遞灰暗角落的真相併敲響警鐘。因此，當談及算法偏見的應對時，一部分努力便是要回歸於人。可幸的是，即便是技術層面的自律與治理嘗試，也能極大地降低偏見程度、避免偏見大幅擴張。

來源：網絡