當廉價勞動力成為機器的感官,AI企業如何管理「認知勞工」

中歐商業評論 發佈 2022-12-01T11:55:32.455428+00:00

作者 | 賈文娟 上海大學社會學院副教授 顏文茜 上海大學社會學碩士*改寫 | 孫一迪責編 | 渠超男有多少智能,就有多少人工1970年,奧地利宮廷中,發明家Wolfgang von Kempelen為取悅瑪麗亞·特蕾莎女大公,宣稱將表演一場史無前例的魔術。





作者 | 賈文娟 上海大學社會學院副教授

顏文茜 上海大學社會學碩士*

改寫 | 孫一迪

責編 | 渠超男




有多少智能,就有多少人工


1970年,奧地利宮廷中,發明家Wolfgang von Kempelen為取悅瑪麗亞·特蕾莎女大公,宣稱將表演一場史無前例的魔術。魔術內容是一種可以自動下棋的機器裝置,被稱作「The Turk」(土耳其行棋傀儡)。這台機器被雕刻為人形,身著土耳其長袍,坐在一個帶有棋盤的木製櫥櫃之後,仿佛真的具有人類的智慧與生命。


Kempelen宣稱這台機器可以打敗任何皇室成員,一位宮廷謀士應戰,果然不到30分鐘就被擊敗。而後的十年,Kempelen帶著「The Turk」游離整個歐洲並取得了驚人的戰績,據傳說他的手下敗將甚至包括班傑明·富蘭克林(Benjamin Franklin)和拿破崙。直到1857年,《西洋棋月刊》才發文揭露,贏過所有人的並非這台機器,而是藏在櫥櫃中的象棋高手。



2005年,亞馬遜推出平台Amazon Mechanical Turk。彼時,亞馬遜正在將CD碟片引入自家的產品線。亞馬遜希望通過該平台,藉助小額的經濟激勵招募網友為其工作,幫助檢查上架的CD專輯名是否正確,並審核封面是否適合未成年人瀏覽。這種藉助人的認知能力作為生產工具的方式,如今正在成為一項超過千億規模的商業模式。


2022年,中國人工智慧核心產業規模超過4000億,企業數量超過3000家,從事數據標註的勞動人口超過千萬。數據標註員就是這個時代,藏在AI背後的「象棋高手」。




Easy on Humans,Hard on Bots

(對人來說簡單,對機器卻困難)


隨著時間的推移,大眾對於機器越來越「智能」的現實早已習以為常。但對於機器是如何藉助人的「智能」被設計、被訓練與被驅動卻知之甚少。


「人工智慧」即機器模仿人的方式進行認知,這種認知訓練需要依靠大量可被機器識別的數據不斷地進行「餵養「。例如,人工智慧並不能天然識別出圖片上出現的人臉,只有當人臉的關鍵點位被按照機器程序設定的方式標註出來之後,計算機才能建立起對人臉的認知。數據標註師的工作,就是按照特定的方式及規範在原始數據上標註出需要被機器學習的數據內容。


依據算法應用途徑的不同,數據標註工作的類型也是多種多樣的。常見的類型有分類標註(從既定的標籤中選擇數據應當對應的類型)、標框標註(在圖片中框選出特定目標的位置)、區域標註(標註圖片中某個特殊區域)、描點標註(如人臉中的關鍵點位標註)和判斷類標註(如判斷語音素材的表意是否一致等)而這些工作都無一例外會應用到我們作為人的「默會知識」。




默會知識的概念由英國哲學家波蘭尼(Michael Polanyi)於1958年在《個體知識》一書中提出。默會知識指一種通過實踐、經驗而獲得的知識,難以用語言、文字或數字進行表達。其本質是一種理解力、領悟力和判斷力的結合,即人的認知。


例如,人類擅長從模糊的照片中挑選出特定的物體,因為人類有一種方法可以將事物與其存在的背景進行區分。這種能力被應用於區分人和機器的「驗證碼」,雖然看起來都是極為簡單的問題,但卻需要調動人的「默會知識」,而這一點對機器來說卻非常困難,這也是驗證碼體系成立的前提。


為數據打上標籤是一種只需培訓很短時間就可以上手的簡單勞動(一般半天-1天,訪談中最多的為2天),標註員不需要掌握任何ICT(Information and Communication Technology)專業知識。在作者進行田野調研的團隊中,標註員常常自嘲「這個工作小學生都可以做」。某種程度而言,數據標註員在勞動過程中的作用與流水線工人、麥當勞服務員是相似的。


區別在於,勞動者不再是機械化流水線的一環,而是成為幫助機器分辨和接受外界信息的感覺器官。




管控認知勞動的三個步驟:

標準化、反饋與認知加速


在工廠生產中,提升勞動率的核心主要集中在提升人工的機械勞動效率,以獲得與機器更高的配合速率,因此標準化的勞動規範與管理能最大程度實現這一效果。但是,當人的智能成為成產工具,傳統的管理方法則日漸失效,因為人類的認知方式千差萬別。


具體到數據標註工作,正因為計算機無法識別現實的複雜可能性,才需要勞動者調動「默會知識」來補充機器認知的不足,所以對標準化的過分強調甚至可能會阻礙勞動者對認知的充分發揮。


作者及研究團隊在進行田野調查中發現,認知勞動管理的核心在於推動勞動者認知模式的轉換——從人類的自然認知模式轉化為計算機需要的產生式認知模式。因此,儘管數據標註工作的難度並不高,但提升勞動效率卻遠比想像中困難。



從田野調查的實踐來看,推動認知模式的轉變,需要經歷以下幾個步驟:


(一)認知標準化:從規則制定到實踐練習


未經訓練的數據標註員,頭腦中持有的都是關於外在世界的自然認知,並呈現出模糊、含混、雜亂等特徵。以哆啦A夢的圖片為例,可能會產生貓、機器人、機器貓等不同判斷,難以滿足算法模型需要的「標準數據」。因而,推動標註員認知模式轉化的首要環節就是認知標準化。


管理方通過兩種不同方式來完成,首先是用書面文件約定《標註細則》,設定一定的認知標尺。通過事無巨細的流程標註來指導標註員們的具體勞動。但文件不能窮盡現實中的所有情況,而針對文字內容的理解本身也存在不小的認知差異。基於此,管理方又進行了標註培訓。通過標註示例的演示,來統一認知。但管理方對培訓卻並未報有過高的期待,單次、單純的講解培訓並不能使標註員完全消化和掌握細則,還需要在實踐中逐步練習


(二)認知反饋:多重反饋機制的建立


當標註員們領會了管理方的要求後,他們就要開始在實踐中調整自己的認知模式。但這並非是由意願能決定的活動,因而及時的反饋(調研顯示,一般為培訓後的3-4天內)就變得重要。管理方不僅要求標註員在工作中及時反思,發現認知偏誤,還鼓勵其隨時與管理方進行溝通,反饋出現的問題


此外,管理方也鼓勵標註員同事之間就工作中的問題提出討論。在及時反饋與討論中,標註員們的認知行為逐漸走向統一。而在勞動中,對於標註員的錯誤,管理方也會以略帶懲罰性的公示或批評等形式警示犯錯者的同時,也一同提醒並修正其他標註員們的認知。


基於反饋與溝通在推動認知改變過程中的重要意義,被調研團隊的管理方也提到了在招聘標註員時,善於溝通和表達的候選者往往更受歡迎。


(三)認知加速的雙重策略:遏制主觀認知與重複操作


認知勞動的推進是個繁複、波折的過程。在認知標準化和認知反饋的過程之後,還需要認知加速來推動標註員最大程度提升認知系統的轉化。在作者進行調研的團隊中,認知加速主要依賴以下幾個策略。


第一,是標註員全面遏制自身主觀認知,拋棄對標註細則和計算機邏輯的所有猶疑。有標註員在訪談中提到,在這一階段,當面對自己不能非常理解的矛盾時,她會立刻進行自我遏制:「不要想那麼多!」,有經驗的標註員也會給出建議「你不要總想著自己在圖片上看到了什麼,要根據規則去想機器能識別到什麼」。


第二個策略是標註員通過持久而快速的重複操作,加快自身的認知反應。「過一段時間就會發現,它就是一個簡單的重複性勞動,一定要耐得住性子,不要想太多。」團隊中速度最快的標註員這樣總結自己的心得。在認知心理學理論中,認知行為的不斷重複能夠有效刺激動物的認知反應速度,強化學習行為,並將一系列原本需要思考才能實現的知識與技能轉變為慣性下的無意識操作。該策略與這一理論不謀而合。此外,管理方還通過漸進地增加標註額度等辦法,促進提升團隊的整體速度。


在人工智慧數據工作的場景下,管理者從對勞動者身體層面的物理控制,過渡為推動認知層面的思維轉變。對管理者而言,一方面要藉助人類的自有認知,讓其發揮「默會知識」,另一方面又要規範勞動者的認知,使其按照機器需要的方式進行。因為管理方需要在這兩者間尋求平衡,所以認知勞動者所面對的勞動管理與控制也不再僵硬、刻板,而愈加呈現出靈活、深入的特徵。




勞動異化與隱蔽的對抗


在日復一日的機械重複和相對廉價的經濟收穫中,大多數進行簡單勞動的數據標註員都或多或少產生了獲得感的缺失(作者所調研的標註團隊中,56%為外包員工,工資4000~5000/月;30%為實習生,酬金100~200/天)


「做這個是學不到任何技術的,每天都做一樣的活兒,長期這樣不動腦,腦子會生鏽的。」這是一種典型的感受,在這種情況下,勞動者們往往會把這份工作當作特定時期的過渡,而不願投入過多熱情。同時,他們也會採取偷懶、「摸魚」等方式來爭取更多自由的空間,以對抗一種作為「機器感覺器官」的異化體驗。


而面對管理方嚴苛的定額要求時,他們也會採取聯合限制產量等更加隱蔽、柔和的對抗方式。而來自產品經理、算法程式設計師、標註組長的三方共同管理模式,也在一定程度上會對標註員們的工作帶來困擾。高流動率是數據標註行業人員管理所面臨的另一個重要難題。管理者雖然能在短期內獲取儘可能多的剩餘勞動,但很難從長期角度阻止勞動者的主動逃離。


為應對這些問題,我們可以看到近年來數據標註行業僱傭的勞動力群體正在從一二線城市向經濟欠發達地區轉移。雖然可以一定程度上依靠經濟利益吸引一部分較為穩定的勞動力,但勞動者群體普遍教育背景的降低也會帶來認知轉化管理難度的增加


人類學家瑪麗·L.格雷(Mary L. Gray)和計算機科學家西達爾特·蘇里(Siddharth Suri)在《銷聲匿跡:數位化工作的真正未來》一書中提到了這樣的觀點:自動化的最大悖論在於,使人類免於勞動的願望總是給人類帶來新的任務。而在技術走向自動化的漫長歷史中,很關鍵的一點是對臨時勞動力的依賴


今天的人工智慧數據標註員群體,就是當下發展中臨時勞動力的最新疊代。在這一前沿,臨時工的高峰和低谷不斷轉換,這重新定義了人類和機器的關係。而在人與機器的動態關係中,如何掌握身為人的主動權,對抗機器異化是每一個勞動者時刻面對的現實,也是管理者應當在各方平衡中需要謹慎面對的問題。


*論文原文

《認知勞動與數據標註中的勞動控制——以N人工智慧公司為例》原文刊載於《社會學研究》2022年第5期


關鍵字: