Facebook 審核人員暴增,科技巨頭的漫漫審核路

極客公園 發佈 2020-04-14T12:21:58+00:00

Facebook 人工智慧技術在圖像識別上的應用 | 視覺中國然而也在人工智慧技術高速發展,看似能代替人們做更多事的時候,Facebook 做出了一項令人意外的舉動:擴大人工審核團隊。據不完全統計,自 2017 年開始,Facebook 幾乎每年都要招攬幾千名內容審核員,這個數字

大公司們越來越需要思考,怎麼合理引入技術,去創造對社會的正向影響和價值。

Facebook 又搞砸了。像是矯枉過正,這一次它刪錯了帖。

3 月 17 日,許多 Facebook 用戶發現自己從媒體轉發關於新冠病毒的文章被刪,頁面顯示這些連結違反了社區的垃圾信息規則。

隨著全球範圍內新冠病毒疫情越來越嚴重,圍繞疫情的假新聞也逐漸變多,怎樣辨別假新聞並刪帖,成為社交媒體近期最關注的事。但是,上面提到被刪除的文章都屬於正式合法的媒體網站,包括 The Atlantic,USA Today,和 BuzzFeed 等美國老牌或新興的媒體。

也就是說,Facebook 把真新聞當成假新聞刪掉了。

矛頭很快指向了 Facebook 的人工智慧審核系統。由於疫情的緣故,Facebook 在 3 月 16 日暫停了公司所有審查內容人員的工作,內容審核的工作轉而交給平台上的「機器人」。Facebook 聲稱:「由於可供審查的工作人員越來越少,我們將繼續優先處理那些迫在眉睫的危害內容,並增加對其他領域的主動檢測,以刪除違規內容。」

自然而然,人們懷疑是人工智慧誤刪了正規新聞。但隨後 Facebook 副總裁 Guy Rosen 聲明,這是反垃圾信息系統中的一個 bug,與公司內容審核團隊做出的任何調整無關。

雖然整件事鬧出烏龍,但這背後反映的是人們對技術的不信任。谷歌最近也警告稱,視頻平台 YouTube 上以違反內容政策為由的被誤刪視頻可能會大量增加,原因是在新冠病毒疫情流行期間,該公司將更多地依賴 AI 來審核視頻,而不是人工。

即便在科技大公司口中,AI 一直在進步,好像可以承擔很多人工的工作。但內容審核並不能完全交由 AI 處理,相反,近幾年的趨勢是,大公司們紛紛擴大了人工審核的規模。為什麼人工智慧發展了這麼多年,審核內容這件事反而需要更多人工?在這背後,大公司又經歷了什麼?


內容暴增,AI 擔起審核重任

網際網路不是法外之地。為了解決網絡上出現的淫穢色情、暴力血腥等違法內容,很多平台會設置內容審查制度。

有必要提及的是,諸如 Google、Facebook、Twitter 等網際網路公司在近幾年都大大加強了內容審核的力度。究其原因,大概可以總結為「流量的變化」。

一方面,平台的用戶增長到了一個可怕的量級,僅就 Facebook 來看,2019 年第四季度,Facebook 的月活達到了 25 億,這還只是一個 app,不算 Facebook 旗下的 Messenger、Instagram 和 WhatsApp 等應用。

另一方面,這些年內容形式變得越來越複雜,從文字,到圖片,再到現在的視頻和流媒體,網際網路上的數據量瘋狂增加,更多的用戶每天都在產出更多的內容。

隨著信息、內容和用戶的暴增,科技巨頭既可能創造了一個新的紀元,也可能打開了潘多拉的魔盒。這個過程中,對於內容的把控就顯得格外重要。

還以 Facebook 為例。過去,Facebook 對內容的管控相對鬆弛,虛假新聞、標題黨甚至恐怖主義言論經常出現,審核團隊人數也意外的少。據悉,2012 年 Facebook 有 8 億多用戶的時候,審核團隊只有 50 人左右。

人工智慧興起之後,很多網際網路巨頭第一時間將技術應用於自身的業務,其中就包括 Facebook。從 2017 年開始,Facebook 就在嘗試使用人工智慧解決內容審核的問題,當時可以做到使用 AI 圖像識別工具來搜索照片,也宣布推出一套能夠識別出試圖自殺或自殘的用戶的系統。

但是,當時的人工智慧技術並不夠成熟。比如在理解語境方面,Facebook 的 AI 系統就不夠智能。並且,AI 在當時只能作為輔助判斷,並不能真正進行決策。扎克伯格曾在當時的公開信中提到,這套系統可以標記疑似內容,以便團隊再次審核。

如今,人工智慧在 Facebook 的內容審核上有了長足的進步。根據 Facebook CTO 邁克·斯科洛普夫在採訪中說到,Facebook 已經能夠自動從社交網絡上刪除 96% 的裸露內容。而仇恨言論問題則比較棘手,AI 系統可以識別出 65% 包含仇恨言論的帖子。

對於圖片和視頻來說,人工智慧介入審核是非常有效果的,因為計算機視覺識別技術相對成熟。機器通過一定時間的訓練都能夠識別出敏感類別的內容,比如裸體、比如槍枝等等。視頻同理,Facebook 曾經展示過 AI 對於圖片和視頻的識別,基本不會出現差錯。

然而也在人工智慧技術高速發展,看似能代替人們做更多事的時候,Facebook 做出了一項令人意外的舉動:擴大人工審核團隊。

據不完全統計,自 2017 年開始,Facebook 幾乎每年都要招攬幾千名內容審核員(以外包形式),這個數字在 2020 年增長到了 1 萬餘名。他們要做的工作聽起來也很簡單:按照 Facebook 的用戶內容政策,對有害內容進行審核和刪除。

到底發生了什麼,讓 Facebook 對技術「喪失了信心」?


盲點出現

2019 年 3 月 15 日,28 歲的布倫頓·塔蘭特(Brendon Tarrant)持槍衝進紐西蘭基督城的兩座清真寺,朝正在參加主麻日的人群射擊,殺害了 50 人。這則新聞在全球範圍內廣泛傳播,因為兇手在 Facebook Live 上直播了從準備武器到殺人的全部過程。

行兇過程的直播持續了 17 分鐘才被 Facebook 刪除,但 17 分鐘對於一場直播來說已經足夠進行大範圍的傳播,更何況還有保存下來的視頻在平台上擴散。儘管 Facebook 聲明自己「迅速採取了行動刪除內容」,但有用戶稱,刪除視頻幾小時後仍可以看到這些內容。

同樣的情況在過去兩年間發生過數次,Facebook 應對往往不夠及時,導致惡劣的情況時有發生。而這就涉及到了人工智慧在圖片和視頻之外的「盲點」——直播。

和固有的圖片視頻識別不同,直播對審核的要求非常之高。除了實時識別畫面這一難點之外,人們在直播中的一舉一動都無法預測,這是目前人工和機器都無法做到的事。誰也不知道,直播者下一秒會在鏡頭前開槍射擊。

斯科洛普夫也提到,AI 沒能將紐西蘭槍擊案直播識別為危險內容,因為「它和之前上傳到 Facebook 上的視頻都不一樣,這段視頻是以第一人稱視角來展現過程,就像電腦遊戲。」

所以在 2017 年一次直播殺人事件之後,Facebook 增加了 3000 名人工審核員專門審查暴力直播視頻。對於巨大的平台來說,人工智慧技術還遠不能完全取代人類,甚至連取代一部分都做不到,內容審核遠比人們想像中的更加困難。


人工與 AI 的協作

我們所處的環境是千差萬別的。全球各個地區的政治文化背景都不相同,並且每天都可能有變化存在,AI 還無法處理這麼複雜的動態。

那麼,同樣的邏輯放在人工審核上是否可行?這就要涉及到平台的一套審核標準。

2018 年,Facebook 首次公布了詳細的內容審核標準,也就是社區守則。經過幾個版本的調整,該標準分為六大板塊:暴力和犯罪行為、安全、不良內容、誠信與真實性、尊重智慧財產權和內容相關申請,定義了哪些內容可能會被刪除。

但問題在於,不是所有的內容都是非黑即白,要讓所有審核人員明確標準,做出一致的決策,本來就是不可能的事。

技術的邏輯和人們思考的邏輯不同。說到底,深度學習技術只是根據既有的數據進行訓練,從而展示出的一個個數據模型,它和人類的主動思考完全不一樣。因此,如 Facebook 人工智慧副總裁傑羅姆·佩森蒂(Jerome Pesenti)所說,「AI 與人類智力的差距非常大,它可以傳播人類的偏見、不容易解釋、不具備常識,更多的是停留在模式匹配的層面,而不是強大的語義理解」。所以,如果 AI 在內容審核的判斷上出了偏差,沒有人敢為其擔下責任。

如上文提到的,在理解仇恨言論上,AI 並不能像識別圖片和視頻那樣達到高準確率。原因在於內容本身,不同的內容表達上含義不一樣,可能取決於上下文,可能只是諷刺但沒有到達仇恨言論的高度……因為很難被定義,所以 AI 在審核這方面內容時有局限性。

總結下來,人工智慧無法代替人類的問題在於技術在理解語言和行為預測上有一定困難,而這些問題即便人工也不能即刻給出答案。利用 AI 將疑似有害內容發送給人工審核進行二次判斷,無論從安全角度還是成本角度講,都是最優解。

加州大學洛杉磯分校信息研究教授 Sarah T. Roberts 很早就開始研究社交媒體的內容審核,她最近看到的趨勢是,社交媒體的審核方式已經從人工手動審核進化到了訓練機器審核,以便人工對機器審核的內容進行決策。當然,在整套審核過程當中,「人」始終沒有脫離出這個閉環。「我們將會擁有的是『混合動力』。」SarahT.Roberts 說到。


內容審核的意義

不僅是 Facebook,在大時代的變化下,科技巨頭公司掌握了海量的信息和內容,一舉顛覆了「媒體」的概念。這種改變世界的影響,是科技公司創始人們剛開始創業的時候無法預料到的。

然而,在改變世界之後,留給他們的問題是怎樣不滑向「黑暗面」,甚至讓平台更加光明,這也許就是所有巨頭投入大量資金和精力做內容審核的意義所在。

平台的內容管控和商業利益一直是矛盾的關係,科技公司要做的就是找到其中的平衡關係。放棄短期的商業利益,約束自己的邊界,換取的可能是更大的社會影響力,也是科技巨頭必須面對的巨大挑戰。

如果把網際網路巨頭比作一個向前快速滾動的巨輪,算法就是其中一個關鍵零件,零件偏了一點方向,巨輪的軌跡極有可能發生巨大變化。而零件怎麼偏,偏多少,都可以經過掌控者的計算。

因此,大公司們要怎麼在引以為豪的「科技」和「商業」標籤上加入對社會的影響和價值,是比前兩者更亟待解答的東西。畢竟,科技沒有善惡,善惡來自科技的使用者。


責任編輯:宋德勝

題圖來源:視覺中國

本文首發於極客公園,轉載請聯繫極客君微信geekparker


關鍵字: