【算法】拆解全球性「健康碼」倫理難題

阿里云云棲號 發佈 2020-04-24T05:31:16+00:00

健康碼已在全國鋪開。隨著疫情的全球性流行,世界各國也紛紛研發自己的「健康碼」,各方也頻繁的就倫理隱憂發聲。

健康碼已在全國鋪開。一手綠碼,通行爽利;一屏紅碼,隔離走起。

隨著疫情的全球性流行,世界各國也紛紛研發自己的「健康碼」,各方也頻繁的就倫理隱憂發聲。

在算法治理「遠帆將來」的時刻,對健康碼的研究,還可能成為未來制度建設的先聲。在這期間,倫理問題尤其重要。

當我們討論健康碼的倫理問題的時候,我們究竟在討論什麼?如果將健康碼的原理拆成三步去理解,或許可以全面展示該議題的關鍵所在——

第一步,健康碼需要收集許多個人信息,這些信息需要得到充分的保護;

第二步,算法處理這些信息,將個體分類為「紅」、「黃」、「綠」等類別,過程中的算法倫理不容忽視;

第三步,根據分類,衛生部門、交通關口、企業和學校等單位對個體施以「區別對待」,這些措施也需要合理而正當。

總之,無論是健康碼還是其它算法治理措施,都需要邁過以上三道坎。

01 第一道坎:個人信息保護

疫情時分,健康碼與個體如影隨形,與個人身份綁定,反映個體活動情況。這一過程不可避免地涉及了許多個人信息,其中有些信息又相當敏感。

由於健康碼生成方式不同,「集中式」和「分布式」下的健康碼,收集的範圍也有相當不同,此處簡要分別討論。

「集中式」健康碼運用後台打通的資料庫和個體填報信息,直接判斷顏色。根據各地情形不同,納入信息也有些許不同。

一般而言,之前是否屬於「確診」或「疑似」、近期活動軌跡和地區、近期搭乘航班或車次等,都會成為分析對象。部分地區還會採集居住地、是否曾購買發熱藥物等。根據疫情的變動和後台的建設,這一範圍可能還在不斷擴大。

「分布式」健康碼的原理稍有不同。簡而言之,就是個體各自在手機上安裝應用,應用再以藍牙定位或者超聲波的方式,測量附近有無其它安裝同款應用的個體經過,有則記錄下來。

如此,可以形成細緻的運動軌跡和接觸者網絡。一旦有個體出現狀況,接觸個體都會收到信息。此類健康碼收集的信息類型相對簡潔,但至少也會涉及個體相當全面的社交網絡。

無論採取何種形式,健康碼都會涉及個人信息的處理。

遵從現有涉及個人信息的法律法規國家標準,切實以保護個人信息在生命周期各環節的安全為底線。這一點又體現為防止過度收集,注意最小化原則,做好信息安全,禁止分享公開,可行範圍內匿名化,可查可用不可導出,等等,都已體現在各地的健康碼實踐中。

不過,還有三點值得注意。

其一,有關信息應視為個人敏感信息。

一方面,無論是病史、行蹤軌跡,還是藥物記錄、社交網絡,單獨均足以達到「影響個體人身或財產安全,或導致身心健康受損,或導致歧視性待遇」的「敏感」標準;另一方面,對這些信息的處理方式,足以影響個體能否獲得遷徙、勞動或受教育的權利,因此可能達致「敏感」標準。這一點會影響合宜的信息保護水平。

其二,「集中式」下的隱私風險較為凸顯,「分布式」下的風險則容易被忽視。

「分布式」健康碼程序通常採取匿名標識符,無法直接識別至個體。然而,從現有安全領域研究看,通過軌跡或社交關係識別個體,既不困難,準確率也不低。因此,個人信息保護工作仍不能輕忽。

其三,在具體落實保護工作時,一頭一尾兩個環節,需要進一步分析。

在尋求個人信息處理合法性的頭部環節,儘管重大公共利益足以構成合法性基礎,但從維護個體隱私權、進一步消除隱私風險的角度出發,獲取明示同意並展示隱私協議,是更加合適的做法。

實際上,這也是算法倫理領域的共識。在抗疫接近尾聲、個人信息處理完畢時,如何處理相關信息?是簡單封存,還是採取加總等匿名化措施後用於研究等用途,又或者是刪除,此處需要因情勢制宜的討論。

一般而言,信息匿名化可能是此處底限。

02 第二道坎:算法倫理

健康碼的機理,是在各類個人信息的基礎上,根據感染風險對不同個體分類。這一工作涉及算法,自然也涉及近年來熱度驟升的算法倫理。

何為算法倫理的核心內容?各國暫時各執一詞,但也有一些共識。在健康碼語境下,除開已經提到的隱私,「算法可解釋」,「算法可問責」,和「算法公平」,三者共同構成眼下最需要注意的算法倫理。

「算法可解釋」原則的精神很樸素:如果一則算法的運行足以影響個體遷徙、勞動或受教育的權利,那麼,個體有理由知道這個算法究竟在幹什麼。

對很多具體的場景,「算法可解釋」很可能是法律中「正當程序」原則蘊涵的要求。因此,需要對健康碼作出一定的解釋。算法運作的具體原理不同,需要的解釋相應不同,不妨分兩種情形討論。

當前而言,大部分地區的健康碼原理相對簡單:首先,設定一些判斷條件,「個體近期是否曾前往疫情嚴重區域」,「個體軌跡是否與其他確診或疑似個體重合」,「個體是否曾購買發熱藥物」,等等;其次,將數據與條件結合,觸發特定條件的生成「紅」或「黃」碼,其餘生成「綠」碼。

對這樣相對簡單的算法,除非存在作弊風險,直接公開邏輯,便是最好的解釋。

當然,隨著時間的推移、數據資源的豐富和研究人員的攻關,健康碼原理可能日趨複雜。比如,研究人員可以根據健康碼的既往防控效果,嘗試更為複雜的分類算法,以提升分類的準確率。如果是線性或決策樹模型,解釋依然可能;不過,模型有可能在技術層面即難以解釋,構成字面意義上的「黑箱」。此時,具備可解釋性,應當成為選擇模型時的考慮之一。

如果確實需要採取難以解釋的模型,應該一併對原理作出準確易懂的說明。

可解釋指向可問責。

健康碼不可能完全不出錯,重要的是在出錯時及時糾正、在造成損害時明確責任。這又進一步指向兩點:第一,在制度層面建立報錯和覆核機制方便;第二,在技術層面,為個體定位錯誤行方便。這樣,報錯、覆核和尋求其它救濟都會更容易。

根據個人信息保護的相關內容,個體有權知曉自己的哪些信息參與了健康碼的生成,也可以知道這些信息的內容。如果算法具備可解釋性,個體能夠知道個人信息如何與健康碼內置的邏輯交互。既知輸入,又知算法,個體就能容易地定位錯誤的具體內容。此外,如果個體在利用覆核或類似渠道時能夠把問題表述得更加清楚,行政機關的負擔也會相應下降。算法公平,是另外一項堪稱共識的倫理原則。

「數字鴻溝」的廣泛存在,意味著並不是所有人都有知識、有條件充分利用健康碼。藉助人工驗證等渠道,儘量將鴻溝「填平」,為無法利用健康碼的個體提供等效的驗證方式,是公平的第一項要求。實際上,保障個體合理的、免於算法的決策,也是《統一數據保護條例(GDPR)》等立法進展所體現的趨勢。

公平的第二項要求,是避免基於敏感特徵的歧視。

在健康碼語境下,歧視集中在地域特徵上。這裡要求健康碼系統即時跟進最新的各地風險層級通報,在判斷條件中及時移除疫情風險已然不高的地區。之外,在任何情形下,都不應該在判斷條件中使用性別、種族、國籍等敏感特徵。

這些特徵和感染風險的關聯十分有限,對實際防控未必有太多幫助;反之,一旦此類歧視引起國內或國際範圍的輿論風潮,代價或將十分慘重。

除去第一節已經提到的隱私,和第二節討論的三種價值,算法倫理上還有一些頗為重要的原則。比如歷史悠久的「不作惡」或「向善」,以及歐盟正在大力倡導的「可信賴」,等等。這些原則和之上的內容有許多重疊。

如果健康碼制度充分保障隱私、原理容易解釋、責任易於定位、善待弱勢群體,這一制度也就在很大程度上值得信賴、可為「科技向善」的標杆。

03 第三道坎:「健康主義」下的區別對待

健康碼之所以牽動人心,關鍵還是對現實生活有實實在在的影響。

要不要隔離十四天,涉及到對人身自由的限制;能不能在不同地區間流動,能不能復工復學,在工作場所和學校的活動是否受限,都涉及對個體基本權益的限制。以對健康狀況的評估(這裡是感染風險)為依據,區別對待不同的個體,這類做法有個概括性的名稱:「健康主義(Healthism)」。

當前疫情中的健康主義立場顯然有其合理性。不過,這不能逾越所有的基本權利。承認這兩點後,健康碼中的政策抉擇,就又轉化為包羅眾多因素的平衡問題。由於篇幅所限,短文無法盡數展開。不過,對此類平衡,一般需要注意至少三類要點。

首先,在社會層面,「健康」、「衛生」甚或「潔凈」,常常不是均一的概念。在健康碼這一場景中,定義相對明確:感染特定類型病毒的機率。

然而,隨時間推移,如果社會觀念發生變動,將「感染」與「不潔」、「危險」甚至「敵對」相關聯,甚至因此排斥有關群體,這將會增加健康碼逾越正當尺度的風險。同時,如果這一算法治理模式得到推廣,並得以應用於其它因健康狀況而差別待遇的場景,這些推陳出新的「xx碼」同樣需要越過三道坎,我們並不能默認其正當性。

其次,在考量健康碼的運用是否過度時,角度務求全面。

如果只考慮單一限制,比如說不能復工是基於健康碼的限制,似乎總是合理的。但如果用更完整的視角看待,將個體各方面權益可能因健康碼受到的限制綜合考慮,相關公共利益與人身自由、受教育權、勞動權等眾多因素,可能也會相應改變。這一思路也可以預防健康碼應用的過度泛化。

最後,隨著時勢日日而新、科研時時而前,人類對病魔的了解程度也在不斷深入。

先前施加的一些限制,或許已顯不足:例如,倘若存在新的傳播途徑,可能需要更新相應隔離措施;反之,限制牽涉的範圍,可能因對病毒的深入了解而縮小:例如,對各地區風險評估的顆粒度越精細,限制涉及的地域範圍相應也會更精確。

總之,既然公共利益和基本權益間的最優平衡頻繁變動,在保障安全的前提下相應疊代調適健康碼設計,可謂應時之需。

疫情面前無小事,健康主義領域沒有簡單的問題。在如此情形下決斷,總需要非凡的勇氣、智慧和技藝。除非確實存在抗疫效果上沒有差異、對個體權益限制又顯然更少的方案,對健康碼的採用,通常合理而正當。

當然,這並不意味著要放棄審視和反思,對各種權利的綜合考慮,結合科學進展思考限制更少的方案,都應該始終「在路上」。同時,在脫離緊急狀態以後,這些思路不僅不會過時,還會為防止萬「碼」奔騰的濫用築起堅強的堤防。

04 結語和展望

本文以高度簡化的方式介紹了健康碼的原理,並探討了如何以比較系統的方式反思健康碼的應用。

為了成為「範本」、紓解在法律和輿論層面的擔憂,健康碼需要越過三道坎:

一是已經比較完備的個人信息保護,難點主要在於細部的合規;

二是方興未艾、正形成共識的算法倫理,健康碼可能,也應該合乎這些倫理,實現「科技向善」而可以信賴的願景;

三是從利益平衡角度出發,對「健康主義」的省思,這裡可能蘊涵著實現算法善政的根本性問題。

「三道坎」的思維方式可以推廣到更一般的算法治理場景。無論是持續熱議的徵信算法,還是日益升溫的智能司法,又或者是正在湧現議論的智慧城市,都可以從「三步走」的思路出發,系統地評估、平衡、評判得失。

首先,這些算法需求什麼樣的個人(敏感)信息?其次,這些算法的運作機制,是否切合目前公認的倫理原則?最後,因算法的輸出而在現實中區別對待,是否合理且正當?筆者相信,這是一種相對全面、而又便於應用的思考出發點。

關鍵字: