【算法】拆解全球性「健康碼」倫理難題

健康碼已在全國鋪開。一手綠碼，通行爽利；一屏紅碼，隔離走起。

隨著疫情的全球性流行，世界各國也紛紛研發自己的「健康碼」，各方也頻繁的就倫理隱憂發聲。

在算法治理「遠帆將來」的時刻，對健康碼的研究，還可能成為未來制度建設的先聲。在這期間，倫理問題尤其重要。

當我們討論健康碼的倫理問題的時候，我們究竟在討論什麼？如果將健康碼的原理拆成三步去理解，或許可以全面展示該議題的關鍵所在——

第一步，健康碼需要收集許多個人信息，這些信息需要得到充分的保護；

第二步，算法處理這些信息，將個體分類為「紅」、「黃」、「綠」等類別，過程中的算法倫理不容忽視；

第三步，根據分類，衛生部門、交通關口、企業和學校等單位對個體施以「區別對待」，這些措施也需要合理而正當。

總之，無論是健康碼還是其它算法治理措施，都需要邁過以上三道坎。

01 第一道坎：個人信息保護

疫情時分，健康碼與個體如影隨形，與個人身份綁定，反映個體活動情況。這一過程不可避免地涉及了許多個人信息，其中有些信息又相當敏感。

由於健康碼生成方式不同，「集中式」和「分布式」下的健康碼，收集的範圍也有相當不同，此處簡要分別討論。

「集中式」健康碼運用後台打通的資料庫和個體填報信息，直接判斷顏色。根據各地情形不同，納入信息也有些許不同。

一般而言，之前是否屬於「確診」或「疑似」、近期活動軌跡和地區、近期搭乘航班或車次等，都會成為分析對象。部分地區還會採集居住地、是否曾購買發熱藥物等。根據疫情的變動和後台的建設，這一範圍可能還在不斷擴大。

「分布式」健康碼的原理稍有不同。簡而言之，就是個體各自在手機上安裝應用，應用再以藍牙定位或者超聲波的方式，測量附近有無其它安裝同款應用的個體經過，有則記錄下來。

如此，可以形成細緻的運動軌跡和接觸者網絡。一旦有個體出現狀況，接觸個體都會收到信息。此類健康碼收集的信息類型相對簡潔，但至少也會涉及個體相當全面的社交網絡。

無論採取何種形式，健康碼都會涉及個人信息的處理。

遵從現有涉及個人信息的法律法規國家標準，切實以保護個人信息在生命周期各環節的安全為底線。這一點又體現為防止過度收集，注意最小化原則，做好信息安全，禁止分享公開，可行範圍內匿名化，可查可用不可導出，等等，都已體現在各地的健康碼實踐中。

不過，還有三點值得注意。

其一，有關信息應視為個人敏感信息。

一方面，無論是病史、行蹤軌跡，還是藥物記錄、社交網絡，單獨均足以達到「影響個體人身或財產安全，或導致身心健康受損，或導致歧視性待遇」的「敏感」標準；另一方面，對這些信息的處理方式，足以影響個體能否獲得遷徙、勞動或受教育的權利，因此可能達致「敏感」標準。這一點會影響合宜的信息保護水平。

其二，「集中式」下的隱私風險較為凸顯，「分布式」下的風險則容易被忽視。

「分布式」健康碼程序通常採取匿名標識符，無法直接識別至個體。然而，從現有安全領域研究看，通過軌跡或社交關係識別個體，既不困難，準確率也不低。因此，個人信息保護工作仍不能輕忽。

其三，在具體落實保護工作時，一頭一尾兩個環節，需要進一步分析。

在尋求個人信息處理合法性的頭部環節，儘管重大公共利益足以構成合法性基礎，但從維護個體隱私權、進一步消除隱私風險的角度出發，獲取明示同意並展示隱私協議，是更加合適的做法。

實際上，這也是算法倫理領域的共識。在抗疫接近尾聲、個人信息處理完畢時，如何處理相關信息？是簡單封存，還是採取加總等匿名化措施後用於研究等用途，又或者是刪除，此處需要因情勢制宜的討論。

一般而言，信息匿名化可能是此處底限。

02 第二道坎：算法倫理

健康碼的機理，是在各類個人信息的基礎上，根據感染風險對不同個體分類。這一工作涉及算法，自然也涉及近年來熱度驟升的算法倫理。

何為算法倫理的核心內容？各國暫時各執一詞，但也有一些共識。在健康碼語境下，除開已經提到的隱私，「算法可解釋」，「算法可問責」，和「算法公平」，三者共同構成眼下最需要注意的算法倫理。

「算法可解釋」原則的精神很樸素：如果一則算法的運行足以影響個體遷徙、勞動或受教育的權利，那麼，個體有理由知道這個算法究竟在幹什麼。

對很多具體的場景，「算法可解釋」很可能是法律中「正當程序」原則蘊涵的要求。因此，需要對健康碼作出一定的解釋。算法運作的具體原理不同，需要的解釋相應不同，不妨分兩種情形討論。

當前而言，大部分地區的健康碼原理相對簡單：首先，設定一些判斷條件，「個體近期是否曾前往疫情嚴重區域」，「個體軌跡是否與其他確診或疑似個體重合」，「個體是否曾購買發熱藥物」，等等；其次，將數據與條件結合，觸發特定條件的生成「紅」或「黃」碼，其餘生成「綠」碼。

對這樣相對簡單的算法，除非存在作弊風險，直接公開邏輯，便是最好的解釋。

當然，隨著時間的推移、數據資源的豐富和研究人員的攻關，健康碼原理可能日趨複雜。比如，研究人員可以根據健康碼的既往防控效果，嘗試更為複雜的分類算法，以提升分類的準確率。如果是線性或決策樹模型，解釋依然可能；不過，模型有可能在技術層面即難以解釋，構成字面意義上的「黑箱」。此時，具備可解釋性，應當成為選擇模型時的考慮之一。

如果確實需要採取難以解釋的模型，應該一併對原理作出準確易懂的說明。

可解釋指向可問責。

健康碼不可能完全不出錯，重要的是在出錯時及時糾正、在造成損害時明確責任。這又進一步指向兩點：第一，在制度層面建立報錯和覆核機制方便；第二，在技術層面，為個體定位錯誤行方便。這樣，報錯、覆核和尋求其它救濟都會更容易。

根據個人信息保護的相關內容，個體有權知曉自己的哪些信息參與了健康碼的生成，也可以知道這些信息的內容。如果算法具備可解釋性，個體能夠知道個人信息如何與健康碼內置的邏輯交互。既知輸入，又知算法，個體就能容易地定位錯誤的具體內容。此外，如果個體在利用覆核或類似渠道時能夠把問題表述得更加清楚，行政機關的負擔也會相應下降。算法公平，是另外一項堪稱共識的倫理原則。

「數字鴻溝」的廣泛存在，意味著並不是所有人都有知識、有條件充分利用健康碼。藉助人工驗證等渠道，儘量將鴻溝「填平」，為無法利用健康碼的個體提供等效的驗證方式，是公平的第一項要求。實際上，保障個體合理的、免於算法的決策，也是《統一數據保護條例（GDPR）》等立法進展所體現的趨勢。

公平的第二項要求，是避免基於敏感特徵的歧視。

在健康碼語境下，歧視集中在地域特徵上。這裡要求健康碼系統即時跟進最新的各地風險層級通報，在判斷條件中及時移除疫情風險已然不高的地區。之外，在任何情形下，都不應該在判斷條件中使用性別、種族、國籍等敏感特徵。

這些特徵和感染風險的關聯十分有限，對實際防控未必有太多幫助；反之，一旦此類歧視引起國內或國際範圍的輿論風潮，代價或將十分慘重。

除去第一節已經提到的隱私，和第二節討論的三種價值，算法倫理上還有一些頗為重要的原則。比如歷史悠久的「不作惡」或「向善」，以及歐盟正在大力倡導的「可信賴」，等等。這些原則和之上的內容有許多重疊。

如果健康碼制度充分保障隱私、原理容易解釋、責任易於定位、善待弱勢群體，這一制度也就在很大程度上值得信賴、可為「科技向善」的標杆。

03 第三道坎：「健康主義」下的區別對待

健康碼之所以牽動人心，關鍵還是對現實生活有實實在在的影響。

要不要隔離十四天，涉及到對人身自由的限制；能不能在不同地區間流動，能不能復工復學，在工作場所和學校的活動是否受限，都涉及對個體基本權益的限制。以對健康狀況的評估（這裡是感染風險）為依據，區別對待不同的個體，這類做法有個概括性的名稱：「健康主義（Healthism）」。

當前疫情中的健康主義立場顯然有其合理性。不過，這不能逾越所有的基本權利。承認這兩點後，健康碼中的政策抉擇，就又轉化為包羅眾多因素的平衡問題。由於篇幅所限，短文無法盡數展開。不過，對此類平衡，一般需要注意至少三類要點。

首先，在社會層面，「健康」、「衛生」甚或「潔凈」，常常不是均一的概念。在健康碼這一場景中，定義相對明確：感染特定類型病毒的機率。

然而，隨時間推移，如果社會觀念發生變動，將「感染」與「不潔」、「危險」甚至「敵對」相關聯，甚至因此排斥有關群體，這將會增加健康碼逾越正當尺度的風險。同時，如果這一算法治理模式得到推廣，並得以應用於其它因健康狀況而差別待遇的場景，這些推陳出新的「xx碼」同樣需要越過三道坎，我們並不能默認其正當性。

其次，在考量健康碼的運用是否過度時，角度務求全面。

如果只考慮單一限制，比如說不能復工是基於健康碼的限制，似乎總是合理的。但如果用更完整的視角看待，將個體各方面權益可能因健康碼受到的限制綜合考慮，相關公共利益與人身自由、受教育權、勞動權等眾多因素，可能也會相應改變。這一思路也可以預防健康碼應用的過度泛化。

最後，隨著時勢日日而新、科研時時而前，人類對病魔的了解程度也在不斷深入。

先前施加的一些限制，或許已顯不足：例如，倘若存在新的傳播途徑，可能需要更新相應隔離措施；反之，限制牽涉的範圍，可能因對病毒的深入了解而縮小：例如，對各地區風險評估的顆粒度越精細，限制涉及的地域範圍相應也會更精確。

總之，既然公共利益和基本權益間的最優平衡頻繁變動，在保障安全的前提下相應疊代調適健康碼設計，可謂應時之需。

疫情面前無小事，健康主義領域沒有簡單的問題。在如此情形下決斷，總需要非凡的勇氣、智慧和技藝。除非確實存在抗疫效果上沒有差異、對個體權益限制又顯然更少的方案，對健康碼的採用，通常合理而正當。

當然，這並不意味著要放棄審視和反思，對各種權利的綜合考慮，結合科學進展思考限制更少的方案，都應該始終「在路上」。同時，在脫離緊急狀態以後，這些思路不僅不會過時，還會為防止萬「碼」奔騰的濫用築起堅強的堤防。

04 結語和展望

本文以高度簡化的方式介紹了健康碼的原理，並探討了如何以比較系統的方式反思健康碼的應用。

為了成為「範本」、紓解在法律和輿論層面的擔憂，健康碼需要越過三道坎：

一是已經比較完備的個人信息保護，難點主要在於細部的合規；

二是方興未艾、正形成共識的算法倫理，健康碼可能，也應該合乎這些倫理，實現「科技向善」而可以信賴的願景；

三是從利益平衡角度出發，對「健康主義」的省思，這裡可能蘊涵著實現算法善政的根本性問題。

「三道坎」的思維方式可以推廣到更一般的算法治理場景。無論是持續熱議的徵信算法，還是日益升溫的智能司法，又或者是正在湧現議論的智慧城市，都可以從「三步走」的思路出發，系統地評估、平衡、評判得失。

首先，這些算法需求什麼樣的個人（敏感）信息？其次，這些算法的運作機制，是否切合目前公認的倫理原則？最後，因算法的輸出而在現實中區別對待，是否合理且正當？筆者相信，這是一種相對全面、而又便於應用的思考出發點。