索賠 649 億!GitHub被指控侵犯代碼版權,是開源社區「寄生蟲」

infoq 發佈 2022-11-09T00:20:57.016825+00:00

作者 | 劉燕一位 20 年老開源程式設計師:GitHub Copilot 就是開源社區的「寄生蟲」。GitHub 面臨集體起訴,索賠 647 億GitHub 和它的母公司微軟,以及 OpenAI,正在面臨一項集體訴訟。訴訟案中,廣大程式設計師們指控 OpenAI 涉嫌違反開源許可。

作者 | 劉燕

一位 20 年老開源程式設計師:GitHub Copilot 就是開源社區的「寄生蟲」。


GitHub 面臨集體起訴,索賠 647 億


GitHub 和它的母公司微軟,以及 OpenAI,正在面臨一項集體訴訟。訴訟案中,廣大程式設計師們指控 OpenAI 涉嫌違反開源許可。程式設計師們認為,OpenAI 和微軟使用他們貢獻的代碼訓練專有 AI 工具 GitHub Copilot。


據悉,該訴訟已提交到美國加州北區地方法院,要求法院批准 90 億美元(約 649 億人民幣)的法定損害賠償金。


根據集體訴訟文件:「每當 Copilot 提供非法輸出,它就違反第 1202 條三次,即分發沒有(1)註明出處,(2)版權通知,(3)許可條款的許可材料。」


「因此,如果每個用戶在使用 Copilot 的整個過程中(早期用戶使用 Copilot 最多長達 15 個月之久)只收到一個違反第 1202 條的輸出,那麼 GitHub 和 OpenAI 就違反了 DMCA 360 萬次。每次違反的最低法定賠償金為 2500 美元,換算後相當於 90 億美元。」


集體訴訟文件:


https://www.prnewswire.com/news-releases/joseph-saveri-law-firm-and-matthew-butterick-file-class-action-lawsuit-against-github-microsoft-and-openai-over-violations-of-open-source-licenses-arising-from-github-copilot-an-ai-based-product-301668255.html


GitHub Copilot 項目啟動於今年 6 月,其功能是向 GitHub 用戶提供代碼建議和輔助功能。Codex 是由 OpenAI 開發、並獲得微軟許可的 AI 系統,Copilot 的各項功能正是基於 Codex AI。


OpenAI 聲稱,Codex 訓練自數百萬個公共代碼倉庫,堪稱「代碼公平應用的變革性案例」。但 GitHub 程式設計師們卻對此嗤之以鼻,認為 Codex 違反了他們的開源許可條款。這些許可證雖然允許各方對代碼進行非商業性分發,但卻不得修改,而且還有保留原作者姓名在內的其他一些要求。


律師兼程式設計師Matthew Butterick領導了這場集體訴訟行動。


Matthew Butterick是一位從業 20 多年的老程式設計師。他的自我介紹顯示,Matthew Butterick 從 1998 年起就參與開源軟體貢獻了,他曾在 Red Hat 工作過兩年,發布過不少開源軟體,最近,他又成了 Racket 的貢獻者。


今年 6 月,Matthew Butterick 寫了一篇關於 GitHub Copilot 法律問題的文章,該文直指 GitHub Copilot 對開源許可證處理不當的問題。


近期,他決定再推進下一步行動——他重新激活了自己的加州律師資格證書,並力邀約 Joseph Saveri 律師事務所與他一道組織這次集體訴訟。


Butterick 在一份新聞稿中指出,Copilot 從一開始就明顯存在法律問題。「作為擁有多年經驗的開源程式設計師,我在第一次試用時就感受到了其中的問題。而且相信其他很多開發者也跟我一樣,發現 Copilot 不對勁。結合自身法律背景,我覺得有必要拿起法律武器支持開源社區。」


其他 Copilot 用戶也在自己的社交平台中吐槽,Copilot 在所生成的代碼中使用了錯誤的許可證,而且在未進行來源歸因的前提下盲目向用戶提供版權代碼。




面對關於此次訴訟的置評請求,GitHub 方面一位發言人表示,他們致力於通過 Copilot 開展負責任的創新。


早在 2018 年微軟收購 GitHub 時,很多用戶就對這個全球規模最大的開源社區將走向何方展開過討論。微軟曾在 2000 年代和 1990 年代向開源作業系統 Linux 發起過一系列攻擊,宣稱這款系統侵犯了 235 項微軟專利。


原告方律師 Joseph Saveri 表示,他感謝程式設計師和用戶們為這起訴訟做出的努力。他還提到,OpenAI、微軟和 GitHub 絕不可以用這種毫無公平性可言的方式,從開源貢獻者的成果中獲利。


「此案是針對 AI 系統在科技行業內引發知識侵權爭議的第一步。在本案中,AI 系統利用了程式設計師們做出的開源編程貢獻,並將影響到眾多創作者。我們就是要代表這些創作者們的利益,確保 AI 開發企業必須遵照法律要求行事。」


此次訴訟表明,程式設計師、藝術家等群體越來越關注 AI 系統在未經許可之下使用他們的代碼、作品或其他數據的問題。圖形生成類 AI 工具(包括 DALL-E 和 Stable Diffusion 等)就在使用算法從網際網路上抓取數十億條數據,且完全沒有考慮過任何許可或所有權限制。正是由於這種版權歸屬爭議的存在,Shutterstock 和 Getty Images 等公司才禁止在其平台上使用 AI 生成圖像。


Butterick 聲稱,微軟將開原始碼訓練而成的 Copilot 作為商業產品提供給程式設計師的行為,不僅侵犯了開原始碼版權,也打擊了人們參與開源社區的熱情。Butterick 因此認為,微軟這種將開原始碼與開源社區強行割裂的行為,有違開源編程精神。

Copilot 的問題在哪?

此前,Matthew Butterick 還開設了一個專門針對 GitHub Copilot 的調查網站,調查收集 GitHub Copilot 違反其對開源作者和最終用戶的法律義務的線索。


Matthew Butterick 認為,總結而言,Copilot 在系統訓練與系統使用方面都存在法律問題。


(備註:以下論斷僅代表 Matthew Butterick 個人觀點)

系統訓練

絕大多數開源軟體包是在授權許可之下發布的,在授予用戶一定權利的同時也要求其承擔一定義務(例如保留原始碼的精確屬性)。而這種授權的合法實現方式,就是由軟體作者在代碼中聲明版權。


因此,要想使用開源軟體,大家就必須做出選擇:


要麼遵守許可證所規定的義務;要麼使用那些屬於許可證例外的代碼(即版權法所規定的「合理使用」情形)。微軟和 OpenAI 已經承認,Copilot 和 Codex 就是由 GitHub 上開源軟體的公共 repo 訓練而成。所以在這兩條路里,他們到底要走哪條?


如果微軟和 OpenAI 決定基於各 repo 的開源許可來使用這些訓練素材,那就得發布大量屬性(attribution),這已經算是各類開源許可的底限要求了。但截至目前,我們還沒有看到任何屬性聲明。


這樣一來答案就明確了,微軟和 OpenAI 必須找到「合理使用」的理由。GitHub 前 CEO Nat Firedman 就曾在 Copilot 的技術預覽會上提到,「在公開數據上訓練(機器學習)系統屬於合理使用的範疇。」


但真這麼簡單嗎?對於這種法律問題,可不是說屬於就屬於的。當然,微軟、OpenAI 和其他多家研究機構一直在強調這種「合理使用」的論點。Nat Firedman 還曾放話說,作為「機器學習社區所廣泛依賴的」依據,這種「合理使用」辦公室有其「法理基礎」。然而,軟體自由保護組織(SFC)明顯不同意他的觀點,並要求微軟方面提供能支持其立場的證據。


保護組織負責人 Bradley Kuhn 指出:我們曾在 2021 年 6 月私下詢問過 Firedman 和其他幾位微軟/GitHub 代表,要求他們為 GitHub 的公開法律立場提供可靠的參考依據……但他們什麼都拿不出來。


為什麼微軟拿不出支持立場的法律依據?因為保護組織說得沒錯:他們根本找不出依據來。儘管一些法院已經考量過相關問題,但目前全美還沒有哪個判例能夠直接解決 AI 訓練中的「合理使用」問題。


另外,所有涉及「合理使用」的案例均權衡了大量相關因素。即使法院最終判定某些類型的 AI 訓練屬於「合理使用」,也不代表其他類型的訓練就能無腦照辦、高枕無憂。就目前來看,我們還不知道 Copilot 和 Codex 到底合不合法,微軟和 OpenAI 其實也說不準。

系統使用

雖然沒法確定「合理使用」最終要怎麼在 AI 訓練中落地,但可以想見,其結果並不會影響到 Copilot 用戶。為什麼呢?因為用戶只是在使用 Copilot 提供的代碼,而這部分代碼的版權和許可狀態同樣模糊不清。


微軟倒是有自己的說法。2021 年,Nat Friedman 曾聲稱 Copilot 的輸出結果歸屬於操作者,其性質與使用編譯器一樣。但 Copilot 已經暗暗給用戶挖好了坑。


微軟將 Copilot 輸出描述為一系列代碼「建議」,並強調不會對這些建議「主張任何權利」。但與此同時,微軟也不會對由此生成的代碼的正確性、安全性或延伸出的智慧財產權問題做任何保證。所以只要接納了 Copilot 的建議,那這些問題就都要由用戶自己承擔。


「您需要對自己代碼的安全性和質量負責。我們建議您在使用由 GitHub Copilot 生成的代碼時,採取與使用其他一切非本人所編寫代碼相同的防範措施,包括嚴格測試、IP(智慧財產權)掃描和安全漏洞跟蹤。」 ....


有觀點認為,Copilot 將版權遵循義務留給了用戶。隨著 Copilot 的不斷改進,用戶需要承擔的責任也將越來越大。


那這些建議真會惹出麻煩來嗎?已經有 Copilot 用戶控訴,Copilot 可能存在一種設計傾向,會從可識別的 repo 處一字不差地照搬代碼。前段時間,德克薩斯農工大學教授 Tim Davis 也列舉了不少證據,表明 Copilot 確實原樣照抄了他的大段代碼,特別是極具個人風格的/Tim Davis 稀疏矩陣轉置/。


使用這樣的代碼,當然會產生相應的許可遵守義務。但從 Copilot 的設計來看,用戶完全接觸不到代碼的來源、作者和許可證。根本無一物,拿什麼去遵守?


從這個角度看,Copilot 的代碼檢索方法就像一顆煙霧彈,下面掩蓋的是骯髒的真相:


Copilot 本身,只是連通海量開原始碼的一套替代接口。只要用上它,用戶可能就需要承擔起代碼原作者提出的許可義務。意識到這一點,Nat Firedman 所謂 Copilot「不像是編譯器」的說法根本不靠譜。畢竟編譯器只會改變代碼形式,但絕不會注入新的智慧財產權屬性。微軟當然也清楚這一點,所以他們並沒有嘴硬到底,只是把這些細節用小字「略微」說明了一下。

Copilot 的本質:一隻「寄生蟲」?

通過將 Copilot 當作海量開原始碼的替代接口,微軟不僅藉此切斷了開源作者與用戶之間的法律關係,甚至建立起新的「圍牆花園」——阻止程式設計師接觸傳統開源社區,從而消除了他們為之貢獻的可能性。隨著時間推移,這勢必會讓開源社區變得愈發貧乏。用戶的注意力和參與方向將逐漸朝著 Copilot 轉移,最終徹底告別開源項目本身——告別原始碼 repo、告別問題跟蹤器、告別郵件列表、告別討論板。這樣的變化必將給開源帶來痛苦、甚至永遠無法挽回的損失。


就連微軟雲計算負責人 Scott Guthrie 最近也承認,雖然微軟 CEO 納德拉當初收購 GitHub 時曾承諾「讓 GitHub 繼續保持開放平台的地位」,但微軟一刻也沒有放慢過把 GitHub 服務(包括 Copilot)納入自家 Azure 雲平台的腳步。


Matthew Butterick 表示,包括他自己在內的開源開發者之所以提出抗議,所圖的絕不是錢,只是不想讓自己的努力貢獻被白白浪費掉。開源軟體的核心在於人,在於由人組成的用戶、測試者和貢獻者社區。正是因為有了這樣的社區,我們才能以超越自身的方式改進軟體,讓工作充滿樂趣。


Copilot 則向開源軟體注入了自私的基因:我想要什麼,你就得給我什麼!Copilot 的建議將開源用戶與軟體開發者徹底割裂開來,導致他們永遠不必與社區互動、更遑論為更多項目做出貢獻。


與此同時,開源軟體作者也需要注意到,我們的工作成果被掩蓋在了 Copilot 這塊大布之下。我們成了牧場裡的奶牛、成了《黑客帝國》中為母體供電的電池,我們成了不斷為 Copilot 注入資源的「人肉礦脈」。


但就連奶牛也能靠勞動換取牧草和牛棚,而 Copilot 不會對我們的個人項目乃至整個開源社區做出絲毫反哺。


Copilot 建立的圍牆花園與開源明確對立,而且危害極大。這也是對微軟當初收購 GitHub 時所做承諾的赤裸背叛。早期接觸過 GitHub 的朋友應該還記得,GitHub 之所以能在受眾當中建立起良好的聲譽,靠的就是真正服務於開源開發者、培育開源社區的赤子之心。而 Copilot 的出現顯然背離了這一路線,也是對 GitHub 立身之本的無情踐踏。


也許有人會說,那咱們就聽保護組織的建議,把代碼搬出 GitHub 吧。但這真的沒什麼作用。只要微軟能把 AI 訓練成功規定成「合理使用」,那麼不只是 GitHub,網際網路上的一切公共代碼 repo 都逃不出他們的手掌心。如果坐視一切發展下去,那麼 Copilot 不僅會吞噬 GitHub 上的開原始碼,更會淹沒世界上的每一行開源成果。


另一方面,有些朋友可能對 Copilot 評價不錯,覺得 AI 代表著未來方向。拜託,我們這裡反對的絕不是 AI 輔助編程工具,而是微軟在 Copilot 當中的種種具體行徑。其實微軟完全可以把 Copilot 做得更開發者友好一些——比如邀請大家自願參加,或者由編程人員有償對訓練語料庫做出貢獻。但截至目前,口口聲聲自稱熱愛開源的微軟根本沒做過這方面的嘗試。另外,如果大家覺得 Copilot 效果挺好,那主要也是因為底層開源訓練數據的質量過硬。Copilot 其實是在從開源項目那邊搞生命虹吸,而一旦開源活力枯竭,Copilot 也將失去發展的依憑。


在之前討論 Copilot 的時候,我曾說「我並不擔心它對開源的影響。」現在也是,如果從短期來看,Copilot 還不足以威脅整個開源生態。但回顧自己近 25 年來的開源之旅,我發現這東西的存在本身就是最大的問題。畢竟開源靠的不是一支固定的隊伍,而是一種不斷成長、不斷變化的集體智慧,它需要持續吸引新鮮頭腦來完成自我更新。開源參與者們彼此設定新的標準與挑戰,也共同拉高了開源成就的期望標杆。


在這場奇妙而盛大的化學反應中,Copilot 橫空殺出,想要把整個開源宇宙據為己有。哪怕拋開微軟那劣跡斑斑的開源記錄,我們也能一眼看出 Copilot 的本質——一隻寄生蟲。因此在對開源世界造成無法彌補的傷害之前,我們必須質疑 Copilot 的合法性。


參考連結:


https://www.theinsaneapp.com/2022/11/programmers-filed-lawsuit-against-openai-microsoft-and-github.html


https://githubcopilotinvestigation.com/

關鍵字: