學而思被指「偷數據」訓練AI,牽出大模型「隱秘的角落」

21世紀經濟報道 發佈 2023-06-17T06:37:48.430283+00:00

南方財經全媒體見習記者馬嘉璐 21世紀經濟報導記者尤一煒 廣州報導近日,筆神作文指控昔日合作夥伴學而思「偷數據」訓練自家AI產品,隨後學而思對此公開予以否認。筆神作文稱之為國內「AI大模型數據被盜第一案」。

南方財經全媒體見習記者馬嘉璐 21世紀經濟報導記者尤一煒 廣州報導

近日,筆神作文指控昔日合作夥伴學而思「偷數據」訓練自家AI產品,隨後學而思對此公開予以否認。筆神作文稱之為國內「AI大模型數據被盜第一案」。不過,有律師分析,從現有內容來看,該案應屬於普通的數據侵權糾紛或協議糾紛,目前還不能判斷學而思是否違法。

筆神作文與學而思的糾紛,牽引出大模型的一個「隱秘的角落」:用於訓練AI大模型的數據,來源是否合法合規?事實上,關於大模型數據集的紛爭已在海內外頻頻上演。

監管方面正在注意AI大模型訓練數據集的合法合規。國家網信辦於今年4月公布的《生成式人工智慧服務管理辦法(徵求意見稿)》明確,預訓練、優化訓練數據應保證真實性、準確性、客觀性、多樣性,不含有侵犯智慧財產權的內容,包含個人信息的應符合「告知-同意」等原則。對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣認為,平衡安全和發展成為大模型數據集監管的重要挑戰,數據安全審計制度等可以為此提供借鑑。

或為國內「AI大模型數據被盜第一案」

筆神作文與學而思關於是否「偷數據」在網際網路公開「喊話」,已進行了一個半回合。

筆神作文將之稱為「AI大模型數據被盜第一案」。6月13日下午,筆神作文通過自己的微信公眾號、微博和第三方媒體發布消息,指控其合作夥伴學而思未經授權爬取了筆神作文的數據,用於訓練大模型產品。同日17時,學而思官方公眾號對此事作出回應,表示自己對筆神作文數據的使用屬於雙方合同約定的正常合作範圍,筆神作文「主觀揣測」「與事實嚴重不符」。

14日19時,筆神作文再次通過微信公眾號列舉更多「證據」,力圖證明學而思在4月13日至17日,通過「爬蟲」技術非法訪問、緩存筆神作文App伺服器數據258萬次。

「筆神作文APP」微信公眾號公布的雙方合作API接口「每日數據調用量折線圖」

面對筆神作文的再次「喊話」,學而思是否有新的回應?截至發稿前,學而思與筆神作文方面均未針對此事向南方財經全媒體記者給出相關回應。

在13日的聲明中,學而思透露雙方合作的內容:筆神作文為學而思提供「筆神作文範文素材服務接口」,用於學而思相關服務中,每月保底費用包含的調用次數為百萬次量級。筆神作文則在14日發布的消息中稱,雙方合同明確「甲方(註:三體雲聯公司,為學而思關聯公司)不得在未經乙方(註:一筆兩劃公司,「筆神作文」系該司旗下品牌)允許的情況下用於任何其他用途,包括緩存,存儲,作為語料進行計算,訓練等。」

筆神作文表示,將通過司法程序解決糾紛,要求「學而思」支付1元賠償金,公開道歉,並刪除已爬取的數據。

律師:現有內容難以判斷學而思違法

「『AI大模型數據被盜第一案』有些噱頭的成分。」北京市競天公誠律師事務所合伙人周楊認為,本案爭議的焦點是用於訓練AI大模型的數據,而並非AI大模型的算法,應屬於普通的數據侵權糾紛或協議糾紛。

海問律師事務所合伙人楊建媛分析,該事件可以從智慧財產權保護和反不正當競爭兩個角度來看。從智慧財產權保護角度,如果筆神作文對學而思獲取的內容享有著作權,且學而思的行為不符合著作權法規定的「可以不經著作權人許可」的「例外」情況,則學而思的行為需經過筆神作文的許可。她還強調,如筆神作文所稱為事實,學而思對筆神作文數據的使用可能超出了「合理使用」的範疇。

從反不正當競爭角度,學而思是否存在未經授權爬取筆神作文數據的情況、是否利用所獲數據開發實質性替代筆神作文的產品或服務,是判斷是否構成侵權的關鍵。楊建媛分析,從筆神作文的敘述來看,其可能並未對學而思設置反爬措施,但是在協議中約定了相關禁止行為。單純的違約行為較難直接認定為違反了反不正當競爭法下的商業道德要求。另外,學而思將數據用於大模型訓練,訓練出來的產品與筆神作文的產品是否存在競爭關係,是否會對筆神作文造成不良後果,還存在爭議。

周楊也表示,學而思是否違法,關鍵要看合同中對數據的獲取、處理和使用是如何約定的,以及筆神作文是否對作品、資料庫享有版權。根據現有雙方披露的內容,「還不能判斷」。

數據來源是否合規牽出「隱秘的角落」

筆神作文與學而思的糾紛,牽引出大模型的一個「隱秘的角落」:訓練AI大模型通常需要海量的數據,而這些數據的來源是否合法合規?

事實上,隨著ChatGPT帶動生成式AI的爆火,關於AI大模型訓練數據的紛爭在海內外頻頻上演。

爭議所涉及的數據可以大致分為兩類:一類有著明確的智慧財產權,如原創的圖片、音樂、視頻、文章等;一類由用戶在平台上的零散發言匯集而成,如百科、社區、貼吧等。

今年年初,Stability AI受到美國大型商業圖庫提供商Getty Images以及漫畫家的分別起訴,原因是他們認為Stability AI用於訓練AI圖像生成模型Stable Diffusion的數據「非法複製和處理了受版權保護的圖像」。

此外,推特、「美版貼吧」Reddit也在今年上半年相繼宣布對API接口收費,且價格不菲。此前,這些平台的內容可以被谷歌、OpenAI等公司免費爬取,用作大語言模型的訓練庫。推特CEO馬斯克稱「他們(微軟)非法利用推特的數據來訓練,是時候起訴他們了。」Reddit則在其官網更新條款:「未經Reddit明確同意,您不得將Reddit上的內容用作任何模型訓練的輸入。未經明確批准,禁止將任何使用Reddit數據訓練的模型用於商業用途。」

谷歌C4數據集支撐了多個AI模型的預訓練。今年4月,《華盛頓郵報》與艾倫人工智慧研究院合作調查發現,該數據集中存在只接受付費訂閱的網站,以及近30個被美國政府認定為盜版和假冒產品市場的網站。

平衡安全與發展成監管挑戰

監管方面正在注意AI大模型訓練數據集的情況。

當地時間2023年6月14日,歐洲議會投票通過關於《人工智慧法案》的談判授權草案,意味著該法案將進入歐盟啟動監管前的最後階段。該法案要求OpenAI、谷歌和微軟等基礎模型的供應商需要公開,他們在訓練模型過程中,是否使用了受版權保護的數據。

此前,國家網信辦於今年4月公布的《生成式人工智慧服務管理辦法(徵求意見稿)》也明確,用於生成式人工智慧產品的預訓練、優化訓練數據,應符合網安法等法律法規的要求,不含有侵犯智慧財產權的內容,包含個人信息的應符合「告知-同意」原則等要求,還應保證數據的真實性、準確性、客觀性、多樣性。

「對大模型數據集的監管,如何能做到安全和發展的平衡,是一個重要挑戰。」對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣表示,《生成式人工智慧服務管理辦法(徵求意見稿)》已對AI訓練數據集的合規要求搭建了清晰的框架,在運用著作權和智慧財產權方式之外,還可以探索使用多種法律手段去實現。

張欣分析,監管的落地,還存在事後難追溯等問題,尤其在算法複雜度日益攀升、出現「算法黑箱」等情況下,如果從事後去還原和追溯數據集是否合規,十分依賴大模型開發商提供數據處理記錄和日誌,很難從外部進行確認。此外,從技術上來說大模型很難精確刪除某個用戶的個人信息,這就限制了個人信息保護中「刪除權」的行使。

歐盟《人工智慧法案》草案設置了吹哨人制度,鼓勵專業人士從內部進行監督,為監管提供了一種創新思路。張欣認為,大模型開發者應做好信息記錄和披露的工作,提高數據集的透明度,在算法解釋性遇到困難的時候,至少可以通過數據的透明和可解釋來尋找答案。數據安全審計制度在國際上也有較為通行的經驗,大模型數據監管也可以探索使用審計的方式,找到透明度與保護商業秘密之間的平衡。

更多內容請下載21財經APP

關鍵字: