抓取社交平台數據時,攻防雙方對「前後端數據」的理解鴻溝

fans news 發佈 2022-01-30T11:36:53+00:00

背景Y公司經營Y軟體網、網頁版YJ系統、安卓手機端YJ應用,通過大數據挖掘與分析為用戶提供輿情監測服務,數據來源主要是微博等社交平台。2011年,YJ系統開始技術測試。在國新辦協調下,Y公司公司獲取W公司提供的五個開放平台帳戶用於獲取Y公司經營的社交平台數據即微博數據。

背景

Y公司經營Y軟體網、網頁版YJ系統、安卓手機端YJ應用,通過大數據挖掘與分析為用戶提供輿情監測服務,數據來源主要是微博等社交平台。

2011年,YJ系統開始技術測試。在國新辦協調下,Y公司公司獲取W公司提供的五個開放平台帳戶用於獲取Y公司經營的社交平台數據即微博數據。

2016年11月,券商推薦報告介紹Y公司是一家大數據公司,圍繞網際網路數據採集、實時處理、實時索引、存儲、挖掘分析和訪問服務做大數據技術研發和產品化。

訴訟爆發前的2017年10月,雙方就「微博-Y公司數據業務合作問題」進行談判。W公司提出,Y公司利用微博數據為網信提供的輿情監測服務可以照常使用數據,但是其他應用場景需要取得W公司授權

2017年11月,W公司表示在Y公司解決未經授權商用其數據的問題前,雙方無法簽署任何類型的數據合作協議,並指出自己因Y公司將微博數據商業化、提供給政務領域的客戶,遭受了一定的商業損失。

協商無果後,W公司以不正當競爭糾紛案由將Y公司訴至法院。

W公司認為Y公司公司未經(微博及相關用戶)許可(擅自)抓取微博內容和數據並進行加工、包裝,在Y軟體網和YJ系統網展示微博內容和數據,通過Y軟體網和YJ系統網售賣給網絡用戶的行為,攫取微博用戶流量和交易機會,由此獲得大量商業利益,構成不正當競爭。

2018年5月28日法院立案受理,並在2019年9月20日作出一審判決,判定Y公司構成不正當競爭,需賠償W公司經濟損失500萬及合理開支28萬。

Y公司不服並提起上訴,北京智慧財產權法院在2021年3月作出二審判決,維持原判。

2021年7月,Y公司以W公司拒絕數據許可涉嫌壟斷為由,提起反壟斷訴訟,並於11月獲長沙中院受理。有媒體報導稱之為「國內首例因網際網路平台拒絕數據許可而引發的反壟斷民事訴訟」。

目標數據的分類差異

一審期間,Y公司答辯稱自己利用網絡爬蟲技術抓取微博前端數據,行為正當合法。W公司提出,Y公司抓取的是後端數據,而且不是用網絡爬蟲方式,是用直接攻擊微博平台伺服器的方式抓取數據。

W公司、Y公司,都把平台數據分為前端數據和後端數據,但含義不同。

法院未採納雙方的數據分類方式,而是提出以「公開數據」、「非公開數據」進行劃分。

W公司的分類與定義

W公司理解的「前端數據」,是指用戶在使用產品(微博)時能夠可視化地看到或直接識別出的內容這些內容是對後端數據進行處理後、呈現在用戶面前,用戶可以直接瀏覽的數據。

「後端數據」,是指用戶無法獲取、識別和理解的數據,是指伺服器存儲和發出的數據。

Y公司的分類與定義

Y公司不同意這種觀點,提出用戶未登陸狀態下顯示在網頁http代碼中的數據都是前端數據,包括可以通過網絡爬蟲技術獲取的數據,以及用戶可以公開瀏覽的信息。

「後端數據」則是指無論用戶是否登陸,都無法查看的信息。

一審法院的分類與定義

一審法院認為雙方對平台數據類型的分類、定義存在較大差異,從技術角度看也存在範圍重疊、不夠嚴謹;從規範層面看,劃分為「公開數據」和「非公開數據」更能體現法律意義。

「公開數據」,是指W公司未設定訪問權限的數據,即已經在微博平台中向公眾公開的數據。

例如,用戶未登陸時就可以查看的微博,是博主本身沒有限制他人瀏覽,而且W公司沒有通過登陸規則等措施、限制非登陸用戶瀏覽的數據。

「非公開數據」,是指W公司通過登錄規則或其他措施設置了訪問權限的數據。

例如,用戶登錄後才能查看的內容,或者「在微博產品任何前端均不再展示故用戶登錄後亦不可查看的新浪微博」。

法院分類的關鍵詞是「訪問權限」。

被抓數據的性質

W公司主張Y公司抓取了以下三類平台數據:

  • 用戶在未登錄狀態即可查看的內容;
  • 用戶在登錄狀態下才可查看的前端內容對應的後端數據;
  • 用戶在登錄狀態下也不可能查看的後端數據。

W公司做這種判斷的理由是:

第一,Y公司自稱YJ系統每天可以採集數億條境內外微博,而且數據更新頻率為秒級,這種情況只可能是通過技術手段獲取平台後端數據才能實現這麼大量的數據處理。

第二,用戶首次輸入關鍵詞或博主名稱前,YJ系統已顯示「事件推薦」或「博主推薦」。這種情況只可能是Y公司公司先抓取後端數據並存儲在其伺服器中才可能實現

第三,微博平台網頁和客戶端展示的發布時間都不會精確到秒,YJ系統卻可以。這種情況只能通過用戶操作行為,或者微博客戶端觸發對微博平台伺服器的請求,調用伺服器接口,伺服器才會識別和判斷後返回精確的時間戳字符。

第四,用戶未登陸時,只能查看數量有限的微博且功能也有限制,比如要查看微博的全部評論需要有用戶行為觸發,網絡爬蟲如果只抓取前端數據,不可能查看到需要用戶行為觸發才能查看的評論內容。

第五,被刪除的微博在平台任何前端產品都無法展示,這部分數據存儲在平台伺服器中,YJ系統可以展示這部分內容,說明它們抓取了後端數據

第六,在特定博主的微博中無法顯示其評論了他人的微博和評論內容,但YJ系統卻可以顯示相應內容。

總結一句話就是,W公司認為Y公司展示的微博平台數據超出了正常訪問權限內可以獲取的數據,顯然只能是利用手段破壞或者繞開W公司所設定的訪問權限。

Y公司的答辯意見

Y公司進行反駁,提出自己抓取的是在用戶未登錄狀態下即可訪問的微博平台前端數據,這部分數據包括網頁原始碼,此外:

第一,YJ系統「實時」處理微博數據,是指用戶發起請求後、系統立即去採集數據,而不是實時抓取微博平台數據;目標平台也不是只有新浪微博,還有騰訊微博等平台,所以「數億」這個處理數量不是僅指微博平台;此外,YJ系統統計的與某一關鍵詞相關的新浪微博數量包含轉發數,所以數量較大。

第二,用戶首次輸入關鍵詞或博主名稱前,YJ系統已顯示「事件推薦」或「博主推薦」。這種情況只可能是Y公司公司先抓取後端數據並存儲在其伺服器中才可能實現。

第三,YJ系統可以顯示博主對他人微博的評論及評論內容,系因其在對微博平台數據採集後進行了合併和緩存處理。

第四,精確到秒,系因網絡爬蟲抓取的網頁原始碼是精確到秒。

第五,微博被刪除前也屬於前端數據,YJ系統通過網絡爬蟲抓取這部分數據後會進行緩存,所以即使微博平台前端已經無法顯示這些內容,YJ系統仍然可以顯示,會添加「刪」標籤。

一審法院的評議

一審法院認為判斷Y公司行為正當性的關鍵,是判斷它抓取的數據是微博平台的「公開數據」還是「非公開數據」,即是否抓取了W公司設置了訪問權限的非公開數據。

關於W公司設置的平台「公開數據」的展示規則

本案在案證據及法庭勘驗顯示,微博用戶在未登陸狀態下僅能查看有限的微博和使用有限的平台功能,登錄後才能訪問更多數據、使用更多功能。微博平台「對公開數據」的展示設有特定規則,例如,需要用戶行為觸發才能查看更多的已經公開的微博評論。

專家輔助人也從技術層面對「網絡爬蟲技術無法實現用戶行為觸發後才能展示的結果」進行了合理解釋。

但Y公司未就此做進一步回應或提交相反證據,證明它可以通過合法途徑抓取此類數據。

關於YJ系統存在展示「非公開數據」的問題

法院指出,在案證據顯示:

  • YJ系統的用戶輸入關鍵詞時,無論是不是微博用戶登錄後才能訪問的數據,都可以被實時採集和展示;YJ系統的數據分析報告顯示它監測到的、與一個關鍵詞相關的微博數量和內容,都遠超用戶在未登陸時可以正常訪問到的內容。
  • Y公司關於「轉發數」和「實時採集僅指實時響應用戶需求」的說法,和它的產品邏輯以及公開宣傳的產品特點矛盾,不予採信。
  • 至於已刪除微博的展示問題,法院指出Y公司公司「數據是在被刪除前採集」的說法,和其「YJ系統只有在用戶輸入關鍵詞後才開始採集」的說法自相矛盾,不予採信。

法院認為Y公司公司不能合理解釋並提交證據,說明YJ系統為什麼可以展示W公司已經設置訪問限制的非公開數據,即不能舉證其抓取非公開數據行為的正當性。

也就是說,在W公司和Y公司不存在合作關係的情況下,即使Y公司公司關於使用網絡爬蟲抓取微博平台數據的說法屬實,也只是獲取公開數據部分的行為正當。

結合本案證據、法庭勘驗、專家輔助人意見,法院認為Y公司如果想獲取微博已經設置了訪問權限的非公開數據,只能利用技術手段破壞或者繞開W公司設置的訪問權限,此時行為性質就會發生變化。

這就引出下一個問題,Y公司公司到底是用什麼手段抓取數據。下篇寫。

關鍵字: