不再向大模型免費開放數據!Reddit要求科技巨頭付費使用API接口

澎湃新聞 發佈 2024-01-07T16:20:31.150278+00:00

社交平台Reddit不想再讓科技巨頭們免費使用海量數據了。當地時間4月18日,據《紐約時報》,Reddit近日表示,計劃開始向訪問其應用程式編程接口(API) 的公司收費,外部企業可以通過付費下載和處理社交網絡中的海量對話。

社交平台Reddit不想再讓科技巨頭們免費使用海量數據了。

當地時間4月18日,據《紐約時報》,Reddit近日表示,計劃開始向訪問其應用程式編程接口(API) 的公司收費,外部企業可以通過付費下載和處理社交網絡中的海量對話。

公開資料顯示,Reddit被稱為「美國版百度貼吧」,是一家擁有18年歷史的社交媒體平台,用戶可以在上面發帖、評論、交流各種話題。

近年來,Reddit上發布的聊天內容已成為谷歌、OpenAI和微軟等公司的訓練素材,這些公司正在搜集和使用Reddit平台上的對話來開發ChatGPT等生成式人工智慧產品。

「Reddit的數據語料庫非常有價值,」Reddit創始人兼CEO史蒂夫·霍夫曼在接受《紐約時報》採訪時表示,「但我們不想把這些內容免費提供給一些巨頭公司。」

Reddit也成為首批公開表態要求科技巨頭付費使用數據的企業。

「這些人工智慧公司使用Reddit數據創造價值,卻不將任何價值返回給Reddit用戶,這是不合理的。」霍夫曼認為,在他看來,為此向這些科技巨頭收費是一個公平的舉措。

據《紐約時報》,谷歌、Open AI和微軟尚未回應此事。谷歌開發的聊天機器人Bard的底層算法部分是在Reddit數據上訓練的,OpenAI的ChatGPT也引用Reddit數據作為接受培訓的信息來源之一。

Reddit尚未公開具體的收費規則和種類,外界預期將根據數據大小實行分類價格。

霍夫曼表示,Reddit的API將繼續免費提供給希望構建應用程式,幫助人們使用Reddit的開發人員,出於非商業目的研究Reddit數據的研究人員也可以繼續免費訪問。

未來,Reddit希望將更多機器學習納入網站應用中,例如用來識別Reddit上人工智慧生成文本的使用,並添加標籤來通知用戶該評論來自機器人。同時,還將支持論壇管理員使用幫助監控用戶發帖內容的第三方機器人,方便管理。

Reddit此舉或許與其今年計劃IPO(首次公開募股)有關。

Reddit成立於2005年,主要收入來源於平台上的廣告和電子商務交易。Reddit表示,它仍在敲定API訪問收費的細節,並將在未來幾周內公布價格。

值得注意的是,除了Reddit之外,其他公司也逐漸不再願意免費提供平台數據。當地時間4月19日,美國消費者新聞與商業頻道(CNBC)報導,社交媒體推特CEO埃隆•馬斯克威脅要起訴微軟。馬斯克指責微軟非法使用其社交媒體推特上的數據,以訓練其人工智慧模型。

此前有媒體報導,微軟的廣告平台將停止支持推特,因為推特更改了其API的定價。馬斯克在這條推文下留言,「他們非法使用推特數據進行訓練。訴訟時間到了。」根據推特的新定價,API用戶(包括企業和研究機構)每月至少需要支付高達4.2萬美元才可使用。

據CNBC報導,類似於GPT的大型語言模型需要TB級資料庫(存儲數據量為1TB以上)進行訓練,其中大部分數據從社交網站Reddit、程式設計師問答社區StackOverflow和推特等網站中抓取——來自社交網絡的培訓數據非常有價值,因為其具有非正式場合的交互對話。

關鍵字: