公眾號可被搜尋引擎抓取,微信要更「互聯互通」

三易生活 發佈 2021-10-22T14:11:26+00:00

但騰訊方面很快就給出了回應,並表示是因為近期平台技術升級,公眾號的robots協議出現了漏洞,致使外部爬蟲技術可抓取部分公眾號內容,但目前漏洞已修復。

微信公眾號的內容只能在微信中看,這可以說早在多年前就已經成為用戶的共識。不過最近有消息顯示,微信公眾號的內容可以被谷歌和必應等搜尋引擎搜索到,難道這意味著微信公眾號要衝出國門,走向世界?

但騰訊方面很快就給出了回應,並表示是因為近期平台技術升級,公眾號的robots協議出現了漏洞,致使外部爬蟲技術可抓取部分公眾號內容,但目前漏洞已修復。按照這一說法,這一次的情況只是技術操作失誤。


那麼,導致公眾號內容出現在海外搜尋引擎山上的「元兇」robots協議是什麼呢?事實上,robots協議也叫robots.txt,是一種存放於網站根目錄下的ASCII編碼文本文件,它的唯一作用就是告訴搜尋引擎的User-agent(網絡蜘蛛),網站中的哪些內容是不對搜尋引擎蜘蛛開放,哪些內容又可以被抓取的。

作為控制網站被搜尋引擎抓取內容的一種策略,該文件一般會放在網站的根目錄里,也就是/robots.txt。因此可以直接在網站域名後加上/robots.txt,就能訪問到該網站的robots協議頁面。


我們以淘寶的「https://www.taobao.com/robots.txt」為例可以看到,這家電商網站採用的robots協議其實非常簡單,「User-agent」主要作用是告訴網站伺服器,訪問者是通過什麼工具來請求的,而後面的「Baiduspider」就是大名鼎鼎的百度搜尋引擎蜘蛛,而最後的「Disallow: /」,按照robots協議的規則,是禁止被描述的搜尋引擎蜘蛛(百度)訪問網站的任何部分。

其實早在2008年9月百度搜尋引擎就已經被淘寶屏蔽,而這幾行簡簡單單的代碼,也讓淘寶在戰略層面掌握了競爭的主動權,避免了流量被百度搜尋引擎拿走,同時也避免了平台內的商家要給百度競價排名付費的可能,更是間接催生了淘寶的競價排名體系。


而對於微信來說同樣也是如此,此前微信公眾號的內容只支持在該應用的搜一搜功能,或是騰訊旗下的搜狗搜尋引擎中搜索到。這主要要因為用戶上網衝浪的最終目地往往是消費內容,而內容、特別是高質量的原創內容更是天然的流量來源,這些內容可以幫助微信形成封閉的商業生態。所以讓用戶只能在體系內訪問微信公眾號的內容,也就成為了微信保護私域流量的關鍵。


那麼問題就來了,robots協議會出現漏洞嗎?答案是肯定的。robots協議從本質上來說就是網站運營方提供的規則,然而是規則就免不了出現漏洞。不過robots協議也很難出現問題,因為它的書寫非常簡單、邏輯也很直白,允許什麼搜尋引擎爬蟲訪問什麼內容都可以清晰地表述出來。特別是微信這種協議非常簡單的規則,僅面向自己的應用內搜索和搜狗搜索開放的robots協議,基本也不會有什麼多餘的內容。

更為重要的一點是,robots協議本身其實是一個「君子協議」,是一個搜尋引擎與網站之間的共識,並沒有任何法律效力,也沒有任何技術約束。所以換句話來說,這也意味著robots協議從技術層面是無法與搜尋引擎爬蟲對抗的。

例如,一些網站如果不想讓爬蟲占據自家寶貴的伺服器資源,往往就會直接在robots.txt文件中寫上這樣的規則,「User-agent: Googlebot,Allow: / User-agent: *,Disallow: /」,意思是本網站僅允許谷歌爬蟲抓取,拒絕其他任何搜尋引擎。


然而有意思的事情來了,蘋果方面在官網的「Applebot」頁面聲明中寫道,「如果robots.txt中沒有提到Applebot,而是提到了Googlebot,那麼Applebot將遵循Googlebot的指令「,言下之意就是Applebot也是Googlebot。

事實上,robots協議並不會經常修改,畢竟它的內容是與內容運營策略息息相關的。而微信的robots協議在平穩運行了多年後,卻在此前監管部門要求網際網路廠商互聯互通的時候出現「漏洞」,這個件事就可以說或非常「巧」了。


9月17日在監管機構的要求之下,在過去數年間各大網際網路廠商建立的以鄰為壑的「高牆」已經開始逐步坍塌。儘管在要求「互聯互通」一個月後,各大網際網路廠商之間的藩籬雖然還沒有一夜之間倒塌,但也逐漸有了消融的跡象。


對於微信來說,公眾號內容開放給外界,或許是騰訊分階段分步驟實施互聯互通中的一個環節。而如今微信公眾號的內容出現在谷歌和必應上,也更像是微信在測試新的robots協議。畢竟,此前他們的robots協議協議可以說是非常簡單,只需要允許搜狗搜索一家即可,但現在卻需要對外界開放。

要知道,國內的搜尋引擎蜘蛛可不僅僅是百度、搜狗、360這些大家比較熟悉的,還有包括網易有道的YoudaoBot、宜搜的EasouSpider、一搜的YisouSpider、微軟的Bingbot和Msnbot,以及其他大大小小不知名的爬蟲。所以有觀點認為,這也就得微信robots協議的編寫難度將會陡然上升,而忙中出錯忘記屏蔽了谷歌可能會是大概率事件。

關鍵字: