微信突然出BUG!那種資源全被看光,目前無解

雷科技 發佈 2021-10-22T14:12:51+00:00

微信最近動作頻頻,除了日常的更新功能上新,小雷還發現了一個「漏洞」。事情是這樣的,小雷因為工作需要,經常要在各大搜尋引擎輾轉,以求搜到自己想要的資料。

微信最近動作頻頻,除了日常的更新功能上新,小雷還發現了一個「漏洞」。


微信居然放開限制,把自己的robots.txt文件給移除了...


事情是這樣的,小雷因為工作(摸魚)需要,經常要在各大搜尋引擎輾轉,以求搜到自己想要的資料。


如果是英文資源還好說,海外的網頁適用性依然很強,用谷歌和bing等搜尋引擎,一般都能搜到結果。



但如果要搜的是中文資源,不好意思,搜索突然就不好用了。


即使是像百度、谷歌和bing這種頂級搜尋引擎,也難以施展拳腳。


想要搜到自己需要的東西,估計是越來越難嘍。



不過奇怪的是,而搜尋引擎本身並無大改,抓取規則和原理都沿襲多年,期間也就小修小補。


為啥現在就不好使了呢?


小雷想說,這確實不是搜尋引擎的鍋,都怪軟體廠商們畫了個圈圈,把自己圍起來了。



舉個簡單的例子,微信公眾號的文章相比某些平台,整體質量確實要更高。


但是嚯,你能在百度和谷歌搜到微信公眾號和今日頭條的文章嗎?


搜不到吧,很藍的啦。


原因其實很簡單,平台不允許搜尋引擎去爬取它們的文章和其他內容了。


再強的搜尋引擎也得靠網絡蜘蛛去爬取信息,當平台建起一堵牆,就能輕易把第三方搜索隔絕開來。



大夥也別以為這堵牆有多高技術含量,其實就靠小雷開頭提到的robots.txt文件。


這個簡單的文件,裡面包含了一系列規則,它會告訴搜尋引擎,哪些頁面可抓取,哪些頁面又不能抓取。


要是規則一片空白,就別怪搜尋引擎一頓搜颳了。


反之,如果規則清晰明了,寫著「禁止讀取」,搜尋引擎自然會識趣溜走。




喏,微信就在網站「weixin.qq.com」的根目錄中放置了這個文件,並寫上自己的規則。


而小雷通過網際網路檔案館看了一下,微信的規則比較狠,直接在末尾寫上一條「Disallow:/」。


給小夥伴們翻譯一下,這規則的意思是,不讓其他搜尋引擎爬取微信任何文章...


這就能解釋,為啥搜尋引擎搜不到微信文章了。(搜狗是自家人,不計在內)



不過要說起來啊,robots.txt算不上是規範,只是搜尋引擎和網站們達成的一項約定。


像谷歌、百度和bing等大廠出品的搜尋引擎,一般都會遵守約定,但新推出的搜尋引擎就不一定講武德了。


畢竟剛出生的搜尋引擎資源匱乏,只能搞點非常規手段,去收錄更多內容,這一點小雷會放在後面聊。


該聊的重點,咱們得適當加速,提前攤開來講。



而這個重點嘛,正是小雷開頭提到的「微信robots.txt漏洞」。


搜尋引擎一直無法收錄微信文章內容,全因為那戒備森嚴的robots.txt。


但從昨晚到今天中午,微信的robots文件突然出現「404無法訪問」。



這就給搜尋引擎們提供了絕佳的爬取機會。


小雷從Google看到,目前谷歌搜索已經收錄了135萬篇微信文章。


雖然總量不多,但這波操作屬實讓人浮想聯翩。



要麼是微信出BUG,不小心把robots.txt刪掉了,要麼是微信要開放自家生態,造福中文網際網路。


考慮到最近官方出手,讓騰訊和阿里取消連結屏蔽,還有淘寶上線微信支付等操作...


微信放開內容生態,好像還真有搞頭嚯?


害,別怪小雷給大夥潑冷水,這幾乎是不太可能的事兒,多半是微信出BUG,把robots整沒了。



要知道,公眾號內容可是微信培養多年的王牌之一,玩得好好的,完全沒必要向外界開放。


而且小雷對這事兒也經過了排查,現在只有谷歌和必應兩大國外搜尋引擎收錄了微信文章。


作為中文網際網路最強搜尋引擎的百度,反倒是啥也沒有,明顯不符合邏輯。




於是,小雷在今天下午又訪問了一下微信公眾號的robot.txt文件。


發現這文件果然回來了...


域名:https://mp.weixin.qq.com/robots.txt



沒過多久,微信也出來回應:因為最近平台技術升級,導致robots協議出現了漏洞。

如今robots.txt能正常訪問,說明漏洞已經被補上。


這事兒鬧的,小雷也不知道該咋評價了。


一方面,小雷其實挺希望各家平台能放開搜索限制,讓搜尋引擎變得更好用。


所以在知道微信robots文件被刪除後,小雷還興奮了好一會兒,感嘆平台之間的壁壘終於要被打破了。


但另一方面,搜尋引擎其實也在吃內容平台的紅利,互相競爭的對手,怎麼會輕易相互開放。



還是拿微信和今日頭條兩大內容平台來說。


微信憑藉超過10億的用戶量讓公眾號迅速起飛,並以搜狗為搜索基礎,建立起屬於自己的內容生態。


說白了,大夥想搜微信的文章,只能去搜狗搜索那裡搜。



而今日頭條也憑藉著強大的算法推薦,成為了網友們獲取資訊的首選平台。


在擁有了足夠了數據和用戶後,今日頭條也像微信那樣,做起了自己的搜索。




就連限制都和微信差不多,百度是無法搜索到今日頭條任何內容的。


雖然平台擁有了自己的搜尋引擎後,能讓用戶更方便地檢索信息。


但最主要的,還是想把握住搜尋引擎這個巨大的流量入口。


這種操作,又俗稱為網際網路版自力更生,自己做飯吃,讓其他搜尋引擎無飯可吃...



最要命的是,這已經成為了國內移動網際網路的趨勢。


從「取消網頁版,強制用戶跳轉到App」,再到「自建搜尋引擎」,大廠們都在流量做出了自己的策略。



其中原地畫圈,禁止外人進入這種操作最為常見。


對平台自身的發展肯定是好事兒,但也確實苦了咱們這些沒得選擇的老網民。




關鍵字: