Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?

前天看到一个帖子说, 在 Google 和 Bing 能搜到微信公众号的文章了 。怎么可能 。嚯,要这样下去,在百度里搜微信文章是不是也快了?想必很多网友应该都挺期待这件事的 。毕竟有时候搜资料,在百度和微信之间切来切去还挺麻烦的 。谁想到还没乐呵够,腾讯马上就辟谣了:
是公众号的 robots 协议出现漏洞,让搜索平台的爬虫爬到了,现在已经修复了 。

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

嗐,搞半天白高兴一场 。
不过,今天还是想就这个 robots 协议和大家探讨一下 。
因为说起来你可能不信,我们在百度里前搜不到公众号文章,后搜不到淘宝商品,都是因为 robots 协议 。
robots 协议其实很简单,就是一个放在网站根目录的文本,它写明了搜索引擎可以/不可以收录哪些信息 。
微信公众号的 robots 协议 ▼

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

有人可能会说,原来就是这几行字害得互联网不能互联了?
不不,这锅 robots 协议可不背 。
robots 协议原本只是帮助搜索引擎更高效地收录信息,只不过现在人们用着用着逐渐变了味 。
这事还得从上世纪 90 年代初期说起 。
在搜索引擎诞生之前,人们要查资料,只能一个个进入相关网页,效率非常低下 。
后来有了搜索引擎,搜索引擎通过释放网络爬虫( 也可以叫蜘蛛 ),抓取各个网页里的信息,并把这些信息收录起来供大家查询,这才极大提高了人们的效率 。
但是,那会爬虫就跟小黑胖一样,抓取信息来完全不挑食 。
不管是没用的垃圾信息,还是网站重要的内部数据,不分青红皂白地一顿乱抓,全都要 。

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

这种粗暴的抓法不仅降低了用户搜到有用信息的效率,还会让网页的重要数据泄露,服务器过载无法运行 。
所以在 1994 年初,荷兰有位网络工程师提出了 robots 协议 。
就好比宾馆房间门上挂着的“ 请勿打扰 ”,“ 欢迎打扫 ”牌子,告诉阿姨哪些房间是可以打扫的 。
每个网站的根目录下也摆着一份 robots 协议,协议里告诉爬虫:哪些东西你可以抓,哪些东西你不能抓 。
虽说这个 robots 协议目前还没被任何国际组织采纳,没有制约性,只能算个君子协议:你不听,就不是个正人君子 。
但它毕竟为了帮助搜索爬虫 更有效地抓取对用户有用的信息,更好促进信息共享 。
所以在国外不管是早期的 altavista 还是后来的 Google 、必应,大家也都遵守着这一套协议 。

推荐阅读