Tencent|就因为微信误删了几行字公众号文章能被别家搜到了？_就因为微信误删了几行字|公众

前天看到一个帖子说，在 Google 和 Bing 能搜到微信公众号的文章了。怎么可能。嚯，要这样下去，在百度里搜微信文章是不是也快了？想必很多网友应该都挺期待这件事的。毕竟有时候搜资料，在百度和微信之间切来切去还挺麻烦的。谁想到还没乐呵够，腾讯马上就辟谣了：
是公众号的 robots 协议出现漏洞，让搜索平台的爬虫爬到了，现在已经修复了。

文章图片

嗐，搞半天白高兴一场。
不过，今天还是想就这个 robots 协议和大家探讨一下。
因为说起来你可能不信，我们在百度里前搜不到公众号文章，后搜不到淘宝商品，都是因为 robots 协议。
robots 协议其实很简单，就是一个放在网站根目录的文本，它写明了搜索引擎可以/不可以收录哪些信息。
微信公众号的 robots 协议 ▼

文章图片

有人可能会说，原来就是这几行字害得互联网不能互联了？
不不，这锅 robots 协议可不背。
robots 协议原本只是帮助搜索引擎更高效地收录信息，只不过现在人们用着用着逐渐变了味。
这事还得从上世纪 90 年代初期说起。
在搜索引擎诞生之前，人们要查资料，只能一个个进入相关网页，效率非常低下。
后来有了搜索引擎，搜索引擎通过释放网络爬虫（也可以叫蜘蛛），抓取各个网页里的信息，并把这些信息收录起来供大家查询，这才极大提高了人们的效率。
但是，那会爬虫就跟小黑胖一样，抓取信息来完全不挑食。
不管是没用的垃圾信息，还是网站重要的内部数据，不分青红皂白地一顿乱抓，全都要。

文章图片

这种粗暴的抓法不仅降低了用户搜到有用信息的效率，还会让网页的重要数据泄露，服务器过载无法运行。
所以在 1994 年初，荷兰有位网络工程师提出了 robots 协议。
就好比宾馆房间门上挂着的“ 请勿打扰 ”，“ 欢迎打扫 ”牌子，告诉阿姨哪些房间是可以打扫的。
每个网站的根目录下也摆着一份 robots 协议，协议里告诉爬虫：哪些东西你可以抓，哪些东西你不能抓。
虽说这个 robots 协议目前还没被任何国际组织采纳，没有制约性，只能算个君子协议：你不听，就不是个正人君子。
但它毕竟为了帮助搜索爬虫更有效地抓取对用户有用的信息，更好促进信息共享。
所以在国外不管是早期的 altavista 还是后来的 Google 、必应，大家也都遵守着这一套协议。