Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?( 二 )


同样 2012 年 11 月中国互联网协会发布了《 互联网搜索引擎服务自律公约 》,也规定了:
搜索引擎要遵守网站的 robots 协议,但前提是 这 个 robots 协议是合理的 。

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

这个公约对 12 家发起单位生效,成员包括百度、腾讯、奇虎 360、搜狗、网易、新浪等 。
图源百度百科 ▼

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

如今绝大多数 搜索引擎的爬虫在访问网站时,第一件事就先读下网站的 robots 协议 。
在了解哪些信息是可以抓取之后,才会行动 。
比如淘宝的 robots 协议,虽然只有简单的 4 行字,但写明了: 百度爬虫 ( Baiduspider ) 不允许 ( Disallow ) 抓取任何内容 ( / )。
百度爬虫过来看到协议后,就算心里难受,也只能啥也不碰马上离开 。

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

那可能有人说,这既然是君子协议,会不会有人不当“ 君子 ”呢?
当然有,robots 协议只相当于一个告知书,爬虫 ( 背后的人 )可以不听你的 。
和大家说两个违背 robots 协议的例子 。
第一个例子是 BE 和 eBay 的纠纷 。

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

BE 是一个提供拍卖信息的聚合网站 。它利用爬虫抓取 eBay 等拍卖网站的商品信息,然后放在自己网站上赚取流量 。
尽管 eBay 早已写好了 robots 协议,告诉 BE 爬虫不准抓取任何内容 。
但 BE 认为这类拍卖信息都是大众上传的,eBay 设置 robots 协议不让自己抓取,不合理啊 。
后来法院经过多方调查取证, 认为 ebay 网站上内容属于私有财产,它用 robots 协议保护私有财产是合理的 。
最后认定 BE 侵权 。
想必大家能看出来,法院判定结果并不是单纯看有没有违背robots 协议,最主要还得看这个 robots 协议合不合理 。

Tencent|就因为微信误删了几行字 公众号文章能被别家搜到了?
文章图片

同样,还有个例子也证明了这点 。
大部分人都知道 3Q 大战,但可能没听过 360 和百度的“ 3B 大战 ” 。
2012 年 8 月 360 搜索刚上线,它抓取了百度旗下的内容 ( 百度知道,贴吧 )并以快照的形式提供给用户 。
但是,百度的 robots 协议写明了只有部分搜索引擎可以抓取,当中没包括 360 搜索 。
也就是说 360 违背了百度 robots 协议 。

推荐阅读