藏在心中的秘密|搜索引擎调查报告探测大众心中的秘密隐私( 二 )


网网http://网网http://如果将此名言括上引号,google便会突然开窍,顺利地寻找到相关的网站 。这一功能被称作短语搜索(phrasesearch) 。不过,比google更智能的是alltheweb,它已将这句名言列入搜索目录,在结果页面中直接提供了相关链接 。
网网http://网网http://搜索如何实现
网网http://【藏在心中的秘密|搜索引擎调查报告探测大众心中的秘密隐私】网网http://“已向英特网搜索geraldsalton 。共有5,430项查询结果,这是第1~10项 。搜索用时0.06秒 。”0.06秒,体现着以google为代表的搜索引擎的快捷和高效 。这一切,又是如何实现的呢?
网网http://网网http://通常情况下,一间机房只能摆放10台服务器,但是google的机房内可以容纳80台服务器,因为它们都是拆掉了机壳和部分零件的裸机 。larrypage和sergeybrin他们将机器的外壳拆掉,再卸下没用的芯片和零件使整机体积缩小,而且容易维护,当然也节省了租用机房的花销 。google使用了超过一万台的服务器,并将其分散到五个不同地区的机房内,用以应付浩如烟海的网络信息 。
网网http://网网http://为了对每一次搜索请求做出快速的反应,搜索引擎在前期下足了功夫 。它们在后台不停地重复三步操作 。第一步,搜索引擎会不断的利用爬虫(crawler)程序搜集互联网上所有可达的网页,无论是公开的还是隐藏的—只要曾被访问过,就会招致“爬虫”上身 。这样,定期外出的“爬虫”就为搜索引擎囤积起一个海量数据库 。由于“爬虫”外出遵循一定的周期,有时可能跟不上网页更新的速度,所以google的“网页快照”会出现与目标页面不尽相同的情况 。第二步,另一个程序会统计出缓存网页(cachedpage)中各个字词出现的频率 。第三步,根据词频概括出页面的中心思想和段落大意,再按照不同的关键词提炼出索引目录 。用户的每一次搜索请求都是基于这些索引计算而得,因此响应异常迅速 。

推荐阅读