藏在心中的秘密|搜索引擎调查报告探测大众心中的秘密隐私
网网http://网网http://月初,珍妮·杰克逊(janetjackson)因为走光事件上升为yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了yahoo搜索关键词的历史最高记录 。这一数字是艳星parishilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍 。
网网http://网网http://互联网上的搜索引擎已经成为反映大众趣味和关注焦点的最好工具,网网http://也许比任何其他调查统计都更为真实 。
网网http://网网http://高频词与社会热点
网网http://网网http://纵观历史,热门词汇反映了短期内大众关注的焦点,长期来看可以连缀出世事的发展脉络 。美国康奈尔大学的研究人员jonkleinberg曾经做过一项调查,通过统计1790年后每年的美国国情咨文的用词,发现了不同历史时期的热门词汇 。例如美国独立战争期间出现频率最高的是“民兵”和“英军”;而在1947年到1959年这段时间内,“原子弹”则被反复地提起 。
网网http://网网http://如今,搜索引擎声称自己知道大众心中的秘密 。搜索引擎不只是被动地答疑解惑;事实上,各大搜索引擎提供了包罗万象的统计数据,这些结果也许十分有趣 。keinberg认为:虽然计算机并不懂历史,但是可以通过统计blog(网页访问记录)、e-mail和网页中的文本“学习”到相关的背景知识,从而更好地理解搜索请求的含义 。此外,这些统计数据还可以帮助社会学者和营销人员发现某些正在显露出的大众趋势,为他们的研究或者经营提供参考信息 。
网网http://网网http://在国内,搜索引擎甚至借助这种反映大众趋向的能力,向更广的商业领域主动出击 。2004年2月12日,百度搜索和光线传媒共同发布了“2003年全球华人明星人气榜” 。热门词汇周杰伦、《无间道》、《天龙八部》、代言人、绯闻和黑幕等榜上有名 。在此之前的1月8日,百度搜索还与胡润联手发布了“2003中国大陆百富人气榜” 。
网网http://网网http://但是,搜索引擎有时也会不知所措 。比如尝试使用google搜索哈姆雷特的名言“tobeornottobe”,会发现google竟然答非所问,罗列在页面上的是gnu’snotunix官方网站、hotornot交友网站……就是不见莎士比亚的影子 。这个经典的例子引出了搜索技术的一个术语—停止词(stopword) 。
网网http://网网http://顾名思义,计算机的一切能力都是以计算为基础,即使阅读也不例外 。搜索引擎浏览分布在各个角落的网页的同时,还在后台不停地统计词语的出现频率 。有一些词语出现率极高,带来巨大的统计成本,却不包含太多的具体意义,比如汉语的“的、是、了”和英文单词“the、and”之流 。如果要得出包含该词的全部结果,实在是过多了 。例如遇到哈姆雷特名言中的那些高频词汇,经常导致搜索“引擎”突然熄火,因此这些单词得名“停止词” 。在google“阅读”哈姆雷特的名言时,遇到了四个停止词,出于无奈,所以它只好对频率最低的“not”进行搜索,得到了一些有关“not”的流行网站 。
