可行性分析报告|高新技术企业项目可行性分析报告( 二 )


2.1.2 智能检索技术的概述2.1.2.1 协调过滤(collaborative filtering)技术造就的个性化服务背景:当今世界,随着网络技术的发展,诸如www,netnews,mailing list等各种各样的情报源不断涌现,使得人们有可能从更多的情报源中收集信息 。与此同时,大量的情报造成了信息的爆炸,使人们为了获得所需的情报不得不花费大量宝贵的时间,从而使情报收集变得近乎失去了意义 。为解决这个问题,出现了各种不同的办法和方案 。但同时也存在着共同的问题: 想要获得的情报虽然并不存在,但由于用户无法判断而还在执迷不悟地检索; 想要得到的情报的确存在,然而由于方法不当而找不到这些信息;【可行性分析报告|高新技术企业项目可行性分析报告】 在情报检索过程中,收集到大量的洪水般的多余情报致使有用的信息被淹没;至今为止,从互联网上获取信息有情报检索、情报过滤和浏览等几种方法 。简述如下:① 情报检索情报检索,即对检索关键字不断调整,判断其检索结果并将其反馈到关键字中去,最后,特定到所需的情报源之上 。用户所指定的关键字直接影响到数据库的检索 。数据库系统将符合条件的数据抽取出来送给用户,由用户自己去判断检索结果的满足度 。用户的要求得到满足后,情报检索宣告结束 。否则将会再次修正关键字,再度检索数据库力争逼近理想的结果 。这个处理周而复始,整个过程就形成了人们所熟知的情报检索 。对于情报检索来说,每个用户,每次检索过程都互不相关,完全是独立的 。也就是说关心同一类情报的用户之间并不能交换情报,所以也无法形成信息共有,情报检索的效率完全依赖于检索者个人的知识和熟练程度 。② 情报过滤情报过滤是指对所获得的情报而设定优先度,比如mailing list就是一例 。加入者众多的mailing list,一个用户在一天之内完全有可能收到100件以上的电子邮件,而用户查看这些邮件必然要花费大量的时间 。情报过滤就是为解决这个问题而发展出的技术 。网http://情报过滤是这样一个过程:用户可以事先指定代表不需要情报的关键字,过滤系统则将含有这些关键字的信息源排除出去 。除此之外,用户亦可指定所需情报的关键字及优先顺序,过滤系统将根据这些要求把收集到的情报标上优先顺序再提供给用户 。情报过滤系统就是这样一个选择情报的收集方法 。和情报检索方法类似,使用情报过滤系统的用户,相互之间是独立的,无法实行有效地情报共享,也做不到高效率的情报收集 。用户根据自己的水平决定关键字,稍有不慎会导致将实际上所需要的情报拒之门外 。综上所述,情报过滤与情报检索相同,欲实现高效的检索必须具有相当的熟练经验 。③ 浏览浏览是指相关于hypertext(即互联网的网页)的情报收集方法 。一个具体的例子就是大家所熟悉的对各种www主页的检索 。浏览的一个特点是某些场合下用户并没有明确的目的,在对各种主页进行浏览的过程中逐步获得明确目的的情报 。浏览属于最困难的情报收集方法的一种 。首先,用户并不知道他所需的情报是否存在 。其次,用户很可能找不到他所需的情报 。用户通过各种连接方式(link)去寻找情报,但对link的选择可能导致他离所需情报愈来愈远 。这个问题的发生,同样是因为浏览亦是相互之间独立进行的缘故 。因此,从上述网上获取情报的3种方法的说明上可以得出结论,独立进行情报收集的做法,造成了即使是关心同样内容的用户也无法实现情报共有/共享 。而在现实世界里,对于关心共同话题,共同内容的用户来说,一个最重要的问题就是进行高效的情报交流和共享 。但是十分遗憾的是传统的手法实现这种共有/共享是不可能的 。相互间独立的情报收集是现有各种主要检索软件的致命伤,是一种不可取的方式 。互联网的发展,迫切需要一个用于信息收集、具有智能的检索支援系统 。为解决上述的问题,出现了协调过滤这样一种崭新的方法 。协调过滤法充分利用了他人的知识进行情报收集 。而这些知识常常包含了间接、甚至直接解决问题的重要信息 。这种做法大大减少了收集情报所需的时间和工作量 。更具体地说,根据用户的爱好和要求,系统自动提供/推荐各类信息,也即推荐服务(recommence service)的方法 。以下是日本的「日经网络商务」(nikkei net business)举办的第9回互联网用户调查的结果(调查期间1999年11月18日—12月2日) 。调查提问.作为检索服务的一种,以用户输入的检索关键字为基准,向用户介绍有关网上商品销售网站(web site)的推荐(recommence)型服务已经开始了 。你想使用这类服务吗?请选择下列合适的答案 。回答 年月 1999年12月 1999年6月 1998年12月还从未使用过,看起来很方便,今后想利用 。38.9% 39.5% 37.9%不知道是什么样的服务,无法表态 。26.7% 25.4% 22.9%还从未使用过,因感到不必要,今后也不打算利用 。18.8% 20.2% 24.0%已经使用过了,感到很方便,今后也准备继续利用 。11.2% 10.4% 9.8%已经使用过了,感到没必要 。今后不再利用了 。3.7% 3.9% 4.6%其他 0.8% 0.6% 0.8% 互联网活跃用户调查(日经bp出版社)据以上的调查结果,实际上用过情报推荐服务的用户占全体的14.9%,作为刚开始不久的服务来说这个数字不算什么,但想利用的用户占50.1%,将全体的一半 。从这个调查结果来看,推荐服务将在互联网今后的发展中起到举足轻重的作用 。综上所述,在各种情报的收集活动中,通过使用协调技术,可以提高收集活动的效率 。体现协调特点的情报收集的一个例子是mailing list 。关心相同内容的用户参加mailing list,相互之间交换情报 。请想象某用户就某个问题向mailing list的参加者进行询问,而参加者们或直接回答问题,或提供能对解决问题有帮助的情报及提示 。这个过程即是一个相互协调的过程 。与单独的情报收集相比,相互协调的方法能更有效地提高检索效率 。网http://技术构成要素协调过滤方法是基于情报流通传播,以提高收集效率为目标的情报收集的方法 。情报流通是指①为持不同问题的用户自动寻找解决问题的情报;②向持相同问题的用户提供推荐服务;①需要寻找关注某特定问题的用户群,进而得到为解决问题所必需的信息 。②则是将这些用户的特征归纳起来,做到情报的交换 。协调过滤方法则将上述的过程自然地融为一体 。所以,我们可以为协调过滤做以下的定义 。协调过滤(collaborative filtering):从人类的情报收集活动中,归纳抽象出其所对应的爱好,关心,意图等形态意识,并通过获取的收集情报及归纳抽象出的形态意识,对人类进行分类,实现类似人类间的情报交换的手段 。另外,还有各种各样不同的定义方法 。比如,1996年出现的协调过滤法研究系统group lens(协调过滤法最有名的研究系统之一),其开发者之一paul resnick有过如下的说明 。“guiding people’s choices of what to read,what to look at,what to watch,what to listen to (the filtering part),and doing that guidance base on information gathered from some other people(the collaborative) 。”可翻译成下文:「以从其他用户收集到的情报(协调部)为基础,向每个利用者提供“应该读什么”,“应该关注什么”,“应该看些什么”,“应该听些什么”等建议(过滤部)」 从上述的表述中可以看出,对各种各样的情报来说,人们的评价及这些情报在社会中的影响可以被用来判断情报本身的价值,以及决定是否值得被推荐,这也就是协调过滤法的一个最大的特征 。正是基于这点,有时也称其为社会过滤法(social filtering) 。作为协调过滤方法的一种,为实现能从洪水般的情报中抽取用户必要的信息,推荐系统(recommence system)常备使用 。另外,为能实现利用者爱好的自动追踪及判断,agent系统(agent system)技术及人工智能技术的研究利用,也有很大的潜力 。协调过滤法用到的算法有以下几种:i. active collaborative filtering(acf)最初的协调过滤系统是xerox公司的parc研究所的电子邮件系统,由david malts等人开发研究的information tapestry电子邮件系统,该系统被lotus notes 中的printer部分所采用 。该系统的特点是:彼此相识、指定范围内的用户通过相互指定,可以做到指定人与其认可的某一领域专家(被指定人)间的情报同步 。ii. automated collaborative filtering(acf)正如其名称所示,系统会根据用户已有的评价值,对尚未处理的情报进行自动评价(预测),将得分高的情报主动向用户推荐 。自动评价的预测值则是根据其他用户和本用户的评价情报,采用皮尔森相关系数等相关算法而计算出来的 。这种方法有它的缺点 。由于归根到底是靠用户的评价值而进行推荐的,如果某个情报谁也没进行评价则永远得不到推荐 。另一方面,评价数据不足时推荐的精度也受影响 。另外,情报量和用户数(评价数)差距较大时,难以找到附近的用户等 。mit(麻省理工学院)的音乐情报推荐系统ringo,明尼苏达大学的netnews推荐系统group lens等许多协调过滤系统都采用了这一种方法 。iii. feature guided automated collaborative filtering(fgacf)根据用户的爱好,从事的领域各不相同这一现实,采用把作为过滤对象的项目群赋予属性情报,从而缩小问题的范围,提高推荐精度的方法即为fgacf法 。firefly networks 公司(现已被microsoft公司收购)的firefly采用了这个方法 。纯粹的acf基本上不考虑情报的内容,在情报量不断增大的时候仍把各种情报一视同仁,很容易造成错误的推荐 。另外,存在着随情报量增大计算时间也增加的问题 。为解决这些问题,事先把各种情报通过赋予属性情报的方法进行分类(feature guided),根据属性情报分组,将爱好相近,领域类同的有用情报尽早地向用户推荐 。网http://iv. content-based collaborative filtering当主要以web网页,netnews信息等文章情报作为过滤处理对象的时候,同时结合情报内容(contents)过滤处理和协调过滤处理两者长处的作法也逐步得到了完善和发展 。近年来,以互联网的各种web网页作为过滤处理对象,从文章中出现的各个关键词组出发,对系统中新登录情报进行预测评价的方法受到了广泛的关注 。通过事先将各种情报分组的方法,达到提高协调过滤处理精度目的的手法得到了引人注目的发展 。斯坦福大学(stanford university) 的产品fab,明尼苏达大学计算机科学工程系(dept. of computer science and engineering at the university of minnesota)的net perceptions inc.的产品filterbots等都是文章情报基础的协调过滤系统的例子 。上面提到的作为netnews的推荐系统grouplens也在把成为推荐对象的文章分成newsgroup方面下了大的力量,所以从广义上也可以说是一个fgacf系统 。除此之外,世界上各大学和公司也在研究利用情报的属性进行多变量解析的cluster分析法自动地把项目分组,从而提高系统性能和精度 。以上各种算法的实现,基于大量的传统数学模型,一种算法中可能包含有多种数学模型,也可能是某一算法对应于多种数学模型候补 。从类别上可分成类似算法数学模型,分组算法数学模型,自然语言分析数学模型等三类 。关于这些数学模型情报,我们在下一节中有较详细的记述 。

推荐阅读