可行性分析报告|高新技术企业项目可行性分析报告( 三 )


协调过滤法的特点下表列出了协调过滤法的主要特点 。优点 缺点不依赖于情报的内容可解决仅靠一般方法而解决不了的情报过滤问题 初期评价的问题(early rater problem)单纯的协调过滤法不能对新登录的情报进行评价预测 。另外,对于登录的情报及新注册的用户而言,推荐的精度较差 。易于发现重要情报互联网情报内容(contents)基础上的过滤法是对所有的情报不加区分,一视同仁地处理的 。相比之下,协调过滤法,则可自动判别这些情报是否受到广大用户的认可 。稀薄性问题(sparsity problem)能使协调过滤系统正常发挥作用的理想条件是存在大量的,得到众多用户评价的情报 。但现实往往是只能收集到很少一部分受到评价的情报 。评价情报的反馈用户对情报的评价可将系统运营者的利益(如判断登载哪一类广告等)和用户的利益(获得有益情报)直接连接起来 。孤独用户的存在问题(gray sheep)特别是在中小规模的网络内使用协调过滤系统时,有可能存在着与多数用户意见不同的孤独的用户 。结果不够明确因为采用统计学的方法计算预测评价值,所以无法保证100%的准确性 。由此而造成错误的过滤 。由上表可知,想开发成功的制品,就需要扬长避短,在前述的技术构成要素之上施行细致的调整 。可以这样说,怎样将各种技术要素有机地结合成一个完整的系统,是本系统商品化成败的关键 。当今世界中协调过滤技术的应用现状近年来,做为取代传统的想方设法地搜索信息的方法,开始出现了一种从情报源主动向用户提供情报的方法,即推荐服务的方法 。更值得注目的是以著名的,规模大的互联网提供商提供的检索引擎和电子商务(ec)服务为中心而逐步展开的个人服务 。这些服务针对每个用户的不同特点进行调整,从而形成因人而异的情报提供方式 。个性化服务和一对一服务(one—to—one service)具有相同的含义 。这类服务建立了web网页提供商和用户之间一一对应的关系,由此出发,进而大幅度提高服务质量 。做为推荐服务和个性化服务的核心技术,协调过滤技术在1996年左右就被研究开发出来了 。但目前的现实是该技术的研究开发仍是以美国的大学和研究机构为主 。处理中使用的各种数学模型系统内部使用的算法如下所示,所有算法都属于古典统计学的范畴之内 。i:类似算法数学模型网http:// 类似算法:对某个对象而言,从对象集合中找出与其相类似的对象的算法. 以下列出各算法的方程式,并对各个符号一一说明. χi=(χi1,χi2,......,χip); χj=(χj1,χj2,......,χjp); (χmax,χmin是χ的最大值和最小值) cmn: if (χmn= = 0) then {cmn= 0 ;} else {cmn= 1 ;}以下的计算结果为d的时候,值越小表示二者越类似;计算结果为r的时候,值越靠近1表示二者越类似 。① 平均尤库里多距离的二乘法② 平均距离法 ③ 最大值距离法④ 二值距离法⑤ dice coefficient法rij=2 x|kij|(|ki|+|kj|)⑥ jaccards’s coefficient法⑦ 皮尔森相关法γij= coυ(χi,χj) σiσj ⑧ 限定皮尔森相关法γij= coυ(χi,χj) σiσj ⑨ 斯皮尔曼相关法⑩ 改良二值距离法mapi (χmn) = cmnmapu (χmn) : { if (χmn= = 0) { mapu (χmn) = 0; } else if (χmn in topn ) { //如果为重要属性 mapu (χmn) =big; //big是大于”1”的定数 。}else{ mapu (χmn) = small; //small是小于”1”的定数 。} } dij=1rijii :群(clustering)算法 即将相类似的对象归为同一个群的算法.以下涉及的7种群算法都将分两步实现.第一步:对各个基本要素,使用10种距离计算值之一求出二者之间的距离.距离最近的两个基本要素成为一个新要素.基本要素被称为叶,新要素则被称为分支.第二步:实行递归处理.利用以下的方程式计算出与新要素间的距离,进而生成新要素 。下面用到2个基本方程式,方程式和系数的不同组合形成7种不同形式 。dxc=αadxa+αbdxb+βdab+γ|dxa –dxb (1) dxc2=αadxa2+αbdxb2+βdab2+γ|dxa2 –dxb2 (2) 方程式表示从a和b出发,生成新要素x,并求出与要素c的距离 。① 群平均法利用方程式(2) 。网http://系数: αa= na / nc αb= nb / nc β=0 γ=0② 重心法 利用方程式(2) 。系数: αa= na / nc αb= nb / nc β= (na nb)/ nc2 γ=0③ 最长距离法 利用方程式(1) 。系数: αa= 0.5 αb= 0.5 β=0 γ=0.5④ 可变法 利用方程式(2) 。系数: αa= (1-β) / 2 αb= (1-β) / 2 β=定数 γ=0 ⑤ 介质法 利用方程式(1) 。系数: αa= 0.5 αb= 0.5 β=-0.25 γ=0 ⑥ 最短距离法利用方程式(1) 。系数: αa= 0.5 αb= 0.5 β=0 γ=-0.5⑦ wood法利用方程式(1) 。系数: αa= (nx+na) / (nx+nc)αb= (nx+nb) / (nx+nc) β=-nx / (nx+nc) γ=0iii:分组(grouping)算法 即将相类似的对象归为同一个组的算法 。从现有的组里抽样获取要素,利用类似算法求出对象与组之间的距离,找出最为类似的组并将该对象归入该组 。iv:自然语言解析算法 自然语言解析是指将对象文章按单词的单位分割,并将其生成一个个的标签(tag),进而选出必要的名词(如已知和未知的名词),计算出其出现频度,考虑其在文章中的位置,文章的长度等因素,并进行关键字重复度处理.在必要的时候,可提供禁用词汇的管理机能以及对现实生活中没有特别意义的名词不予登录(象对禁用语的处理一样)的机能.

推荐阅读