信息检索技术国外信息过滤系统的研究综述程妮崔建海王军(编译)(北京大学信息管理系北京100871)类;阐述了相关的过滤方法;描述了信息过滤系统的重要概念和用于实现的技术;讨论信息过滤系统的评估方法及其局限性。*后,文章对信息过滤系统发展方向进行了展望。
信息流,为用户提供相关信息子集的技术。近年来,信息过滤技术在各种领域中都得到了不同程度的发展及应用。不同的系统采用不同的方法、概念和技术,如信息检索、人工智能、行为学等等。各种系统涉及不同的范围、有不同的功能、使用不同的平台。虽然很多系统的思想体系差异很大,但它们的目标都是根据用户模型将*有价值的信息自动推荐给用户,并*大限度地节省用户的阅读时间。
1信息过滤系统的分类一个关于信息过滤系统的体系结构,如。需要注意的是,以信息过滤系统为根,其下的4个子类并非表示4种截然不同的系统类型,而是仅仅从4个不同的视角来对信息过滤系统进行分类。
1.1按操作的主动性分类(1)主动型信息过滤系统:这类系统主动地为用户寻相关信息。搜索可以在较小范围内进行,如相关新闻组的列表;也可以是较大的范围,如互联网。将用户模型提供给系统后,系统就会搜索信息空间,收集并将相关信息传递给用户。
信息过滤系统的分类这种过滤涉及到推送技术,系统将相关信息推送到用户的计算机中,并在用户其他工作的间隙显示于屏幕上。
(2)被动信息过滤系统:这种系统将信息流中不相关的信息滤掉,通常用于电子邮件或新闻组信息,由于它们的流动是自动的,所以不必费力去为用户收集信息。这种过滤系统根据用户模型决定信息与用户需求的相关性。有些信息过滤系统将不相关的信息过滤掉,而另一些系统为用户提供所有的信息,然后依据相关度进行排序。研究发现电子邮件用户偏爱对所有消息进行排序的过滤方法,而不喜欢选择只包括*相关消息的子集,因为前者可以避免丢失重要消息的风险信息检索技术1.2按过滤操作的位置分类(1)信息源过滤:用户将过滤模型提交给一个信息提供者。信息提供者为用户提供与过滤模型匹配的信息。这一类过滤称为剪辑服务。Dialog提供的Alert就是这种类型的服务。在此系统中用户可以定义用户模型,系统定期把用户模型与Dialog数据库中的文档集合进行匹配,然后通知用户*新状况。
(2)信息过滤服务器:一方面,用户将用户模型提交给服务器;另一方面,信息提供者将信息传递给那些服务器,服务器过滤并将相关信息分发给各个用户,并为不同地理位置的或特定兴趣主题小组进行服务。Kay和KUminerfeld(1995)已经为这种过滤系统设计了一种结构。其中信息提供者(供应商)将信息传递给发布中心,发布中心将对用户相关的信息进行评估并传递给用户。基于用户模型建立的用户代理程序,在信息到达时对其进行检查,并决定每一条信息对哪些用户来说是合适的。
(3)用户端过滤:本地的过滤系统对进来的信息流进行评估,并将不相关的删除或是按照相关度进行排序。用户端的过滤实行的是被动过滤,只是对流过的信息进行评估。
1.3按过滤方法分类两种主要的过滤方法:制,描述消息内容和消息接受者的信息需求特征,然后用这些描述智能化地将消息与接受者的要求进行匹配“。有些研究1994)从心理学角度来解释此概念,定义认知过滤是一种基于滤。为此,我们提出:①基于内容的过滤:一方面是用户感兴趣的领域,另一方面是信息的内容。
②基于属性的过滤:基于比“兴趣、研究范围”更宽泛的用户属性。
这两者在它们识别信息内容、用户兴趣和匹配两者的方法上存在诸多不同。大多数商业过滤系统都是基于内容过滤的,建立在信息与用户偏好的相互关系之上,而且对于机读信息的操作很简单。
(1987)等学者将其定义为“在一个团体中,利用个人和组织中个体间相互关系进行过滤”
究者(MaesKozierok,1993)将“社会过滤”解释为“协同过滤”,是自动完成类似人推荐的过程。搜集处理用户使用信息系统的习惯,得出具有相似使用习惯的用户群体,如果某个用户选择了一个信息单元,那么过滤系统就可以把这个信息单元推荐给具有相似习惯的用户群体。
现在的“推荐系统”指的就是协同过滤系统。例如,兴趣的用户模型相互关联起来,以揭示用户之间的相似性,将系统判断的与一个用户相关的信息,推荐给其他与此用户相似的用户。新闻组信息的推荐系统Grou-PlenS(Konstan等学者,1997)根据过去用户对信息相关性的认同程度来衡量用户的相似性,要求用户按1-5的等级对所推荐的信息相关性进行评估,认同评估的用户作为未来推荐的相似用户。Fab(BalabanovicSho-ham,1997)对用户访问的URL、书签文件夹进行比较以识别相似的用户。
社会过滤系统(包括协同的和基于属性的过滤)试图克服基于内容过滤系统的缺陷。尽管基于内容的过滤系统很**,但用户模型仅仅能表示用户感兴趣的领域,而不能精确地描述其信息需求。一个系统要想预测用户的信息需求,就必须包含能从不同角度表示用户特征的综Kass,1992)中,一个用户模型应该包括像用户的目标、计划、偏好、信仰等深层次的知识。而这些是不能仅从用户感兴趣的领域(即基于内容的过滤)得到的。社会过滤系统也存在着一些缺陷:因为用户的目标、职业、经验、时间限制等不同,即使他们对同一领域感兴趣,对待某一信息的态度也不一定相同。
社会过滤系统(协同的和基于属性的)包括建立用户模型的步骤,即为系统提供关于用户的必要知识以便进行适当的过滤。协同过滤系统利用用户之间的相似性知识,向相似用户进行推荐。基于属性的过滤系统包括一个基于用户社会和环境参数的用户模型。由于从社会参数来推知用户的信息需求很困难,很少有系统使用基于属性的方法。
因为用户感兴趣的领域在决定信息的相关性时起主要作用,所以社会过滤一般不能完全满足过滤需求,或是代替基于内容的过滤。实验表明将基于内容的过滤和社会过滤相结合的系统可以取得较好的效果。正在进行的研究从多种途径检验将认知和社会过滤结合在一起的过滤策略。Fab就是结合基于内容和协同过滤的网页推荐系统之一。
1.4按获取用户知识的方法分类不同的信息过滤系统采用不同的用户知识获取方法基于规则的过滤系统利用用户询问方法来定义信息过滤规则。这些系统通常提供一个规则编辑器来指导用户完成规则定义工作。**个实现这种技术的系统是Lens(Malone等学者,1987),它为用户群体提供电子邮件信息过滤。Lens中的规则应用于消息的结构化字段,如发送者、发送日期和主题。规则编辑器为用户提供每个字段事先定义好的一组可能值。
(2)记录用户行为:是一种不要求用户主动参与的隐式知识获取方法。用户对每条信息的反应都被记录下来,以便从中得到信息与用户需求的实际相关度。Morita和Shinoda(1994)发现用户对一条数据的兴趣与其阅读该信息的时间有关。
协同过滤系统GrmipLens(Konstan等学者,1997)的实验发现,阅读时间是相关性的一个指标。该系统为了推知用户模型,除了监测时间外,还使用用户相关性反馈。用户的其他行为,如是否保存、丢弃、打印或发送信息,也能揭示用户兴趣。
Raskutti等学者(1997)在描述用户习惯的基础之上,提出了用户模型的探索式统计方法。采用客户机/服务器结构的VideoOnDemand(V0D)实验服务系统根据用户的长期偏好,通过信息过滤仅提取与用户相关的信息,帮助用户在大量的信息集合中浏览。基于用户习惯,运用探索式统计方法来获得用户模型,并将其用作创建选择索引,然后在线推荐选择出来的内容。系统的新颖之处在于用户模型有两种:否定的用户模型和肯定的用户模型。
(StefaniStrapparava,1999)中,应用了一个处理用户浏览历史的个人代理。系统试图预测网络数据仓库中用户可能感兴趣的文档。用户模型更新机制通过跟踪用户所浏览的网页隐式地运行。系统从用户请求的页面学习、分析、更新用户模型。
1992),用户的参与度*小f2°。为那些用户以前判断为相关的文档创建一个文档向量空间。任何新来的文档都要与空间内已存在的文档进行相似性比较。如果新文档的相似性高于某一相关性阈值,就被认为是相关的。用户不需要定义用户模型,只需评估文档的相关性。这种方法有一个潜在的缺陷,如果初始文档空间中没有包含某些领域,就可能出现对用户兴趣的持续偏见。
(Lang,1995)要求用户评估文档的相关程度、lmellAgent(DesjardinsGodin,2)〖24.这些系统都试图动态地更新,通过尽可能多地学>」有关用户模型的新数据,在用户尽可能少直接参与的情况下优化用户模型。
两种方式的优点。系统要求用户首先提供一些明确的信息,以便可以把该用户和某种典型用户联系起来。隐式推导建立在用户所属的典型上,与关于用户的显性知识互补。典型是用户建模工作中一个基本环节(Rich,1989)。它获取各组用户的默认信息。典型能在很多方面加强用户建模的工作。
例如,在一个用户建模工具UMT(Bmjnik等学者,1990)U6中,典型被用于用户的默认模型。典型(Slereotype)同样运用于用户建模工具1(1<,1990)中,在没有其他可用信息时作为用户建模的初始信息源。
典型推导在信息过滤中有重要作用。它们被用于建立一个初始用户模型或从用户所属的典型中提取对用户模型的知识。虽然典型已被广泛研究并运用于包含用户建模的系统中,但只有少数过滤系统发挥了典型的作用。例如,Kay和Kummerfeld(1995)设计的一个过滤系统,使用过滤的“远端阶段”从大量的数据库条目中定位潜在的相关信息。“远端阶段”过滤是针对用户典型而不是单个用户进行的。在过滤的“本地阶段”中,用户模型与在“远端阶段”选择出的信息进行更精确的匹配。对于一组用户来说(在“远端阶段”)应用同样的过滤器,减少了单个的过滤时间,所以典型推导被用于提高效率。
2信息过滤系统的概念、构件和技术2.1信息过滤系统的一般模型一个信息过滤系统包括四个基本组成部分(见图(1)数据分析部件(a):从信息提供者处获取或收集信息(例如文档、消息),将信息进行分析并以适巧的数据形来表示。表示结果将被输人到过滤部件(b)中。
(2)过滤部件(b):信息过滤系统的核心。将用户模型与信息进行匹配,从而决定一条信息与用户是否相关。有时,决定信息是否相关;有时,决定信息相关度。有时,过滤程序应用于一条单独的信息(如一个新来的电子邮件消息);有时也被用于一组信息(如文档集合)。获得过滤结果的用户是信息相关性的*终决定者。用户的评估可以进一步反馈给学习部件。
(3)用户模型部件(<:显式地或隐式地收集用户的信息需求,并构建用户模型。用户模型也被输人到过滤部件中。
(4)学习部件(d):提供更好的过滤模型。由于建立和改变用户模型的困难,过滤系统必须包括一个学习部件,发现用户兴趣的变化,并通过强化、弱化或取消现存有关用户的知识,来更新用户模型。否则,不精确的用户模型将影响过滤结果。
实现信息过滤系统可以采用多种方法和技术,其部件之间通常也是相互关联的,所以单独描述每个部件的实现技术是没有用的。我们分两个部分来信息过滤实现技术,分别是基于统计的信息过滤系统和基于知识的信息过滤系统。
2.2使用统计学理论的过滤系统使用统计学理论的系统通常将用户模型部件实现为一个索引词的加权向量。过滤部件实现一套统计算法,用于计算用户模型向量和文档向量的相似性。求用户模型向量与文档向量的夹角余弦是*常用的算法。如果要评估大量信息,将通过计算每个信息的相似性系数来进行加权排序。其他继承自信息检索领域的排序算法也可以用于过滤系统。
统计学过滤系统中的学习部件利用用户的反馈来更新他们的用户模型。学习过程采用信息检索方法进行用户模型更新。在信息检索中,通过处理学习用户的相关性反馈,来使新的提问更好地代表用户需求(Frakes问词。但是在信息过滤中不更新提问式,而是根据用户的相关性反馈更新用户模型。
2.3基于知识的过滤系统-based)和语义网络的过滤系统:利用规则来表示用户模型。每一规则都能表示用户的信息需求或信息过滤模型。例如,在电子邮件消息中,规则被定义和应用于出现在消息头部的字段(即发送者、发送日期和主题)。根据这些字段的价值,规则可能包括有关如何处理消息的说明。如果一个电子邮件的发送者没有出现在某一事先定义的表中,该邮件就会处于一个相对低的等级;如果邮件是关于某一主题的,消息就处于一个高等级。这些技术都被应用基于规则的过滤系统的过滤构件由一组应用于信息过滤的规则组成。如果规则被满足,那么系统就会开始运行。规则命令过滤构件将信息滤掉或保留下来。如果新来的信息是半结构化的,那么就将规则应用于信息的结构化部分。然而,如果新来的信息不是结构化的,就必须用系统的信息分析构件作必要的推导。定义规则以及对非结构化数据进行推导,都是很困难的。所以,规则能相对容易地应用于半结构化信息,如电子邮件的结构化头部信息。其他情况下,可以应用自然语言分析I:具。
基于规则的系统存在的问题是,随着时间的增长,过滤器中包含的规则逐渐过时,必须要配套规则更新部件。因此,CaiseedesDepotsetConsignations(CDC)的新闻代理中基于规则的系统开发了一种自动发现过时规则的方法(Wolinski等学者,2000)。通过应用一种基于学习的过滤器,管理者不用再手工调整规则。其思想是通过与没有使用过滤器处理的、通过别的方法定义好的相关或不相关的文档比较。来监督基于规则的过滤器。
1999)通过跟踪用户浏览页面来进行隐式更新,使用WordNel(2000)语义辞典,并用WebUserProfing(WUP)代理建立一个语义网络。WUP代理将用户模型作为一个语义网,其结点是概念,弧是两个概念的共现关系。每个结点和每条弧都有一个反映用户兴趣的权值,根据用户的浏混合了基于的爬山方法、用WordNet基于知识的概念表示和通过索引模型的部分解析。WordNet构件通过对文本的概念的理解而达到更高查全率,但准确性较低,除非通过附加索引模型而采用更精确的定义来减少错误。
(2)神经网络过滤系统:神经网络是一个相互联系的单信息检索技术元的集合,这些单元具有处理的能力,关系松散,类似动物神经结点(Gurney,1996)。神经网络的处理能力存在于单元之间联系的强度,通过训练模式学习处理能力,可用于模式识别和分类、联想记忆和功能优化。
神经网络也可用于信息过滤系统,用户模型用随着训练而修改的不可见联系来表示。新闻组阅读过滤系统BROWSE(JenningsHiguchi,1992)采用神经网络模型来对文章的相关性进行等级划分。神经网络模型形成(不一定是文本中相临的)词之间的联系,捕捉词间的联系,甚至是并未出现在某一特定文章但仍与主要概念有关的词。经过等级划分的文章,根据阈值进行过滤。BROWSE的一个子程序(称为snooze)负责更新神经网络模型,在每个阅读阶段用户评估检索的文章之后运行。
(3)进化的基于遗传学算法的过滤系统:信息过滤利用向量空间模型来表示文档。在此模型中,将一个基因表示为一个术语,一个个体表示为向量空间中的一个文档,一个团体表示为一个用户模型。一个合适的客观功能就相当于自然选择过程来决定是否更新用户模型(DesjardinsGodin,2000)来实现。相关性反馈将通过直接修改词的权值来影响未来的检索。遗传学部分动态地将词增加到用户模型中,并修改反文档频率的值。智能Agent应用于TREC-6集合时,这一领域的尝试获得了满意结果。
2.4信息过滤系统的用户模型(1)获取用于建模的数据:隐式的获取方法通过某种观察来进行推导。观察用户行为(时间消耗、活动)(MritaShinoda,1994;ThomasFisher,1996):4‘36或去侦察用户环境(如书签或访问的URL)(StefaniStrapparava,1999),这是由于用户通常不想被打扰(Avery等学者,1999>.通过观察用户、侦察情况变化来更新用户模型。商业性系统所使用的过滤器通常是隐式推导,如Amazon(2000),在用户不知道的情况下为用户模型收集数据。由于隐私权问题,多数用户不愿与显式推导合作。所以,隐式获取就像缺省设置一样运行,而不必得到用户的许可,而用户可以点击浏览器的显式获取方法,通过获取对过滤结果的反馈来与用户交互。当获取信息的精确度的要求强于用户方便性、自动推导不是足够精确时,就采用此方法(axd,1998)要求显式的来定义“用户模型”。一种更明显的方法是允许用户看和直接修改系统用户模型。这一设计让用户在系统的持续发展中处于更主动的地位,有利于提高模型的准确性,但有过载。34的风险。
(2)模型中所包含的数据:信息过滤系统的用户模型的内容存在两种主要类型。在商业性运作模型中*常用的称为用户兴趣的“浅语义”模型(JenningsHiguchi,1993)来表示“概念用户”,或通过典型推导(Shapim等学者,997),但用户关注的是隐私问题,收集想要的数据的技术及其实施都很复杂。
(3)底层构架:受用户干预的程度和数据本身性质的强烈影响,向量空间和LSI*常用于显式推导,而代理系统或神经网络通常用于自动推导模型。“概念用户”模型通常使用基于智能的构架来实现,而“系统”则使用基于统计的系统。
2.5信息过滤系统的学习模块①通过观察学习:将导致动作(即保留或者抛弃信息)发生的条件记录下来。当新的情况出现时,就与已知的情况相比较,从而决定触发或建议采取某种行动。在过滤状态下,系统可以观察用户对不同信息的行为,从而将新的信息与已知的进行比较,从而建议对新信息采取某种行动(即保留或者抛弃)。
E44‘453描述了一种为用户收集日常新闻的系统。他们提出:“在信息检索界远未受到重视的是:用户的信息需求会随着得到的信息而发生变化”。有两个为新闻分类自动归纳用户模型的主要论题:**,建立一个包含了单独用户的长期兴趣模型和短期兴趣模型的混合模型。第二,用户模型跟踪已经呈现在用户面前的信息。该系统试图成为一个智能广播的一部分,使用合成语言为用户朗读新闻。用Ribeiro-Neto,1999)、准率和全率进行了评估,发现精确性、分类的准确性和检索效果都有很大提篼。
通过反馈学习:用户直接或间接地提供反馈。直接通过告诉系统如何在相似的情况下行动;间接——通过提供反馈信息(如信息的相关性得分)。在过滤时,系统通过对用户反馈的学习,来预测新信息的相关度,如用户的“概念”反馈(Billsns方面原因造成的:**,信息检索界更加关注检索结果的正确性、检索系统的查全率和查准率(Su,1991)。第二,对于自适应过滤系统(即系统根据以前的过滤结果对用户模型进行更新)如何评估至今还没有达成共识(Hull,1998)指出,系统性能的分析模型使用“一套方程来描述系统行为,并且用数学方法推导出系统性能的特征量”。由于对信息检索和信息过滤系统改进的程度越来越小,一种系统要想比别的系统优秀变得越来越困难。分析模型可以预测一种系统的性能和效率(例如,一种方法的可靠性,学习的速度有多快)。可是,开发信息检索和信息过滤系统分析模型需要高超的数学技巧,而且,过滤系统变得越来越复杂,因此,开发分析模型更加困难。
3.2过滤系统的评价尺度(1)简单的查准率和查全率:评价信息过滤系统主要还是用查全率和查准率,尽管研究人员怀疑其适用性(Hull,整的数据集,而实际的过滤系统都自动地略去了不相关的数据,因此完整的数据集合是未知的,所以不能在真正的过滤系统上应用这种方法。
(2)统汁手段:这类方法中*流行的是相关性(*常用的是Pearson相关性)尺度。其中的用户评价和系统评价是相关的。例如,SIFTER就是使用这种方法通过模拟实验评价的(Mostafaetal.,1997)。还有?原型系统(Shapira等学者1997;1999)8'9'52,通过实验评价和模拟评价相结合的手段评价系统的有效性。他们让十个用户评价收到的电子邮件的相关程度(每个用户评价200个信息,使用7分制)。然后,系统计算使用不同过滤策略的相同信息的相关程度;通过比较系统评价和用户评价之间的相似性来确定过滤策略的有效性。
(3)基于集合的评价方法:一个信息过滤系统必须接受或拒绝一个被评价的数据项,这应该与数据输人的次序无关,而只是与相关程度有关。这意味着,基于一套分级排序的输入数据的评价手段是不准确的(例如:平均查准率)。实际上,TREC的设计者建议使用两种基于集合的方法:效用(Utility)和平均集合查准率①Utimy赋予文档一个效益和成本值,基于此来判断是否检索出该文档。
其中,R+:相关并被检索出的文档数;N+:不相关被检索出的文档数;R-:相关没被检索出的文档数;N-:不相关没被检索出的文档数;A、B.C、D是确定归人某一类的相关的收益(如果可能的话)和成本的参数。因此,检出文档集合的效用是一个函数,有检出的相关的文档的效益和检出的不相关的文档的成本,参数的设置决定了相关的对效益和成本因素的强调。效用值越高,过滤系统的性能越好。
在对过滤的研究中(TREC-6),研究人员根据两种不同的效用参数对过滤系统进行了评价,这两种不同的参数是F1和F2:F1=(3*R+)-(2‘IV+索到文档返回0分;而在F2中,没有检索到文档返回负分。研究人员发现,对于不同系统,根据F1和F2的评价结果却是一样的。
②ASP用于评价那些对检索结果不排序的系统。
对检索结果为有序集合的系统的评价必须考虑检出项的分值。
要计算平均连续查准率(AUP),必须先计算一个特殊的“查准率”,即检索出的相关的文档除以到这个点以前检索出的文档数目。AUP的值等于所有打分后的查准率的和除以所有相关文档的和。
可是,对TREC定义的过滤系统来说,需要评价检索结果为无序集合的过滤系统的方法。这种手段必须基于检出项的完整集合。因此,他们定义ASP=准率*全率。这里的全率和查准率是对检出项的完整集而言的(而不是每个分值段的查准率)。
y和ASP都不够理想。当已经检出很多数据项时,用户凭直。35信息检索技术觉认为新数据没有以前的重要,但是Utility认为所有的检出数据项对主题来说同等重要。因为Utility值受到相关文档数量的影响,当采用拥有较多相关文档的主题进行评价时,即使过滤系统的性能并不好,其值也会高些。对每个主题来说,用户希望有不同的Utility函数,但为每个主题管理这样一个函数是不现实的。假设有两个系统都没有检出相关文档,但是一个检索出了不相关的文档,另一个根本没有检索出文档。两个系统性能的ASP值都是0.但根本没有检索出文档的系统的性能应该被认为较好。因为过滤系统的目的是检索出相关文档,过滤掉不相关文档u在一t系统没有返回相关文档,但相关文档又的确存在的时候,ASP是令人怀疑的。
(4)面向用户的手段:评价过滤结果是主观的。由于不同用户对“相关”有不同的认识,查准率和查全率并不总能反映用户的满意度。为了解决这个问题,人们提出了覆盖率。R是相关文档,1是查询,A是结果集合。我们定义U是R的一个子集,是用户知道相关的文档数量。文档集合Rk,是A和U的交集,表示检索结果中知道与用户需求相关的。覆盖率被定义为用户知道的文档被实际检索出来的比例。覆盖率=IRkl/IUI.当系统有一个高覆盖率的时候,用户检索出了更多他期望的文档。
并且还考虑检索出来的用户不知道的相关文档的新颖度。我们定义Ru是检索出来的用户不知道的相关文档。新颖度=IRul/(IRul+IRkl)。高的新颖度代表着系统检索出许多用户以前不知道的新文档。
4未来展望4.1用户建模对过滤系统来说,用户建模是一个关键环节,因为过滤的主要目的是根据用户模型判断数据项与用户需求的相关度(StadnykKass,1992)。用户模型的不准确,将会直接导致过滤结果的偏差和错误。可是,用户建模非常复杂,用户的需求依赖于许多参数(如用户的瞬间需要、心情、工作负担、动机等),但这些参数很难集成到过滤模块中。因此,建模工作必须尽可能多的知道用户的相关知识。这些相关知识的确定必须和行为学家协作才能完成。可是,大多数的过滤系统只依靠用户的兴趣领域来计算相关度。原因是这样用户兴趣的表示比较容易实现(用一系列的语和术语),而且它们对数据的相关性也的确影响很大。然而,兴趣领域不能代表用户的准确需求。将来的过滤系统的研究应该强调整合多种用户建模方法对用户描述。我们将来会看到整合了基于内容、协同和基于价值的用户建模方法。
而且,我们必须意识到即时更新的重要性。每次过滤以后,用户模型必须跟着更新。Hull和Robertson(2000)提出词汇出现——致法,假设同时出现的词汇比别的词更加有价值。
另外,每个过滤系统有必要包含一个学习系统。因为系统用户建模的准确性是值得怀疑的,而且用户的需求会随着时间改变,根据用户的反馈自动学习的过程是必须的。格式化查询和跟踪查询的变动对用户模型的建立和更新来说也是非常重要的。
4.2过滤技术当开发一个过滤算法的时候,避免过度过滤是一个基本问题,即使保留了一定数量的不相关信息。Foltz和Dumais(1992)研究表明:集成几种过滤方法的过滤效果会好一些。别的类似研究也得出了相似的结论(Kautz等学者,1997分析将来的研究方向,可以看出将来的主要研究领域将会由智能代理、可视化技术、用户行为暗示的多样性、多媒体数据库的过滤等创新概念的组合构成。经典的过滤技术将来可能会集成在系统中,作为部件或者小包实现。
4.3评价标准化目前,标准的评价过滤系统的方法还不存在。可是,因为过滤系统的不可靠性,开发能公正评价过滤系统的标准方法这将会阻止那些差系统的流传,减少用户的不信任,对过滤系统的发展是非常有益处的。
分析评价看起来很重要,主要因为它引人了文档质量评分的形式化方法(Lsee,2000)。虽然这只是个简单的开始,但必须看到科学真的是以形式化和分析为基础的经验研究的综合。Tree-8(HullRoberstong,2000)中*近关于对比效用和别的方法的讨论说明了这个问题的重要性。像ard(1997)⑴描述的那样:“查全率、查准率和散落率……依赖于主题相关性的标准判断,主题相关性又刚好从属于用户个体的特性,个体特性正是协同过滤利用的资源。”效用“的概念就是利用这种对个体用户需求特性的依赖。但是,因为效用是用户和文档之间的关系而不是一个文档和一个主题之间的关系,预先评价对效用来说是不可能的。
写。)
(完)
- 同类资讯
-
安吉尔集团副总裁赵凯:黄金钙镁比控制技术破解2026年04月14日 14:42
-
艾蒙斯特朗流体系统任命Danilo Elez为首席执行2026年04月02日 11:26
-
真高速、真矿水、真场景:安吉尔闪耀AWE2026,2026年03月13日 13:36
-
安吉尔38年深耕筑牢安心防线,打造净水行业品质2026年03月09日 16:49
-
三甲医院的“用水革命”!安吉尔集中分质供水系2026年01月28日 13:41
-
荣膺行业“高端品牌”,安吉尔以系统性解决方案2026年01月28日 13:40
-
2026 马跃新程 爱森集团新春贺词2026年01月20日 15:17
-
告别“细菌水”隐患!安吉尔哪吒®7 天保鲜茶吧2026年01月14日 08:07
-
科技引领韧性水未来:安吉尔闪耀2025 IWA水与发2025年12月15日 14:47
-
油水分离器发展现状及应用前景2025年12月11日 08:30






鲁公网安备 37030402001207号



