几种信息检索模型比较

时间:2020-08-23 18:51:58 计算机应用毕业论文 我要投稿

几种信息检索模型比较

摘要:对信息检索模型研究的主要内容和构建策略进行了描述,给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点,并就存在的问题进行了探讨,总结了信息检索模型的研究现状和发展趋势。

关键词:信息检索模型;相关性;查询;搜索引擎

Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.And in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article.

Keywords:Information retrieval models;Relativity;Inquiry;Search engine

当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜索引擎系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发,对信息检索模型研究的主要内容和构建策略进行了详细的描述,并给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点及存在的问题,总结了当前信息检索模型的研究现状和发展趋势,其目的在于提高信息检索、查询的性能和效率。

一、构建信息检索模型的策略

当前,构建信息检索模型的主要策略有以下两个:

(一)通用的信息检索模型

构建一个通用的信息检索模型,研究优化的匹配算法,提高查询速度、查全率和查准率,最大程度地满足一般用户的查询需求。

(二)用户兴趣模型

根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型,能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。如google就能推断用户的使用意图,提供动态的、即时的用户“个性化定制”信息,帮助用户快速、准确地定位到所需要的信息。

二、常用的信息检索相关性算法

(一)布尔模型

布尔模型是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎则根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。

 

在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里,首先定义关键词集合S,关键词为t1,t2,…,tn。

这些关键词可以和逻辑操作符AND,OR和NOT形成不同的条件查询。如果得到条件表达式的值为True,该文档相对于此条查询的检索状态值为1;如果若干文档相对于此条查询的检索状态值都为1,则可以认为,这些文档与此用户的查询是相关的`。

布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少。二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如:聋教育OR特殊教育)和词组(如:计算机AND基础AND课程改革)。它的缺点是,由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值,则不能对查询结果按照相关性进行排序;另外关键词也没有考虑权重的影响,缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。

(二)向量空间模型

向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。

在向量空间模型中,信息检索系统如果涉及n个关键词Term,则建立n维的向量空间,每一维都代表不同的关键词Term。首先要建立文本和用户查询的向量,一个n元组的文档向量Di的每个坐标都通过对应关键字的权重来表示,查询向量中的权重表示对应关键词对于用户来说的重要程度。然后进行查询向量和文本向量的相似性计算。并可以在匹配结果的基础上进行相关反馈,优化用户的查询。在知道了文档向量与查询向量后,查询与文档的相似性就可以通过公式(2)求解。

         (2)