自然语言检索中的概念控制

时间:2020-10-17 13:27:33 教育毕业论文 我要投稿

自然语言检索中的概念控制

自然语言检索是信息检索中的一个类型。随着互联网的普及和发展,信息检索的最终用户日趋扩大,自然语言检索成为重要的发展趋势。
目前,自然语言检索系统采用的是模式匹配技术。所谓模式指的是关键词或索引词汇。模式匹配技术处理速度快,简单易行,但也有缺点。自然语言检索系统对同义词、近义词、多义词和其他一些与其相关的词语没有进行规范和统一,词间缺乏有机的联系。当用户提问的检索概念具有多种表达形式时,采用单一的关键词或自然语言索引词匹配方式势必会影响检全率。自然语言检索系统的选词没有严格限制,词量过多过杂,这样会影响检准率,并且会过多地占用磁盘的存储空间,影响查询匹配的速度。要想解决这些问题,必须对自然语言查询做进一步的处理,也就是进行概念控制。

  1 概念控制及其实现基础

1.1 概念控制的目的
概念并不是孤立存在的,一个概念总是与其他概念之间存在着各种各样的关系,如上下位关系、同义关系、反义关系等。关键词也会出现一词多义、一义多词以及同一事物多种表述的情形。根据概念之间的相互联系,在词的概念含义层次上建立联系,为检索用户提供相关的结果分析是概念控制的一个应用前景。例如,“体育”这一概念根据上下立类的关系可以细分为足球、排球、奥运会、亚运会等,单纯的字面匹配会漏检甚至误检很多与之相关的信息。通过概念控制就可以将一个上位类的概念扩展为多个子概念。体育新闻的检索就可以扩展为:体育新闻、球类(足球、篮球、排球)、田径运动、体育赛事(奥运会、亚运会、世界杯)等概念,同时对那些具有下位概念的词汇可以再次扩展,这样就大大地提高了检索效果。“计算机”和“电脑”是同一事物的不同表述,机械匹配的话就只能检索到有关“计算机”或“电脑”的信息,采用概念控制的相关方法可以将这些相同概念的词汇统一到检索匹配中,这样就扩大了检索面,提高了检全率。在自然语言检索系统中进行慨念控制,就是把信息检索从目前的基于关键词层面提高到基于知识(概念)层面,能够从概念意义层次上来认识和处理检索用户的请求,从而提高检全率和检准率。
1.2 概念控制的主要方法
目前虽然没有一个检索系统可以完全实现理想状态下的高层次的语义检索,但有些自然语言检索系统已经采用概念控制查询。主要的方法是利用知识体系建立概念间的关系进行查询扩展,深度匹配,优化检索效果。
概念控制的内容包括:提问句概念语义块的抽取,从提问句中切分出概念词或词组等语义单位;基于知识体系对抽取出的语义单元进行概念扩展;概念的组配,将选择出的各检索单位基于知识体系的组织信息转换成体现概念关系的逻辑表达式。
概念抽取不等同于分词处理,其中包括普通概念的`识别和人名、地名、事件名等专有名词的识别,并进行概念提取。对于普通的概念字串采用逆向最长匹配算法(或正向最长匹配算法),并综合切割标记等分词手段切分就可以进行概念抽取。对于词典中未收录的概念词,可以采取基于句模、句子结构分析、词和词组构成规则、句内结构性标志字、标点符号等来进行切分。除切割标志外,已知的词也可作切割标记使用。
自然语言检索系统的本质是查询满足特定主题概念的文本,因此被检索的内容不是和提问句的字面匹配。对提问进行分析后抽取出的主要是概念或概念的组合,需要进行概念匹配,这就需要对检索句中的词进行概念扩展,即考虑提问句中词的同近义词、上下位词和关联词。可以通过知识体系保存同近义关系、上下位关系和其他关联关系,当处理用户检索需求时,通过查询知识体系可对提问句中的词按概念进行扩展。如“我国今天的体育新闻”,可以通过知识体系对“体育”进行扩展,查询包括“篮球”、“赛车”、“奥运会”、“世界杯”等方面的内容,“今天”一词指检索者进行检索时的日期,因此需通过规则将“今天”映射为检索时的时间,将“我国”扩展为“我国”V“中国”V“中华人民共和国”(知识体系中可能只存在“中国”和“中华人民共和国”之间的同义关系,没有“我国”这一词条)。