1、引言
汉语自动分词和词性标注是汉语信息处理中重要的基础性工作,它与语料库基础资源建设相辅相成,在中文信息处理中起着关键作用。经过将近20 年的研究,自动分词与词性标注技术、语料库的建设都取得了长足的进步,许许多多的系统应用而生;因此,对分词与词性自动标注系统进行公正的评测,将会对这项基础性的工作起到导向性的作用。二者之间有着十分密切的联系, 比如, 切分歧义是汉语分词所面临的一大难题, 其中能用语法知识消解的就约占90%以上,而涉及语义和语用知识的切分歧义则很少,另外,词性标注的质量高低直接影响着自动分词的效果好坏。
2、汉语自动分词
2.1 定义和产生原因
所谓的自动分词就是把连续的字串分割成词的序列。从处理过程来看,把自动分词可以看作是用计算机自动识别文本字符流中的词并在词与词之间加入明显切分标记的过程。
词是最小的能够独立运用的有意义的语言单位,英文单词之间以空格作为自然的分隔符。汉语是以字为基本的书写单位,词语之间没有明显的区分标志,计算机不能通过英文句子之间的空格方法区分汉语词,否则可能会出现错误。
如汉语中“学生”整体是一个词,但计算机不容易理解“学”和“生”两个字合起来才能表示一个词,为了解决类似的问题,中文分词技术应运而生。
2.2 自动分词的分词方法
关于分词方法,苏联学者最先提出了关于“ 6-5-4-3-2-1”的思想,这种方法中的匹配思想成为后来许多分词方法的基础。目前,汉语自动分词方法不下二十种,例如,最大匹配法、知识分词方法、链接法,在参考众多文献的基础上,综合各家之言,大体上可概括为四种类型:基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中基于词典的分词方法具有算法成熟,易于实现的特点,目前是使用最普遍切分方法;基于统计的分词方法由于有的歧义切分能力和低频词识别能力,受到越来越多的研究人员的重视,发展较快,但在实际使用中,很少单独使用,一般都与基于词典匹配的信息进行更多的处理,因而加大了实现的难度;基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。
2.3 自动分词研究现状
经过十几年的研究,汉语自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,如:北京航空航天大学的C D W S分词系统,这些系统在分词的精确度和分词速度方面都具有相当的水平,并在一些中文全文检索系统中得到了应用。中文自动分词技术取得了可喜的进步,具体表现在:
“词”是否有了清晰的界定。原来很难精确定义的“词”,现在可通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,界定出词语的边界,这是实现计算机自动分词和可比评测的基础。
未登录词对分词精度的影响。对交集型歧义字串进行的大规模语料库调查,明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识,都是近十年来分词研究的重大收获.
基于字的分词新方法.过去的分词方法大都依赖于一个事先编制好的词表或词典。自动分词过程就是通过词表和相关信息来做出词语切分的决策。基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。这种方法的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。
2.4 困难和问题
尽管汉语自动分词取得了重大进展和突破,但仍有大量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词,至少会遇到以下一些困难:
(1) 中文原本没有词的概念 ,至今也没有统一的词的确切定义。汉语词与词之间既没有西文那样有明显的分隔符,也没有日文那样丰富的词尾变化。
(2)汉语迄今为此仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。
汉语无标准性的词法、复杂性的句法、模糊性的语法与多样性的语义,如汉语中大量存在多义词、同义词、词性变化、词义转借等现象,使汉语表达具有很大的灵活性,所以任何人都都很难对它进行完备的总结。
(3)中文构词方法的多样性和句法的“意合”性等特点也是造成自动分词困难的重要原因。中文造词的原料,不仅有字,而且有词、词组。造句的方式有以字造词、以词造词,甚至压句成词。如果没有语法、语义知识或语境的帮助就很难对有些句子进行正确切分。
(4)语音中所蕴含的部分有用信息在书面语中无从体现。
(5)新词在不断增加,如人名、地名、新产生的词、外来词等日益充实着汉语词汇。
但最重要的困难还是歧义切分和未登录词的问题。歧义切分有两种类型,一种是交集性切分歧义,另外一种是组合型切分歧义,如汉字串“将来”是一个词,其中“将”和“来”也可以单独成词,这就涉及到如何切分的问题。组合型歧义是切不切开的问题,交集型歧义是切在哪里的问题。未登录词即是指未包含在分词词表中的词,包括各类专名(人名、地名、企业字号和商标号等)、某些术语、缩略语和新词等,由于专用术语繁多,新名词、新概念层出不穷,这些词一般很难全部收录到词典中,但这些词往往在一定时期内呈现较高的检索概率。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的准确性。
对于分词的歧义处理,目前已经进行了比较深入的研究,人们通过统计和规则相结合的方法,使得歧义字段的正确切分达到了较高的水平 ,同时也认识到歧义的解决需要细致的个性化的知识积累,对不同类型的歧义要有不同消歧方法,同时研究汉语的构词规则,增强歧义判别能力;另一方面,无论词表规模多么大,未登录词语的存在是必然的。因此,与分词的歧义处理相比较,未登录词语的处理成为影响分词精确率的最主要、最直接的因素,这也是当前的一个研究的难点和热点。
3 、汉语词性标注
3.1 基本含义和标注方法