网络标注的主要方法概述

时间:2020-08-21 12:22:27 计算机网络毕业论文 我要投稿

关于网络标注的主要方法概述

  [论文关键词]大众标注 语义标注 本体
  [论文摘要]
认为标注对于检索至关重要,网络标注在网络资源海量的今天更是如此。介绍网络中标注的方法:元数据标注、聚类标注和分类标注,并对大众标注和语义标注进行详细介绍。最后对这些标法方法进行比较分析及评价。

  
  在网络信息爆炸的今天,让用户检索到需要的信息至关重要,因而网络中标注显得尤为重要。目前对于标注的定义大家没有统一的说法,但是本质上都是一致的。概括来说即通过对文献进行主题分析,识别其重要特征,赋予确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。标注的质量,对文献的检索效果有直接的决定性影响。标注的类型从不同的角度划分有无数据标注,聚类标注,传统网络的分类,Web2.0中的大众标注,语义标注等。
  
  1 几种主要网络标注方法
  
  1.1 一些传统网络标注方法
  1.1.1 元数据标注传统上元数据的创建有两种方法专业人员创建和作者创建。第一种是指在和其他组织中最初创建的元数据,大多为编目记录或由精心挑选的复杂、详细的规则集和词汇;第二种方法是指作者创建的元数据,表现为作者标注的文档可由SGML、万维网,都柏林核心集表现出束。
  1.1.2 聚类分析聚类分析是将事物按其某些属性的相似程度归至各个群体。传统的文献聚类方法主要有单遍聚类法、逆中心聚类法,密度测试法、图论法等。这些方法大都通过计算文献的相似度,生成待进行聚类分析的文献集的关系矩阵,然后通过分析此矩阵获得文献集的分类。Web文档聚类技术可以缩减搜索引擎的搜索空间,加快检索速度,提高查询精度,因而受到人们的广泛关注㈣。
  1.1.3 传统网络分类法传统网络分类法表现为两种形式:一种是对现有文献分类法实行网络化。目前一些大型万维网站点或搜索引擎均采用现有的文献分类法组织Internet信息资源。如加拿大国家图书馆利用《杜威十进分类法》编制综合性网络目录Canadtan Information by Subject,英国BUBLSub,ject Tree利用《国际十进分类法》编制了覆盖国内综合性网上资源的目录等;另一种是采用网络自编分类法的形式。网络自编分类法是20世纪90年代新兴的专门网络资源分类工具,以Yahoo、搜狐、美国的Excite等为代表的分类系统重视以事物对象为中心设置类目,以超文本的方式反映相关类目,现已发展成为许多门户网站普遍使用的一种模式。
  随着Internet的出现,海量的网络资源使得利用受控进行标注的可操作性变得越来越差,而利用自然语言进行全文检索以其方便、低、效率高等优点获得了全面发展,并很快成为因特网资源检索的主流技术。在专业人员创建元数据、作者创建元数据表现出种种问题情况下又出现了第三种方法;用户创建的元数据,其应用体现在Web2.0中。
  
  1.2 大众标注
  Web2.0的出现为用户带来了真正的个性化、去中心化和信息自主权,它是互联网的一次理念和思想体系的升级换代,由原来的自上而下的由少数资源控制者集中控制主导的互联网体系转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。在Web2.0中人们使用的是基于非受控词即自然语言的标注。在这里用户不仅自己应用创建的元数据,也在社区中分享,这是一种自底向上的标注方法。
  性标签能够从群体用户分类中涌现出对应使用最多的分类,这种通过协同用户单个行为“涌现”出使用最多的分类法,是在大众用户持续使用“tag”的过程中被集体创造出来的,所以Thomas Vander Wal将其命名为Floksonomy(Floksonomy,由“Folks”和“Taxonomy”合成),即集合众人之力产生的社会分类法。Folksonomy可被译为“分众分类”、“大众分类”、“自由分类、“社会分类”、“通俗分类”,我们认为“大众标注”更能反映出“folksonomy”是一种大众性的、自由式的标注。大众标注是一种使用用户自由选择的关键词对网站进行协作分类的方式,而这些关键词一般称为标签(tag)。该方法是大众自发的用标签对网络信息标识和共享的过程,它没有权威、成形的分类文本,而是依据大众日常口头词汇对信息标记,其结果表现为系统的标签云,标签云易于直观地组织信息和共享信息,同时亦因缺乏等级结构、不精确、滥用、同义词等为研究者所质疑。但网民却接受了此种“有胜于无”的方案。
  大众标注法分为宽(Broad)大众标注法、窄(Narrow)大众标注法。宽大众标注法指许多用户可以标注同一事物,而窄大众标注法指只有一少部分用户能够标注同一事物。
  在大众标注法中,非受控词汇有着与生俱来的限制性和缺点:标签“一词多义”的现象就造成了标签的不确定性;同义词的不可控性使得相同的概念用不同的标签标注,这种“一义多词”的现象又造成协作的不便性;单词的不同格式,单复数,也经常用作不同的标签,这种情况在闪亮书签上尤为突出(中文中不存在这种单复数的问题);美味书签和闪亮书签最初设计时只是针对单个词汇的,都不允许标签中出现空格。用户就用多个不含空格的单词组成单个的标签,比如闪亮书签中的“vertigovideostlllsbbc”,有时用户在单个标签中融入层次,比如美味书签中的“deslgn/css”。这两个系统忽略了字母的大小写,这可能导致具有不同含义的标签相同,尤其是在首字母缩写时。这些都是传统分类法中应用受控词汇的原因,但是在像美味书签、闪亮书签这种语境体系中应用受控词汇是不太现实的。
  检索完整性的要求需要词表对词间关系给予全面揭示,具体包括等同关系、等级关系、相关关系等。本体能够表达概念间关系的这一特点可以补偿大众标注的缺憾。