浅论我国年鉴全文数据库的现状和改进策略

时间:2023-03-06 05:20:15 公共管理毕业论文 我要投稿
  • 相关推荐

浅论我国年鉴全文数据库的现状和改进策略

  论文关键词:年鉴全文数据库;数字化年鉴;中国年鉴资源全文数据库;中国年鉴全文数据库

  论文摘要:年鉴全文数据库是新兴的数字资源,是教学、科研、生产、乃至决策中不可或缺的工具。本文了目前我国两个大规模年鉴全文数据库的收录情况、销售策略、检索性能、结果处理能力等现状,认为年鉴全文库尚存在的信息时滞较长、检索性能不能很好体现年鉴特点、检索结果后处理能力不强、个性化服务欠缺、信息整合层次单一等问题,并提出了改进策略。

  1 序言

  年鉴作为覆盖面广、信息密集、事实性强、连续更新的资料性工具书,有着其他工具书无法比拟的优势,是重要的信息源之一。在我国,大规模的年鉴全文数据库的开发走在了世界的前列,它多角度地揭示了年鉴内容,大幅提升了信息的序化程度和检索性能,实现了跨年鉴、跨年卷的整合检索,为用户查考年鉴信息带来了很大的便利。

  但是,从用户的需求出发,年鉴全文库在更新频率、检索性能、结果优化等方面都有待进一步提高。尤其在当前数据库、报纸全文库产品已占有,“搜数”后来居上,第三代搜索引擎新功能叠出的形势下,年鉴全文库如果不做出自己的特色,将被湮没在重围之中。

  2 我国年鉴全文数据库的概况

  2004年5月,北大方正(Apabi)公司与中国年鉴研究会合作,开发出我国首个大规模的年鉴全文数据库产品——“中国年鉴资源全文数据库”。随后,金报兴图的《年鉴全文数据库》和中国知网(CNKI)的《中国年鉴全文数据库》都相继推向市场。2007年金报兴图的年鉴全文数据库被方正合并,因此,当前我国的大规模年鉴全文数据库仅Apabi和CNKI两个。

  Apabi的年鉴全文库共收录年鉴近600种,5300多卷(截至2007.10)m;CNKI的年鉴全文库目前提供检索的年鉴共1301种,约8000卷(截至2007.11.21)t副。它们收录年鉴的类型分布如表1所示:

  两大数据库的销售方案也有所不同,Apabi可以按需选购年鉴品种,而CNKI则把所有年鉴打包销售。

  3 年鉴全文数据库现有功能分析

  目前两大年鉴全文库都打破了印刷本年鉴的固有结构,突破了电子书传统的浏览模式,实现了跨年鉴、跨年卷、以条目为单位的整合检索,一定程度体现了年鉴资源的特点,检索系统也更符合用户利用年鉴的特征。

  3.1年鉴整刊导航

  年鉴整刊导航应当完整、有序地揭示数据库收录的年鉴品种,并提供收录年鉴品种检索、选定年鉴中条目检索的功能。目前两大数据库的年鉴整刊导航功能如表2所示。Apabi特别列出了长三角、黄河流域等专题年鉴品种导航,并专列了“发展报告”类。在整刊全文浏览功能中,Apabi除提供网页文本格式的原文外,还提供原书版式文件全文,以便读者核对重要信息,避免文本误录人造成的影响。

  3.2检索性能

  两大年鉴库都提供初级检索与高级检索途径,CNKI还设置了专业检索。它们具体提供的检索字段、条目类型限定及可用检索技术如表3至表5所示。

  3.3结果处理功能

  结果处理功能是系统检索功能的延伸和补充,强大的结果处理功能可以使用户快速筛选信息,便捷地扩展相关信息,有事半功倍之效。目前这两大数据库的结果处理功能如表6所示。

  3.4全文显示格式

  CNKI的年鉴文本、表格和图片均为PDF格式,不便于用户下载利用表格和图片。Apabi的年鉴文本都为纯文本格式,表格目前部分年鉴的表格为Excel格式,其他表格均为JPG格式,图片是具原图色彩的JPG格式。

  4 年鉴全文数据库存在的问题与改进策略

  针对年鉴信息的特点,结合信息裣索技术,当前的年鉴全文库还有不少问题有待改进。

  4.1信息及时性有待加强

  信息的及时性是年鉴全文库在内容上保持吸引力的要素之一,包括年鉴新品种的及时收录和年鉴信息的及时更新两方面。但遗憾的是,目前年鉴全文库通常信息时差总要在印刷版出版后半年以上。

  增强信息的及时性,一方面要把新出版的、质量较好的年鉴新品种及时增加到数据库中,如《中国企业年鉴》等;另一方面,对已收录的年鉴应及时更新信息,缩短信息时滞。数据库应与年鉴社充分沟通,最好在年鉴编纂完成、付印之前,就直接把数字化的新信息倒人数据库中。尤其是对一些数据、图表、事件、动态等时效性较强的内容,年鉴社可能每隔半年或一季度就会收集新的数据,数据库应随时将这些新收集齐但未正式出版的信息转人年鉴库,并通过设置“最新更新”栏目、RSS订阅等功能,及时告知用户更新信息。这样就可以在第一时间实现信息的动态更新,把年鉴信息的年度性提升到动态性。

  4.2检索性能应更契合年鉴的特点

  目前年鉴全文库的检索系统基本上是仿照期刊全文检索系统开发的,只是增加了一些针对年鉴的字段和信息类型限制,这还不足以体现年鉴信息的特点,与读者的检索需求尚有一定的距离。近年来,包括自动摘要、自动分类、相似性检索乃至视频与图像内容检索的内容挖掘技术成为新的发展热点,年鉴数据库急待引人这些技术,而这些技术的基础则是对数据特征的详尽标引。

  因此,数据库首当其冲的是应针对不同类型的信息作更为详尽的标引,设定不同的可检索字段,以便为进一步的内容挖掘打下基础。例如,对机构名录信息应根据其属性要素,对机构名、法人、电话、传真、地址、邮编、e—mail、所属地域、机构性质、单位简介等进行标引;对人名录则主要包含人名、性别、生卒日、籍贯、工作单位、部门、职务、职称、、人物类型(先进、领导、专业奖项获得者等)、从业类别等属性的标引;对大事记部分,现有的年鉴全文库都是不加分割地作为完整的文献单元处理,连最简单的检索某日各地发生的重大事件都不可能,因此应以独立的事件为单位,用数据库的结构提取时间、地点、所属地域、事件内容等相关信息提供检索,并按单独的事件为单位输出检索结果,而不是输出整篇大事记的全文;对法规类信息应提取其特有的法律法规的级别、颁布部门、颁布年、实施年、发文号等属性供用户检索;对图像应建立基于图像内容的索引库,提供图片内容特征的搜索;对表应进行统计指标、表头的标引,甚至有能力的话,还可以加强对统计表的标准化处理,提供具体的数值检索,充分体现数字信息检索的优势,发挥年鉴统计数据的价值。同时,系统应在详尽标引的基础上,对以上信息类型设置专类信息检索功能,提供针对各类信息的检索字段,提高信息检索的精准度。

  4.3检索结果后处理能力不强

  (1)年鉴全文库现有的二次检索没有提供算符的选择,只能进行逻辑“与”的二次检索,这不便于用户进一步调整检索策略。

  (2)对于年鉴全文库而言,由于条目数量巨大,检出记录数往往较多,因此特别需要对检索结果作进一步的分面和聚类。但目前的年鉴全文库都没有提供检索结果分面功能。所以,年鉴全文库应当按结果的信息类型、所涉地域、条目年份、所属年鉴、行业、学科等维度进行分面,供用户选择合适类别的结果浏览,这样既使大量检索结果序化,又可减少读者筛选结果的时问。

  (3)现有年鉴全文库的统计表基本都是格式或PDF格式,数据导出灵活性不够,用户对统计表数据的再处理非常不便。数据库应对所有统计表格以Excel形式录入并提供导出接口,并可以进一步利用ASP、JsP等动态网页生成技术,根据用户需求,以交互互动的方式输出数据,实现统计表与统计图动态转换的数据可视化,为用户提供深加工的统计数据,简化用户后续处理的过程(这些功能在国外的Knovel工具书数据库中已经实现)。此外,在Excel表格显示地同时应提供原表格的图片格式或PDF格式的链接,以供读者核对数据,保证准确性。

  (4)检索结果中条目所属栏目标注不够完整,仅标注了栏目,没有标注其上级类目,用户很难找到该条目在年鉴目录体系中的准确位置。因此必须完整标注出该条目在年鉴原有框架结构中所属的篇目>类目>分目>栏目(如:上海年鉴>>教育>高等艺术教育),并分别对年鉴名称、篇目、类目、分目、栏目制作超链接,指向与纸本年鉴框架结构一致的年鉴目录导引下的全文浏览,便于用户利用年鉴目录体系调出相关内容浏览。

  4.4个性化服务功能欠缺

  在个性化功能上年鉴全文库还很薄弱,CNK1只提供了检索的浏览,Apabi则只提供条目的收藏,尚缺乏其他服务。由于年鉴资料连续性的特点,用户往往需要对密切关注领域的特定资料作跟踪收集。这就需要数据库开发针对用户个体需求的个性化服务,这些服务包括特定年鉴品种、年鉴的栏目、检索策略的RSS订阅,定题跟踪,我的检索集设定等功能,这样用户就可以在第一时间获得由系统自动推送来的最新信息,而不必再每隔一段时间去查找相同主题的信息。

  4.5信息整合层次单一

  当前的文献数据库领域正在发生着重要的转型,许多数据库正从单一的信息检索工具,向广泛整合外部资源的、综合的信息资源与服务体系转变,它是数字信息源发展到一定阶段的必然选择,封闭的“信息孤岛”是难以充分满足用户需求的。然而,目前年鉴全文库对信息的整合尚停留于以条目为单位的跨年鉴文献层面,CNKI也仅与自己的各类全文库做了相似文献的整合。年鉴全文库与其他全文数据库、工具书乃至互联网信息等外部资源的整合有待加强。

  在年鉴各类信息中,一些文章类信息的参考文献、二次文献信息等,可以与电子期刊、电子图书等其他全文数据库建立原文链接;有关法律法规、标准的信息,如果没有全文的,则可链向法律法规和标准全文库;一些机构名录、重点单位介绍类信息,则可与该机构、团体在互联网上的网站主页建立链接;对于年鉴的统计指标、划分标准、计量单位等涉及的专业术语,可以引入百科全书、词典类工具书,供读者查询参考。通过这些方式,可以发挥互联网的优势,多层次地整合各种资源,为用户提供全方位的信息保障。

【浅论我国年鉴全文数据库的现状和改进策略】相关文章:

改进我国企业知识治理08-28

浅论我国共犯人分类标准06-06

初中生语文学习现状和教学策略05-13

我国国内旅游业发展现状和趋势研究10-29

对乐蜂网营销策略的改进建议06-11

我国督促程序的现状及原因分析06-12

浅析我国网络营销发展策略06-03

对我国老实信用原则研究现状的评析06-02

我国贸易秘密保护的现状及措施06-07

浅析我国手机出版发展现状06-01