主办单位:全国创争活动指导协调小组 中华职工学习网首页 情景站 联系电话:010-68232149
科学研究人员 | 工程技术人员 | 购销人员 | 仓储人员 | 运输服务人员 | 体育工作人员 | 教学人员 | 购销人员

网络学术信息的采集策略

http://www.51xue.org.cn  2007/5/24 源自:中华职工学习网 【字体: 字体颜色

因特网作为开放性的全球分布式网络和未来学术信息交流的主流载体,现已发展成为包含科技、文化、商业、新闻、娱乐等多种形式和类别的极具价值的信息资源。网络信息资源因其信息来源广泛、数量庞大、媒体与格式多样、易传播共享等特点,正越来越受到科研人员的重视。在学术研究中,网络学术信息能为科研人员提供某学科的当前关注热点,并能为学术论文写作、课题研究等学术活动补充大量的有用资料。当前,对网络学术信息的采集及组织研究正广受重视,各单位均投注力量在该项服务的提供上。很多著名的商业机构也包含其中,如美国著名的数据库服务商——科技信息研究所(ISI)就在其Current Contents网络数据库中免费附加了由ISI学科专家所搜集和整理的4000余个学科资源网站,这些免费的网络学术资源和其数据库资源一起为读者提供服务。
  在这种情况下,图书馆的传统角色和运营方式将受到重大冲击,图书馆必将寻求新的核心能力和业务生长点。在网络学术信息环境下,用户的核心信息需求将从获取文献转到如何从繁杂的信息环境中捕获、析取所需的信息内容。图书馆也必然把向用户提供经过筛选整合的网络学术资源视作其资源建设与服务的重要任务之一。而社会的发展、环境的变化也为图书馆实现这一任务提供了条件。从图书馆内部条件来看,图书馆在文献收集与过滤、信息组织和信息服务方面积累了多年的工作经验,并拥有大量的专业人才;从外部环境来说,网络的普及、用户的需求使图书馆对网络学术信息的开发更具有针对性。因此,图书馆有必要也有可能成为网络信息资源组织的主导力量。
      1.网络学术信息的采集目的
  图书馆对因特网学术信息采集的目的是进行学术资源组织,进而更好地提供信息服务。信息收集是实现资源组织的第一步,需根据不同的信息组织形式,采取不同的收集策略。目前,因特网学术信息资源的组织形式主要有以下三种:
  1.1 相关站点推荐。将因特网上对用户有用的网上免费信息资源和重点站点按主题排列,并建立简单的链接,以方便用户查询和使用。比较著名的有清华大学的“馆外电子资源”、普林斯顿大学图书馆的“数字收藏”等。
  1.2 学科资源导航库。以学科为单元对因特网的相关学术资源进行搜集、评价、分类、组织和序化整理,并对其进行简要的内容揭示,建立分类目录式资源组织体系,动态链接学科资源数据库的检索平台,是为用户提供检索线索的导航系统。目前较有影响的如我国“211工程高等教育文献保障体系”所属的各重点学科导航库系统。
  1.3 专业网络信息导引库。亦称虚拟图书馆。即根据选定的目标,选定信息资源的学科领域,对有关的网页进行搜索和收集,加以鉴定核实,并对网址进行合理组织,使之能提供检索、浏览和链接的信息集合。该库比导航库能进一步满足用户的专业需求,用户对导引库的访问能检索到有关的实际资源,即指引用户到选定的地址获取信息。信息导引库采用主题树方式组织资源。
      2.采集原则
  2.1 针对性原则。图书馆在进行信息采集时,应根据本馆的性质、任务、服务对象、软硬件条件、发展目标等,有针对性地选择若干学科专业领域或专题。要切实考虑实际用户与潜在用户的信息需求,充分考虑本校专业设置和重点学科研究需要,并充分发挥本馆已有资源、专业人员优势等特点。所选学科要体现出资源特色、地区特色、专业特色、实用性特色。图书馆不必要也不可能采集所有学科领域的信息。针对性原则使采集工作有的放矢,把握学术信息采集的准确性和价值性。
  2.2 全面性原则。利用搜索引擎和其它网络检索工具,全面收集相关学科的网址,并通过访问专业科研网站、访问学术期刊、图书出版社的网站,获取所需的相关资源的链接。通过新闻组、讨论组、BBS或电子邮件,在专门的学术讨论区中发掘出有价值的信息资源地址。全面采集某学科的学术信息,才能在此基础上进行进一步的筛选、优化和组织。
  2.3 连续性原则。由于网络学术信息具有高效动态性,更新迅速等特点,因此在进行信息采集时要特别注意把握连续性及发展性原则。即对某学科资源的信息进行连续采集,随时收集最新的信息,明确信息更新的频率,定期测试录入的站点信息,及时删除过时信息与无效链接,保持该学术信息站点的可信度。
  2.4 选择性原则。为保证学术信息的权威性、正确性,需持科学的态度对网络信息资源进行鉴别。首先,对信息的来源要有重点的选择,要选取有学术价值,有一定深度,反映本学科前沿的网上学术资源。通常本学科学术刊物出版单位、政府、大学、研究机构、图书馆等制作发布并提供上网的信息一般可信度较高;网络期刊、数字化出版物、图书馆OPAC等,稳定性、准确程度较高。高质量的信息源往往能提供高质量的信息。其次,采集所用的方法要有所选择,要运用先进的网络搜索技术,如自动跟踪、自动漫游技术,提高信息采集的全面性和时效性。
  2.5 协调性原则。协调图书馆传统文献资源与网络学术资源采集的比例,解决印刷型文献信息资源建设和网络学术信息资源建设在资金、人员上的矛盾;协调馆际间学术信息资源的共建,建设有特色的网络资源馆藏,以此达到资源的共享。
      3.采集方法
  3.1 学科专题的选定。用户需求是推动学术信息资源建设的原动力。图书馆应对其科研用户的信息需求展开广泛而长期的调研分析。在此基础上,结合学校重大课题项目、重点学科建设、课堂教学等信息需求,挑选出一些基础学科或优势学科进行备选;同时,因特网专题信息的多寡也是选题的另一依据,如所需的信息量过少,则失去了建立所选专题导航库的必要性;再次,学科不同,网络的依赖程度也不同。一些新兴的交*和边缘学科,如计算机科学、生命科学、国际关系学等学科,网络已成为其学科新观点、新信息的主要发布与传播通道,该领域的学者普遍对网络学术资源的发展予以高度重视。其四,对已有的因特网虚拟资源导航站点进行查重,避免重复建设。最后,图书馆应组织学科专家、技术专家等各方面人员对所选目标进行充分论证,以保证可利用性和可操作性。
  3.2 确定采集类型。网络学术信息类型繁多,依据其在科学交流过程中的正式程度,可分为以下三种类型的网页网站。图书馆可根据其学科建设的状况和信息的多寡来进行取舍。
  3.2.1 正式出版物。通过因特网,读者可查询到的电子图书、电子期刊、报纸、专利等的网页网站。①电子图书是因特网上的常见信息资源,它具有出版周期短,修订及时,内容相对系统全面等特点。尤其是一些参考工具,如字典和辞典、百科全书、名录指南,在检索和扩大使用上都较印刷版略胜一筹。②电子期刊因其学术性强、获取成本低、出版迅速而成为网络信息资源建设的重要收录对象。学术研究成果通过电子期刊能更快地被传播和利用。③电子报刊、专利和标准的网页网站。它们是涉及自然科学尤其是工程技术专题的虚拟图书馆的重要收录对象。④数据库网站  目前国外著名的数据库如Uncover、UMI、OCLC Firstsearch都提供网络使用,其学术价值甚高,但碍于收费,进行资源组织时只能调出页面,无法调出全文。免费数据库是主要的收录对象,如“中国学术期刊文摘索引数据库”即为其一。
  3.2.2 半正式出版物。指各种学术团体和教育机构、企业和商业部门、国际组织和政府部门、行业协会等单位的网站网页。事实上每一个学科领域或专业都有相应的研究机构,绝大多数领域都有相应的教育机构和学会等学术团体,这些机构在进行教学科研、学术交流过程中,会产生大量原始信息,通过访问它们的网站,可以得到一定数量的技术报告、学位论文和教育教学信息。一些行业的会议论文往往内容新颖,反映了这一学术领域国内外的最新发展动态,利用价值较高。政府部门的信息包括政府部门职能、人员、机构、政策、法规及出版信息等,属权威性较高的信息。
  3.2.3 非正式出版物。指电子邮件、专题讨论小组和论坛、网络会议、电子公告板新闻及个人主页等。因特网上盛行非正式信息交流,研究人员往往针对某一感兴趣问题在网上展开讨论,这些议题经常是某一学科领域的热点或疑难问题。而一些个人主页常摘刊版主的论著及论文,涉及其个人研究领域、研究经历及项目进展等,通常还对相关站点进行了友情链接,所以其利用价值也较高。
  3.3 信息源的准备。即对所选网页网址进行评价和筛选的过程。如果一个学术资源导航网站充斥着大量简单、表面性的信息,则它的价值就会被贬值,所以信息源的准备至关重要。评价信息源的优劣通常从以下几个方面入手:
  3.3.1 学术性和权威性。研究该网页网站是否专为学术研究人员设计的,以此标准可排除大量普及型的、知识性趣味性网站。研究该建站机构的知名度和权威性,以保证其发布的信息的重要性和可*性。现在有越来越多的出版商、书目供应商向因特网进军,其专属的网站因其已有的传统资源和品牌优势成为越来越重要的信息源。
  3.3.2 访问率。通常站点被用户访问的频率和次数越高,说明该站点的信息价值越高。这种方法类似于传统信息工作中通过引文分析评价文献的质量。同时,高访问率也说明该网站组织合理,信息更新迅速,是有价值的网站。
  3.3.3 用户及专家评价。通常一些网络管理机构会定期通过调查问卷的方式组织网络投票产生“用户推荐的优秀站点排行榜”。站点得票数的多少在一定程度上能反映出该站点的使用频率以及对用户效用的大小。另外,有时某些领域专家会撰写综述或述评来介绍本学科专业领域中优秀的资源站点,这也是进行资源评价的重要依据。
  另外,网站的可下载程度、传输速度、使用费用等也是需考虑的因素。同时,注意信息源的数据格式,当其需相应的浏览软件方能打开时,要注意将软件出配套采集进内。
      4.采集的实施
  网络学术信息的采集步骤有以下几步:
  4.1 信息查找
  4.1.1 利用搜索引擎找。根据所选学科专业和主题范围,选取相应的关键词来检索信息,也可利用搜索引擎的分类体系查找某一学科信息。通用搜索引擎由于面向大众的资源较多,面各学科专业的相对少些,因此所获信息数量不多且良莠难辨,需多加选择。较好的有如:Yahoo、Google等。
  4.1.2 利用学科主题指南查找。学科主题指南一般是由学会、大学、研究所和图书馆等学术团体和机构编制的网络学科导航网站。其内容经专业人员加工和组织,所含信息切合主题,实用价值较高。
  4.1.3 利用专业搜索引擎查找。专业搜索引擎是查找网上某一学科专业信息的检索工具。如法律的有Findlaw、化学的有Chemfind等。利用专业搜索引擎查找出的信息具有学术性强、质量高的特点。
  4.1.4 利用专业网站查找。专业网站是获取相关学科信息的一个捷径。它通常是用人工的方法,针对某个学科领域或与学科有关的某个主题来搜集和组织因特网上的相关资源,并建立基于WEB的资源指南系统。它提供与学科有关的电子出版物、专利、标准、会议和专业数据库信息。著名的如加州大学伯克利分校图书馆的Internet Resources by Academic Discipline,香港大学图书馆的Internet Resources by Subject/faculty、中国人大的社科信息导航、Calis重点学科导航库等。
  4.2 采集方式
  应采取机器自动采集和人工采集相结合的方式。完全的机器自动采集,虽可以采集大量的学术信息,省时省力,但其质量无法保障;而完全的人工采集,费时费力且采集数量很有限,适应不了网络学术信息数量迅猛增长的趋势,同时信息时效性无法体现。具体操作时应把两者进行有机的结合。对于固定、稳定性强、信誉高的学术资源站点,由计算机定时或不定时自动将学术信息采集回本地,然后进行少量的人工干预;而对比较分散,稳定性不强的站点,可以由专门的人员进行定期的访问,将相关学术信息采集回本地。
      5.需注意的问题
  5.1 人员组成问题。信息采集工作需由图书馆馆员和学科专家配合才能出色完成。图书馆馆员需具备以下素质:对某一学科领域有较深入的研究,熟练掌握网络信息检索和获取技术,具备信息收集、分析、整理能力,对某个学术领域的相关信息源有丰富的使用经验和了解,同时能跟踪相关信息源的信息更新情况。吸收相关学术领域专家学者参与信息采集工作,可大大提升采集工作层次。学科专家是信息资源的直接利用者,他们掌握了该学科领域的丰富专业知识,对学科的发展有着敏锐的洞察力。这些专家学者一方面作为整个学术信息采集过程中的参谋和顾问,另一方面作为信息采集结果的把关人及鉴定人。
  5.2 采集方法问题。应灵活应用各种方法获得网络学术信息资源地址。每种方法均有优缺点,单独使用一种方法无法全面而准确的找到所有信息。如目前最出色的搜索引擎Google也仅仅覆盖了因特网信息量的16%,还有相当大的一部分数字信息并没有链接进搜索引擎查询软件中。因此,需综合应用各种技术方法来获得网络学术信息资源地址。
  5.3 著作权问题。在信息采集过程中,需提高版权保护意识,注意合理使用范围,避免侵犯版权所有人的权益。目前很多网络信息采集对象都享有著作权保护,尤其是期刊论文,享有印刷版及电子版双重著作权保护。对于受版权保护的网上作品,无论是局部使用或全文使用,都应征得版权人的许可,并支付一定的报酬。
参考文献:
  1 刘嘉.网络环境下的学术资源.中国图书馆学报,1999(6):53-59
  2 张晓林等.网络化数字化基础上的新型学术信息交流体系及其影响.图书馆,2000(3):1-4
  3 司莉.网络信息资源组织研究进展.情报科学,2003(6):653-658
  4 徐桂宁等.基于万维网的共享学术资源类型、特点及检索.图书馆理论与实践,2002(5):44-46
  5 臧国全.论虚拟图书馆建设.图书情报知识,2003(8):7-11
  6 韩芸.高校图书馆网络学术信息资源的开发与利用.图书馆建设,2001(3):74-75
  7 何朝晖.高校图书馆的网络学术资源导航.图书馆杂志,2000(9):40-43
  8 吴凤玉,韩梅.论网络学科导航库建设原则.现代情报,2003(2):2-3
  9 张春江等.网络学术资源导航的现状与发展.图书馆建设,2003(4):17-19
  10 http://www.isinet.com/products/
  11 http://calis.edu.cn
  12 http://lib.pku.edu.cn/chtml/resource.htm

  相关链接
  相关评论