联系我们 | 重庆大学 | 加入收藏

数据出版理论与实践关键问题*

2016-09-15 11:27:23     作者:张小强 李欣     

发表于《中国科技期刊研究》20158期。

摘要:[目的]在梳理国内外数据出版理论成果与具体实践的基础上,从学术传播角度厘清数据出版涉及的关键问题,包括数据出版概念和内涵、具体形态、主要障碍。[方法]主要采用定性方法,分析数据出版与传统论文出版的异同,及这些差异带来的理论和实践挑战。 [结果]研究发现,数据出版不仅仅是数据本身的共享,还应包括数据相关信息的出版。出版主体是多样化的,出版过程涉及多主体合作。其出版模式不仅有出版机构控制模式,还有非出版机构控制模式和混合模式。[结论]当前数据出版的主要障碍是伦理规范缺失导致数据出版学术“奖惩”功能失效,亟需制定数据出版的伦理规范、用稿机制规范、数据引用规范和元数据标准,通过上述规范将数据出版纳入学术传播体系。

关键词:数据出版;出版模式;规范;标准;元数据;数据论文;学术传播;学术

1 有关数据出版的研究现状与问题的提出

早在2005年,国外学者已经开始关注科学数据的共享和出版的制度障碍问题[1]。自此以后,学术界、图书馆界和期刊出版界开始关注数据出版相关问题。2008年,Christine L. BORGMAN指出了数据对学术出版和科学研究有重要价值[2]Hailey MOONEY的调查发现,很多社会科学界的作者在使用二手数据时并未引用[3]Sally Rumsey介绍了牛津大学研究档案馆Oxford University Research Archive (ORA)在通过采集研究行为数据以促进数据共享和存储的经验[4]Smit E等学者指出数据密集型科学研究已经到来,但学术出版体系并未准备好,需要学术出版机构探索更好的实践模式,如制定清晰的编辑策略等措施[5]Lawrence B等学者指出匿名评审在确保数据质量等方面的建议,并将数据出版划分为5种模式[6]L. Lubinski等从技术角度分析了纳米科技数据出版中数据格式带来的数据再利用问题,并提出了一种采集和评估现有数据的框架[7]

上述研究分散在各种类型的期刊中,较为分散,不足以引起学术出版界重视。随着国外数据出版实践的发展,对数据出版的研究成果也开始集中。具有代表性和较具影响力的成果是专门刊载学术出版研究成果的SSCI期刊《Learned Publishing》于20149月出版的“数据出版”专刊,该专刊从多角度来解读数据出版相关问题。其中:来自Wiley出版集团Learned Publishing的编辑Fiona Murphy简要梳理了科研数据与出版之间的关系,介绍了欧洲Project ODE (Opportunities for DataExchange)项目、科技与医学出版协会(STM Association)在研究、推动数据出版方面的努力,以及Wiley等出版集团推出的数据出版产品[8]。来自科技界的Sarah CALLAGHAN则讨论了数据引用的原则并给出了一些数据引用和链接的具体案例[9]Hazel Norman介绍了英国生态学会(British Ecological Society)在数据存储方面的实践[10]。图书馆界的Susan K. REILLY介绍了图书馆界在研究数据共享方面的实践[11]Varsha K. KHODIYAR等则指出应该开发新的学术评价工具,用以评估学者在数据、软件和匿名评审方面的学术贡献[12]。来自研究数据联盟(ResearchData Alliance)的Andrew Treloar介绍了RDA在推动数据出版和共享方面的经验与教训[13]

相比于国外,国内学术界、图书馆界和期刊出版界也于近年来开始关注数据出版。马建玲等以国外四种知名科技期刊为例分析了期刊的数据出版政策,并讨论了数据与期刊集成出版的三种形式[14]刘凤红等比较了国内外数据论文的实践情况[15]侯经川等对国际数据引证的现状进行了综述,指出数据引证已有一定进展但还存在不少问题[16]。傅天珍等对我国期刊数据出版政策进行了调查,指出国内制定数据出版政策的期刊非常少,学科分布不平衡,国际影响力高的期刊更重视数据出版,并给出了一些具体对策性建议[17]刘闯对全球变化科学研究数据出版的实践情况进行了梳理[18]

上述研究成果对于数据出版理论研究和具体实践都有重要参考价值,但国内外的研究都存在以下问题:

其一,研究的视角多从数据出版具体实践角度出发,很多研究并没有给数据出版进行严格的定义。而梳理上述文献发现,图书馆界和出版界以及学术界对数据出版虽然有一定程度的共识,但具体理解或定义却有较大差别,这是因为图书馆员、学者和出版者对出版和对数据本身的理解是不同的。因而,虽然不同论文中都出现了“数据出版”这样的词汇,但具体含义却并不相同,有的甚至区别很大,这将影响对数据出版的深入研究和实践。

其二,从学术出版和学术传播角度审视数据出版的成果,特别是分析学术传播体系因应数据出版的成果过少,研究视角往往局限于具体的数据出版相关的实践。笔者认为,研究数据出版实践固然重要,但如果不能解决数据出版与学术传播体系的关系问题,国内外数据出版的困境将得不到解决。综上所述,本文在梳理国内外数据出版理论成果与具体实践的基础上,从学术传播角度对数据出版中涉及的关键问题进行分析。

2 概念界定:数据出版实践与研究的基本前提

在学术传播语境下,数据出版是指与科学(包括自然科学和社会科学)研究产生的数据(research data)的出版有关的活动,这是学界共识。国内外类似电话黄页的出版物,将非科学研究产生的数据予以出版,不论是出版图书还是数据库,都不在我们应该讨论的范围之内。数据出版指的是围绕科研数据展开的与出版相关的活动,这也有别于科研论文及论文内包含的图表等部分的数据库出版。数据出版的出现并非偶然,它显示了网络技术发展带来的大数据环境对科研活动的深刻影响。

虽然提到数据出版,不少出版界或科技界人士都知道,但如果要给数据出版一个准确的定义,不同背景的学者却有不同理解。梳理关于数据出版不同的定义,不同观点争议的焦点主要在以下几个方面:

1.1数据出版中的“出版”的含义

有学者认为“只有经过类似于科学论文发表一样,经过同行专家评审的科研数据的正式出版,对科学家科学数据成果的评价才有可能有序地进行。”[18]还有学者认为数据出版(data publication)就是“数据发表”,是指“任何将数据上载到网络或其它媒介并允许他人使用的行为”[15]。上述两个定义的不同之处在于,前者认为出版必须严格依照学术论文的出版标准,经过同行评议环节,后者则认为只要数据上传到网络并允许他人使用就是出版。这两种观点在国内外都有一定的代表性,也反映了学界对“出版”概念的争议。

笔者认为,数据出版作为新的学术成果出版形态,其“出版”的含义与论文的出版不能完全等同。正如有学者指出的,在网络环境下学术出版的概念和范式需要重新定义[19]。但数据出版,也并非单纯地指将数据上传于网络,这实质是数据共享行为。出版包含了“组织、审查、共享、保存”,数据出版中的出版也包含了这四层含义。与数据出版相关的概念有数据共享和数据策展,前者指作者将数据上传于互联网的行为,后者指图书馆在数据共享或出版后向读者策展数据及信息的行为。数据出版与数据共享相比,多了一个评议和编辑加工的过程。而数据策展相对于数据出版,更侧重于对读者的服务和对数据的管理,数据策展中的数据不仅包含科研数据,也包含教育教学使用的数据。

因而,数据出版仍然有对数据及相关信息的评议和编辑加工过程,但这个过程不同于论文的出版。可以这样说,数据出版没有论文出版那么“正式”,但并非毫无把关人的单纯数据共享。而且,数据出版的主体也比论文的出版主体多样化,对这些问题,笔者将在下文阐述。

1.2 数据出版的客体

顾名思义,数据出版的字面意思似乎应该指科研“数据”的出版。如上文两位学者给出的定义,都把数据出版的客体指向了科研数据本身。然而,梳理国外一些关于数据出版的定义,会发现数据出版的核心并非是“数据”的出版,而是与数据相关信息的出版。

按照一些学者的定义,传统学术出版有五大功能[20],分别为:第一,登记功能。能够让学者主张学术发现的优先权。第二,证明功能。证明记名学术主张的有效性。第三,识别功能。能够使学术系统内的参与者识别新的主张和新的发现。第四,存档功能。保存学术记录。第五,奖赏功能。通过学术传播系统中衍生出来的计量学评价参与者(作者、期刊)的表现,进而通过学术体系对参与者给予各种回报。而数据出版在上述五大功能之外,有学者认为它还有一个独特的“说明功能(definition:即解决被出版的(数据)到底是什么?而这个说明功能正是数据实现上述五大学术出版功能的基础。 这个说明功能又可以分为两大部分,其一为“帮助(数据的)再利用”:即能够使出版物(数据)永久可用的信息以及使之在其他环境也可用的必要知识(存档、识别、描述);其二,承认推动者:即能够使评估和识别相关作品成为可能的信息(登记、奖赏、证明)[20]

上述数据出版中衍生出来的不同于传统论文出版的功能实质是靠数据相关信息的出版而不是数据的出版来推动的。所以不少学者关于数据出版的定义,核心就是数据相关信息的出版,而不是数据的出版本身。如有学者认为数据出版就是“取得已经在研究中使用的数据,并且扩展到为什么、什么时候以及怎样收集、处理这些数据的(信息)[20]。”还有学者认为,“数据出版就是让数据在互联网上永久可得,但出版的数据必须经过一个让其与较容易识别的信息一起出现的过程,这些信息与数据的可信赖性、可靠性、格式和内容相关。[6]”甚至有少数学者认为数据出版就是与论文相关的数据的出版,数据是依附于论文而不是独立的单元。也有学者认为数据出版,就是出版与数据利用相关的信息,包括数据的获取方法、对数据的说明、元数据等一系列信息[21]

综合上述定义,笔者认为,对于数据出版而言,数据的发布是前提,但数据出版也包括数据相关信息的出版。

1.3 数据出版的主体

学术论文的出版主体是期刊出版单位,虽然论文的评审由学术界完成,最后的发行也可能交给大型出版商或数据库出版商。但检视传统论文出版流程,会发现论文出版的主体是期刊出版单位,整个流程都是由期刊出版单位控制。其中匿名评审环节,虽然由出版单位外的学者进行,但谁来评阅、评阅什么、评阅规则、评阅意见是否采纳仍然由出版单位控制。可以说期刊出版单位在论文的出版过程中控制了包括论文及处理信息在内的信息流,当前国内外的期刊出版都采用了办公自动化系统处理稿件,这些系统基本都是按照稿件处理流程来控制信息流动。

数据出版与论文出版最大的不同在于出版主体的多样化,如果把数据出版的主体严格限定为出版单位,那么数据出版可能无法开展。因为大多数期刊并不具备存储数据的技术条件,因此,从事数据出版的期刊可能只能控制出版过程中的部分信息流。

因而,数据出版的主体是多样化的,而且数据出版需要不同主体之间的合作。数据出版与传统论文出版的最大区别还在于。传统论文出版以封闭的版权保护控制流程,而数据出版却必须以开放、共享的出版模式来促进各种主体的合作。若依赖于传统的版权模式,则部分数据出版模式就不可能展开,例如:如果数据存储中心不开放数据的访问,部分期刊就无法进行数据出版。在实践中,期刊出版单位、大学或研究所等学术机构、相关协会、学术社区等都参与到了数据出版当中。

综上所述,笔者认为,数据出版指学术共同体中的学术期刊、学术机构或学术社区等相关主体,在科研工作者把自己或同行产生的科研数据及相关信息发布于互联网之前或之后,对这些科研数据或与科研数据有关的信息进行评议、编辑加工使之符合一定规范和标准并能为学术界方便地获取并能利用和引用的过程。

2 数据出版的形态与未来

2.1 基于客体的划分

按照客体,也即数据与论文的关系来划分,数据出版的形态有三种:

第一,数据附属于出版物。这是脱胎于传统的论文出版模式,在这种模式下,数据并不独立,仅限于与已经发表的期刊论文相关的部分。国外不少知名期刊,如《Nature》等采用这种模式出版数据。

第二,独立的数据出版。这种模式指数据和描述数据的信息独立出版,不依赖于论文。很多数据存储机构进行的数据出版属于这种类型。这种出版模式,接近于传统的数据共享,与共享的区别在依然包含了对数据及相关信息的把关过程。

第三,出版物附属于数据。这是一种近年来兴起的数据出版模式,即出版的核心是数据,但与数据相关的出版物来描述数据。近年来兴起的数据论文、数据期刊属于这种类型。

2.2 基于出版主体的划分

笔者认为,如果与传统出版模式对照,按照出版主体对信息流的控制方式来划分,数据出版又分为以下三种主要模式。笔者梳理的这三种分类相对于文献[6]更为清晰,文献[6]的主要是从数据存储的角度予以划分,而且本文的划分则从出版主体切入,并且将二次出版涵盖进来。

第一,出版机构控制模式。这种模式与传统论文出版最接近,即主要由期刊出版单位控制围绕数据的信息流。这种模式下涉及的出版物既包括数据,也包括与数据相关的论文。不管是数据附属于论文还是论文附属于数据,期刊既控制论文的出版,也控制与论文相关的数据出版。在这种数据出版模式下,整个数据出版是由期刊推动的,期刊出版单位是整个出版过程的把关人。数据及论文的评议还是由第三方——学者来完成。

这种模式按照数据是否由期刊出版单位存储分为两种:

一种模式是由期刊进行数据的存储,数据完全是传统学术论文的附属物,作者在交稿时期刊的选定评审专家在评审论文的同时也评审数据。在这种情况下,由于数据是学术论文的补充,因此数据不能独立存在,而是论文的延续。这种模式是最早开始的一种是数据出版,随着电子期刊的发展,很自然地发展出来。如果国外的Nature等杂志采用了这种模式。但是随着期刊的实践,这种模式的弊端也日益凸显。因为数据附属于论文,因而数据必然受到多方面的限制,如:数据内容、数据大小、格式,而且数据不独立也导致不能对数据进行单独的引用。另外一个弊端是,因为数据的评审与论文的评审同步进行,按照传统模式的评审过程大大加重了评审专家的负担,使得数据影响论文的评审。另外一个技术上的原因是,数据需要占用大量存储空间,数据的管理也要耗费期刊大量人力,一般期刊难以承受。国外的《The Journal of Neuroscience》杂志在实施了一段上述模式的数据出版后,于2010年发布了一个编辑部声明,宣布该杂志不再接受作者投稿时提供附加材料(包括数据),也不再评审附加材料,而且该杂志也不再将作者提供的附加材料发布到其网站上。该杂志随后的给出的理由是附加材料已经严重影响到论文的评审过程[522]

因为上述模式的实行有诸多障碍,一些期刊不要求作者将与论文相关的数据上传到自己的网站,而是要求作者上传到他们指定的存储机构并提供数据的获取代码。这些机构往往是在特定学科领域获得广泛承认的存贮机构。例如:Nature集团出版的数据期刊《Scientific Data》针对不同学科指定了一系列的数据存储中心,并在其网站提供了访问入口[23]。。与上述模式相同的是,作者上传的数据仍然要与论文相关,而且期刊要求作者必须上传数据,否则论文将不会被发表。由于数据本身并不受期刊控制,那么这种模式下数据一般应该是开放的,否则读者很难访问相关数据。

由出版机构控制流程的优势在于出版机构能够通过出版方面的专业知识,严格控制数据及相关信息的学术质量,能够按照出版标准和学术规范加工数据的描述信息。

第二,非出版机构独立控制模式。在这种模式下数据出版往往由科研机构、大学或相关学术组织建立的专门数据存储机构进行数据的出版。这也是当前进行得非常多的一种数据出版模式,通过搜索引擎我们很容易找到这些机构的网站,如:我国的地球系统科学数据共享平台、中国动物志数据库等数据存储机构,美国的康奈尔大学数据中心、美国国家冰雪数据中心等等,还有不少是跨国的数据存储机构。这样的数据存储机构在国内外数量众多,目前这些数据存储机构储存了大量的科研数据。

这种模式的优势是数据的存储和数据的描述信息都在同一机构的服务器上,数据与描述信息同步呈现,避免了可能出现的数据难以获取的情况。与期刊相比,这些存储机构多为获得国家资金支持的大型研究机构,有雄厚的技术实力实现数据管理和策展(curation)。但是,由于数据存储机构是研究机构而不是出版机构,在对信息的加工方面不具备期刊的专业性,因而呈现出来的数据描述信息肯定不如正式出版的数据论文详细,在规范性和标准化方面也往往较差。这样的数据出版,更接近于数据存储,呈现的数据描述信息质量差,影响了学术界对其“出版物”地位的认定,部分期刊甚至不允许将这类数据的描述信息列为参考文献[4]。另一方面,这些研究机构既存储机构内学者提供的数据,也存储外部数据,虽然他们也对数据进行了评审,但评审的公正性会受到外界质疑,也影响了其权威性。

第三,混合模式。有些学者按照数据出版的过程把除了作者的相关主体的角色划分为推动者、鉴定人管理者、评审控制者、把关者、元数据编辑者、元数据制作者、评审者、存储者、策展者[6]。前两种模式中,这些角色绝大部分情况下由出版机构或数据存储机构独立承担。而混合模式,就是出版机构和数据存储机构分别担任上述角色,共同形成数据出版过程。由于数据的多样性和数据存储机构的多样性,在不同情况下,出版机构和数据存储机构担任的角色数和具体角色并不相同。最典型的一种模式就是出版机构出版数据论文,数据存储于数据存储机构,这时数据存储机构作为数据存储的推动者和数据鉴定人管理者负责数据质量,期刊作为评阅过程的控制者负责数据及数据论文的学术质量,评议过程由第三方完成,双方各自制作数据和数据论文的元数据。在其他情况下,可能稍有不同,例如有时作者数据的上传并非由数据存储机构推动,而是由期刊推动的,数据也由期刊评审,但元数据由存储机构制作。

相对于前两种模式,这种混合模式相对灵活,能够最大限度发挥期刊和数据存储机构各自的优势。当然这种模式需要两家机构配合好,因为出版过程是双方共同进行的,一旦数据或出版物信息有变动,必须同步更改。值得注意的是,笔者在这里提出的混合模式,是针对出版主体的角色而言,范围比文献[6]提出的“混合overlay”模式要宽。

第四,“二次出版”模式。目前研究数据出版的文献中并未关注数据出版物的二次出版问题,但这对数据出版的效果至关重要。笔者认为,随着各国高度重视科研数据的共享,会产生海量的数据和海量的数据信息,因而在数据出版后,提高数据在利用者中的可见性甚至比数据出版本身更为关键。因而,既要建立数据出版物的“门户网站”,对全球海量数据进行策展。还要建立数据出版物搜索引擎,使利用者能够方便地搜索到他所需要的数据出版机构。这实质上是所有网络出版物到达受众必须的两大手段。目前,由德国研究基金会(German Research Foundation)资助的于2012年成立的re3data.org网站就是这样一个数据的门户网站。数据存储机构可以在该网站注册,该网站会对注册的机构进行评审。在网站上可以用关键词搜索数据存储机构,可以按国家、主题或内容类型浏览数据存储机构,目前已经有1205个经过评审的数据存储机构的信息在该网站能够被获取[8]

2.3 数据出版的未来

上面大致归纳出了当前数据出版的形态,但数据出版作为新生事物也是在不断发展之中的,具体形式也在不断创新。例如:上面几种数据出版模式中都有对数据的评审环节,但在实践中评审的过程是不同的。除了用传统论文出版模式的评审,当前一些出版数据论文的出版机构还采用了把数据论文上传到学术社区,由学术社区匿名评审,作者根据意见修改数据论文,最后将评议意见和作者的反馈都发布出来。

    笔者认为,数据出版正是把单纯的数据共享和数据存储纳入到学术传播的过程,因而数据出版的重点在于“出版”而不是数据。通过出版将数据及其信息规范化、标准化,促进数据的再利用。更重要的是,通过出版让数据的再利用与论文的再利用一样进入学术传播系统,通过传播激励作者上传或出版描述数据的信息。

     由于数据出版的复杂性和专业性,数据出版未来的发展趋势应该是多种主体合作,形成多样化的出版模式和合理的社会分工。如:著名出版商爱思唯尔就和数据存储机构PANGANEA数据中心合作进行数据出版,将数据和论文通过DOI进行关联[5]。当前的数据出版,数据提供者和数据论文或数据描述信息的作者往往为同一主体,未来的数据出版还应该允许非数据的提供者撰写数据论文,即允许第三人撰写类似书评一样的论文来发掘数据的价值。

    数据出版的最终目标是汇集与开发全球的科研数据,形成科研数据网络,最终形成科研大数据环境。因而,每个参与主体的作用都很重要。特别是学术期刊,因为掌握了出版伦理规范和标准的专业知识,数据出版的专业化和标准化不能离开期刊的参与,期刊也能利用自身的优势地位促进作者进行数据出版。

3.数据出版的主要障碍:伦理规范与标准的缺失

3.1 伦理规范缺失导致数据出版缺少学术“奖惩”功能

在网络环境冲击下,传统出版物如:报纸、图书受到很大冲击,但学术期刊却在数字化浪潮中屹立不倒,受到的冲击最小。这得益于经过多年形成的学术传播生态体系,在这个体系中:作者投稿、期刊出版(数据库集成)、图书馆机构购买。作者的投稿意愿、社会对学术论文的需求、期刊的出版意愿是高度一致的,最终形成一个良性循环的系统。系统运转的动力正是来自于围绕论文出版形成的“奖惩”体系。这种奖励体系演变到今天,形成了以期刊文献计量评价部分代替论文学术评价的独特现象。国外的SSCIEIA&HCI,国内的CSSCICSCD等以文献计量学为主要指标的系统收录期刊成为国内外学者发表论文的主要目标。能否进入这样的检索系统,甚至具体的影响因子数值成为评价期刊学术质量的指标。在这些系统收录的期刊发表论文,成为评价学者学术能力的指标。虽然这个系统的运行并不完美,但其运行效果却是非常好的,极大促进了学术出版和学术交流的发展。

 如果仅有“奖励”系统而没有相应“惩罚”系统,上述系统也不能良好运行。因为作者都希望自己的论文被他人引用,但却不一定愿意规范地标注引用他人论文的情况。因而,为了保障“奖励”的权威性、客观性,“惩罚”系统应允而生。这个“惩罚”系统就是近乎苛刻地学术论文出版规范和具体标准。最典型的就是参考文献标引和著录规范和标准,由于已经形成了一种伦理规范和标准,一旦作者没有规范地标注引用的他人成果,就会面临道德惩罚,也会损害期刊声誉。这种体系不是一朝一夕建立的,而是通过不断演变的出版单位外部和内部规范,通过学者、编辑和管理者的社会化形成的。

 而数据出版由于是新生事物,尚未形成类似论文出版的各种伦理规范和标准,这就使得数据出版物当前的学术评价机制没有形成,对作者缺少“奖励”机制,导致作者投稿动机不足。另一方面,由于还没有形成相应的伦理规范和标准,导致“惩罚”功能失效。调查显示,60%的学者愿意利用他人的数据,但仅有40%的学者愿意发表数据[5]。国内外的调查还显示,只有少部分学者愿意把数据列入文后参考文献[3,24]上述调查结果和学界争相发表论文,在论文写作时小心翼翼,生怕漏引一条文献形成鲜明对比,其原因正是因为数据出版伦理规范尚未建立,导致无法形成有效“奖惩”机制。

这就导致当前的数据出版主要是由上向下推动,而不是自下而上高度统一。目前推进数据出版的除了部分期刊出版单位,主要是带有政府色彩的基金管理机构或者学术机构,如:美国的国家基金管理部门要求其资助的研究开放数据,我国的科技部及中科院等部门和机构都在大力推进数据的共享,2014年,英国生态学会在下属期刊中推行了强制数据存储政策[10]。而具体到广大的科研工作者,则明显动力不足。

3.2 数据出版的复杂性导致统一规范和标准短期内难以形成

数据与论文不同,论文虽然也有学科的区别,但论文是结构化的数据,科研数据却是非结构化的,种类多样,例如:视频、统计数据、图像、计算数据、编码表、计算模型、问卷等等都是数据,这就导致对数据的描述需求也存在学科差异。有的学科数据可能不需要太多附属信息就能再利用,有的学科需要更多说明。如前文所述,数据出版的形态也远比论文出版复杂,有多种形态,涉及多个主体。此外,数据出版与论文出版另一个不同之处是,数据出版更需要跨国合作,一些涉及人类、涉及地球的基础数据一个国家根本无法完成。这也增加了数据出版的复杂程度。数据出版的复杂性,导致短期内确实难以形成统一的伦理规范和出版标准。目前,已经有一些相关组织正在推进数据出版以及相关标准的制定,如:推动数据共享的RDA(Research Data Alliance)、推动数据引证的DataCite等组织,美国标准化组织制定了《在线附加于期刊论文材料的推荐惯例》(Recommended  Practices for Online Supplemental Journal Article Materials ),已经有一些可供参考的标准可以用。但还远远不能满足数据出版的需要。对此,亟需理论探索和具体实践。笔者调查了我国的数据出版情况,发现一些数据存储机构的元数据和给出的数据引用模式与国外相比规范性更差[25],在数据描述信息和出版者所给的引用信息中甚至找不到具体的数据获取方法,给出的链接是数据存储网站而不是数据的链接,也没有DOI

3.3 数据出版需要哪些规范和标准

目前,至少应该在以下几个方面制定相关规范和标准,至少在一定学科、一定范围应该先制定出下列标准,最后在兼顾多样性和统一性的要求后,形成一国甚至全球统一的数据出版规范和标准。主要包括:

首先,与数据出版有关的伦理规范。制定数据出版的学术伦理规范是为了保证数据出版的顺利进行。通过出版规范保障数据出版必须保证数据及相关信息的真实性、客观性、可获得性,从而保证数据出版物的价值。为了保证数据出版具备这些因素,可借鉴传统论文的出版模式,制定一套行之有效的“奖惩”机制,如规定对于数据造假者和隐瞒引用数据出版物信息的具体惩罚措施,对于高质量数据出版物的引用应视为对论文的引用,不得在论文写作著录文献时歧视数据和数据出版物。若作者引用数据出版物而不标注,也应视为与引用论文而不标注同等的学术不端行为。只有在传统学术出版伦理中加入数据出版的内容,才能使当前的数据出版进入整个学术传播体系。否则,数据出版更多是数据存储和数据策展,数据的学术价值得不到有效开发。

其次,应制定数据出版用稿规范。最迫切的主要有两个方面:其一,评审机制。数据出版评审规范的建立对于提高数据出版质量有重要意义,评审规范的建立需要考虑两方面的因素。一是内部因素,主要指数据出版所出版的数据本身的质量,在评审规范中对数据的质量、规范性、真实性等因素作出具体的衡量标准;二是外部因素,如对评审者的素质要求、评审机制的完善等。还需要研究具体的评审主体,因为数据出版物既涉及文本性信息,又涉及丰富多样的数据信息,传统的学界审稿人不一定能够胜任,对此,是否引入专门的数据评审员是值得深入探讨的问题。总之,如何建立一种有别于论文匿名评审机制的具体数据出版评审机制是数据出版用稿机制的核心。其二,具体用稿机制。与传统论文出版不同,在数据出版中会涉及多个主体之间的合作,主体之间如何配合形成科学用稿机制是另一个值得研究的问题。

其三,数据引用规范。现在,国内外一些重要机构在数据出版引用方面的规范一般包括作者(Author)、名称(Title)、版本(Version)、发布机构(Publisher)、发布时间(Publication year)传播机构(Distributor)、传播时间(Distribution date)、唯一标识符(Unique identifier)、解析网址(Bridge service),并且规定了这些元素的引用格式[26]。随着数据出版的不断发展,这些元素将进一步丰富与细化。但是我国的现状是并没有启动行业甚至国家层面的数据引用规范,现有规范是数据存储机构自己制定,存在不统一、不规范问题。

其四,元数据标准。元数据是数据的数据,是对数据及信息资源的描述性基础信息。元数据对于数据出版有重要意义,因为数据是多样的,但是却可以通过统一的元数据标准来结构化、规范化。元数据的意义还在于,只要是数字资源信息都可以有元数据,这就让数据出版物和数字化之后的传统学术出版物——学术期刊、学术著作之间形成同类的结构化数据,使数据出版和期刊、图书在数字环境中形成一定程度的统一标准。2014年,我国国家标准《GB/T 30522-2014 科技平台元数据标准化基本原则与方法》开始实施[27],但是这一标准并非具体的元数据标准,而是元数据标准化的原则和方法。因而,一些数据存储机构制定了自己的数据出版元数据标准,如:国家科技基础条件平台建设基础科学数据共享网项目组在借鉴国内外元数据标准研究成果的基础上编写了《元数据参考模型》[28],其中对元数据的格式、语义、语法、注册、一致性测试和评估完善等方面的内容进行了规定。当务之急,应当在借鉴国内外已有的元数据标准基础上,尽快制定我国统一的数据出版甚至是数字出版的元数据标准。

4 结 语

本文分析发现,当前国内外数据出版往往更接近于数据共享、数据存储和数据策展,恰恰缺少学术“出版”应有的学术交流和学术评价功能。其原因在于数据出版尚未被纳入整个学术传播体系,没有形成自下而上的作者和出版者一致的出版生态体系。导致当前的数据出版多是各种机构自上而下的强制推动。自上而下的推动只能涉及全球学术研究中的极少部分数据,还有大量的研究数据沉睡在研究者的电脑硬盘里未被利用。例如:我国的数据出版活动,仅限于自然科学,工程和社会科学方面的数据出版活动还很少见。对于全球已经出版的数据出版物而言,由于没进入学术传播体系,其利用率也远比不上学术论文。

要解决这一问题,应该促使更多学术期刊从事数据出版,虽然数据出版是一个主体多样化的出版活动,但期刊的引领作用不可低估。学术期刊可以从两个方面解决上述问题:第一,通过推动数据出版伦理规范和出版标准的建立,将数据出版物纳入现有学术出版体系,例如:通过对数据出版物的引用,提高数据出版物在学术界的可见性和利用率。第二,期刊可以引导自己的作者进行数据出版,每个期刊贡献的数据出版物虽然有限,但千万个期刊构成的出版网络,最终会形成大数据的学术出版。这正是大数据环境,学术传播的未来发展方向。

参考文献:

[1]Matthew Rimmer.Japonica Rice: Intellectual Property, Scientific Publishingand Data-sharing.Prometheus, 2005,23(3):325-347.

[2]Christine L. BORGMAN.Data, disciplines,and scholarlypublishing[J]. Learned Publishing, 2008,21(1):29–38.doi: 10.1087/095315108X254476

[3]Hailey MOONEY. Citing data sources in the social sciences: do authors do it? [J]. Learned Publishing,2011,24(2):99–108. doi:10.1087/20110204

[4]Sally Rumsey,Cecilia Loureiro-Koechlin.The role of an entity registry in scholarlycommunication: exploring creative uses ofresearch activity data[J].New Review of Academic Librarianship, 2010,16(S1):17-27, doi:10.1080/13614533.2010.505831

[5]Smit E, Gruttemeier H. Are scholarly publications ready for the data era? Suggestions for best practice guidelines and common standards for the integration of data and publications[J]. New Review of Information Networking,2011,16(1):54-70.

[6]Lawrence B, Jones C, Matthews B, et al. Citation and peer review of data: Moving towards formal data publication[J]. International Journal of Digital Curation, 2011, 6(2): 4-37.

[7]L. Lubinski, P. Urbaszek, A. Gajewicz, et al. Evaluation criteria for the quality of published

experimental data on nanomaterials and their usefulness for QSAR modelling.SAR and QSAR in

Environmental Research, 2013,24(12): 995-1008. DOI: 10.1080/1062936X.2013.840679

[8]Fiona Murphy . Data andscholarlypublishing:the transforminglandscape Learned Publishing[J]. Learned Publishing, 27: S3–S7.doi:10.1087/20140502

[9]Sarah CALLAGHAN.Preserving theintegrity of thescientifi c record:data citation andlinking[J]. Learned Publishing, 2014,27(SPECIAL ISSUE): S15–S24.doi:10.1087/20140504

[10]Hazel Norman. Mandatingdata archiving:experiences fromthe frontline[J]. Learned Publishing, 2014,27(SPECIAL ISSUE): S35–S38.doi:10.1087/20140507

[11]Susan K. REILLY.Rounding up the data:libraries pushing newfrontiers[J]. Learned Publishing, 2014,27(SPECIAL ISSUE): S33–S34.doi:10.1087/20140506

[12]Varsha K. KHODIYAR,Karen A. ROWLETT ,Rebecca N. LAWRENCE. Altmetricsas a meansof assessingscholarly output[J]. Learned Publishing, 2014,27(SPECIAL ISSUE): S25–S32.doi:10.1087/20140505

[13]Andrew TRELOAR. The ResearchData Alliance:globallyco-ordinatedaction againstbarriers to datapublishing andsharing[J]. Learned Publishing, 2014,27(SPECIAL ISSUE):S9–S13.doi:10.1087/20140503

[14]马建玲,曹月珍,王思丽,等.学术论文与科学数据集成出版研究[J]. 情报资料工作,2014(2):82-86.

[15]刘凤红, 崔金钟, 韩芳桥, 等.数据论文: 大数据时代新兴学术论文出版类型探讨[J].中国科技期刊研究,2014,25(012): 1451-1456.

[16]侯经川,方静怡. 数据引证研究:进展与展望[J].中国图书馆学报,2013,39(203):112-118.

[17]傅天珍,陈妙贞. 我国学术期刊数据出版政策分析及建议[J].中国出版,2014,23(12月上):31-34.

[18]刘闯.论全球变化科学研究数据出版[J].地理学报,2014,69(8),3-11.

[19]颜帅.学术出版范式创新[EB/OL].http://www.chuban.cc/rdjj/9qkcx/fayan/201501/t20150116_163248.html[2015-03-20

[20]Maria Bonn ,Mike Furlough.Getting the word out : academic libraries as scholarly publishers.Chicago:The Association of College & Research Libraries,2014.

[21]Ray, Joyce M. Research data management: Practical strategies for information professionals. West Lafayette:Purdue University Press, 2014.

[22]Supplemental Material[2015-4-17].http://www. jneurosci.org/site/misc/ifa_supplemental.xhtml

[23] Recommended Data Repositories. [2015-07-05].http://www.nature.com/sdata/data-policies/repositories#life

[24]张英杰,彭洁,张新民,等.科研人员引用科学数据的问卷调查[J].中国科技资源导刊,45(1):41-46.

[25] 2000年4月7日至2004年12月31日时间分辨率为16天空间分辨率250米的浙江省MODIS-EVI数据.[2015-05-30].http://www.geodata.cn/Portal/metadata/viewMetadata.jsp?id=100101-5&isCookieChecked=true

[26] 基础科学数据共享网项目组.科学数据引用规范.http://www.nsdc.cn/upload/120822/1208220929441440.pdf

[27]科技平台元数据标准化基本原则与方法国家标准简介.[2015-04-10].http://www.most.gov.cn/ztzl/kjzykfgx/kjzykjptbz/kjzybz/201407/t20140718_114489.htm

[28]国家科技基础条件平台建设基础科学数据共享网项目组.元数据参考模型. [2015-04-10].http://www.nsdc.cn/upload/110526/1105261305515360.pdf

Key theoretic and practical issues about data publication

ZHANG Xiaoqiang0000-0001-7863-0318     LI Xin0000-0002-5479-4139

 School of Journalism, ChongqingUniversity, Chongqing 401331

 Abstract 

[Purposes]Based on theoretical study and practice of data publication, keytheoretic and practical issues about data publication are analyzed, including concept and meaning, main modes of data publication, and difficulties in engaging data publication.[Methods]With qualitativemethod, thedifferences between article publication and data publication are analyzed, along with their challenge to academic communication theory and practice.[Results]Data publication is not just sharing data on the internet, it should include publishing information about data. The institutions engaging data publication are various, data publishing process is a cooperation field among different institutions. There are three main modes of data publication, which are controlled by publishers, controlled by non-publishers, and overlay mode.[Conclusions]The main obstacle to be combated in data publication is that there is no reward and penalty function of data publication without ethical norms. The ethics norms, submission adoption system, data citation standard and metadata stand should be established, by which data publication can be involved in scholarly communication system.

Keyword  data publication   publishing mode   ethics   standard  metadatadata paper  scholarly communication    scholarly assessment

[作者贡献声明]

张小强:撰写初稿,对论文全面修订并定稿;

李欣:撰写第三部分初稿部分内容,整理文后参考文献,撰写中英文摘要初稿。 



基金项目:国家社科基金资助项目(13BXW017

第一作者简介:张小强(ORCID0000-0001-7863-0318),博士,副教授E-mail:zxq@cqu.edu.cn