观宇宙之博大 察万物之精微

反映世界科学发展态势的学术期刊

科学观察, 2021, 16(5): 62-74 doi: 10.15978/j.cnki.1673-5668.202105003

研究论文

我国数据期刊载文特征分析——以《中国科学数据》为例

李洋1, 温亮明,2,3,*, 郭蕾4

1 成都体育学院图书馆 成都 610041
2 中国科学院计算机网络信息中心 北京 100190
3 中国科学院大学计算机科学与技术学院 北京 100049
4 中国航天科工集团第六研究院情报信息研究中心 呼和浩特 010021

Analysis on the Characteristics of Articles Published in Chinese Data Journals -- Taking China Scientific Data as an Example

Li Yang1, Wen Liangming,2,3,*, Guo Lei4

1 Library of Chengdu Sport University, Chengdu 610041, China
2 Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
3 School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China
4 Intelligence and Information Research Center, The Sixth Academy of China Aerospace Science & Industry Corporation, Hohhot 010021, China

通讯作者: * E-mail: wenliangming1990@163.com

Corresponding authors: * E-mail: wenliangming1990@163.com

摘要

数据期刊已经成为科学数据共享的主要形式之一,对我国数据期刊的载文现状进行分析,以期明确我国数据期刊载文特点,为数据论文利益相关者提供参考与借鉴。首先依据已有研究成果对国际数据期刊发展态势进行了简要总结,其次以《中国科学数据》为例,运用文献计量法分析其自创刊以来所载文献的数量分布、作者分布、机构分布、学科领域、基金项目、被引频次、研究主题等基本情况,从外部特征和内容特征两个方面分析了我国数据期刊载文的基本特征,指出存在问题并提出完善建议。研究发现,《中国科学数据》所载文章数量经过了初创期、成长期、发展期三个阶段,形成了以核心机构为基础的核心作者群,所载文章涉及学科领域广泛,基金项目支持率高,但文章被引率、被引量均较低,研究主题主要集中在气候、生态、生物、科学数据、遥感、地质等自然科学领域;但存在文献数量偏少、参与力量薄弱、学科分布不均、学术影响不够等主要问题,其次我国数据论文外流现象较为严重。

关键词: 数据期刊; 数据论文; 数据出版; 科学数据; 数据管理; 《中国科学数据》; 载文特征

Abstract

Data journal has become one of the main forms of scientific data sharing. It is of great theoretical and practical significance to study the article characteristics of data journals for all kinds of stakeholders. Take China Scientific Data as an example, use the method of bibliometrics to investigate the basic situation of the quantity distribution, author distribution, organization distribution, discipline field, fund project, cited situation and research topic of the documents since its inception. This paper analyzes the basic characteristics of articles published in data journals in China from two aspects of external characteristics and content characteristics, points out the existing problems and puts forward some suggestions for improvement. The study found, the number of articles in China Scientific Data has gone through three stages: initial stage, growth period and development stage. It formed a core author group based on core institutions, the articles covered various disciplines, the support rate of fund projects is high, but the citation rate and quantity of articles are relatively low. Research topics mainly focus on climate, ecology, biology, scientific data, remote sensing, geology, etc. The number of articles is small, weak participation, uneven distribution of disciplines, insufficient academic influence are the main problems of China Scientific Data. It can be solved by increasing the literature collection, expanding the author group, balancing the subject field, and enhancing the academic influence.

Keywords: data journals; data papers; data publishing; scientific data; data management; China Scientific Data; characteristics of published articles

PDF (2773KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文 推荐给朋友

本文引用格式

李洋, 温亮明, 郭蕾. 我国数据期刊载文特征分析——以《中国科学数据》为例[J]. 科学观察, 2021, 16(5): 62-74 doi:10.15978/j.cnki.1673-5668.202105003

Li Yang, Wen Liangming, Guo Lei. Analysis on the Characteristics of Articles Published in Chinese Data Journals -- Taking China Scientific Data as an Example[J]. SCIENCE FOCUS, 2021, 16(5): 62-74 doi:10.15978/j.cnki.1673-5668.202105003

1 引言

2020年4月9日,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》正式发布,要求加快培育数据要素市场,首次将数据和土地、劳动力、资本、技术等传统要素并列为生产要素之一,并要求从推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护三个方面推动相关工作[1],表明国家层面对数据价值的高度认可。而科学数据作为一种特殊类型的数据资源,已被认为是解决复杂科学问题的关键要素、驱动科学发现与决策支持的战略资源、支撑国家科技创新和经济社会发展的基础设施。自科学数据问题研究伊始,对其开放共享的呼声便经久不衰,随着科学数据开放共享进程的不断推进,释放出来的红利和价值也正在逐渐凸显。数据出版作为科学数据开放共享的方式之一[2],近年来受到广泛关注并已取得一定成效[3]。在数据出版背景下,衍生出数据论文和数据期刊,所谓数据论文是指对数据集进行描述的说明性文档,说明要素通常包括数据获得方式、数据内容构成、数据应用场景、数据使用方法等[4];所谓数据期刊是指发表数据论文的期刊,包括仅发表数据论文的纯数据期刊和同时发表其他类型论文的混合型数据期刊[5]。当前,国内关于数据出版、数据论文、数据期刊的相关研究已较为丰富,研究者分别就数据期刊出版特征[6]、数据期刊政策[7]、数据期刊出版模式[8]、数据出版质量控制[9,10]、数据论文内容规范[11]、数据期刊与图书馆[12]、数据期刊实践思考[13]、数据期刊发展现状[14]、领域数据论文现状[15]、数据期刊未来趋势[16]等进行了深入探讨。这些研究成果虽然丰富了相关研究内容体系,但多以国外数据期刊与数据论文为研究对象,较少涉及国内相关问题的探讨,且目前对中文数据期刊载文特征进行定量统计分析的研究也较为匮乏,亟待充实丰盈。

《科学数据管理办法》(以下简称《办法》)第二十二条明确指出“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”,多个学科领域也出现了专门的数据期刊。国际上著名的数据期刊有Data in Brief、Scientific Data、Geoscience Data Journal、The Journal of Chemical & Engineering Data、CODATA’s Data Science Journal、Journal of Open Archaeology Data、International Journal of Robotics Research Data Papers、Biodoversity Data Journal等,且形成了以开放获取、商业出版及学会出版为代表的出版形式[17]。目前,中文数据期刊仅有《中国科学数据》(以下简称《数据》)和《全球变化数据学报》[18],《全球变化数据学报》为地理、生态、资源领域的专业期刊,而《数据》是目前国内唯一的专门面向多学科领域科学数据出版的学术期刊。《数据》由中国科学院主管、中国科学院计算机网络信息中心和ISC CODATA中国全国委员会合办,国家科技基础条件平台中心指导主办,是国家网络连续出版物的试点单位之一,编委会成员多是来自科技部、中国科学院、中国人民大学等机构长期从事科学数据研究的专家学者,2016年6月创刊后2017年即入选中国科学引文索引(CSCD)来源期刊[19,20]

基于《数据》的全面性、权威性和代表性,本文以此刊为例对我国数据期刊载文特征进行分析,通过对其刊载数据论文的要素进行统计,以期对中文数据论文的现状进行总结,发现此类研究成果的基本特征与发展现状,进而明确以数据论文为出版形式的数据出版概况,同时为数据期刊发文及科研人员数据论文撰写提供参考与借鉴,促进科学数据开放共享。此外,为明确国际数据期刊现状,本文将首先依据已有研究成果对国际数据期刊发展态势进行简要总结。

2 数据来源与研究方法

2021年3月15日,《数据》官方网站发布“全球科学数据出版发展态势分析——基于Web of Science数据库的调研”[21]http://www.csdata.org/p/558/)一文,该文关于国际数据期刊及数据论文相关的调研数据较为详细,笔者积极联系该文作者并获得其原始调研数据,因该文已对数据进行了预处理,故笔者依据本文分析需求对部分数据进行摘取并加以分析,以期明确国际数据期刊发展态势。

2021年2月1日,在中国知网(CNKI)数据库中,以“中国科学数据”为检索词并以“文献来源”为检索字段进行“精确”检索,初步检索得到文献289篇,剔除卷首语、发刊词、调查分析等非数据论文后,得到有效文献276篇,作为本研究的样本论文。确定样本论文后,首先借助中国知网内嵌的参考文献导出功能,将文章的题名、作者、单位、关键词、发表时间、基金、年、卷、期、中图分类号等字段信息导出;其次,将样本论文按照被引频次大小排序,将被引频次添加到每篇文章的信息中;最后,登录《数据》官网(http://www.csdata.org/)分别查阅每篇文章的数据量、数据格式等信息一并添加到文章信息条目中,以此作为本研究的数据来源。

本研究采用文献计量法进行研究,即以文献的外部特征为研究对象,运用数学与统计学方法描述、评价、预测科学研究的现状与发展趋势[22],首先对国际数据期刊发展态势进行简要总结,其次对我国数据期刊载文的一般特征进行分析。

3 结果与分析

3.1 国际数据期刊发展态势

3.1.1 论文数量分布

根据文献[21]的统计结果1(1 本节后续内容皆以此统计数据为准进行分析。),截至2020年3月3日,Web of Science数据库中共收录数据类论文9 431篇,图1显示了自2006年收录第1篇数据论文以来的论文年度分布情况。

图1

图1   数据论文年度分布情况


图1可以看出,全球数据论文发展态势可分为三个阶段:2006–2011年为萌芽期,这一时段全球数据论文总量偏少、年度基本无增长;2012–2015年为发展期,这一时段全球数据论文总量开始积累,年度增长缓慢;2016–2020年为扩展期,这一时段全球数据论文快速积累,年度增长迅速。

为了进一步明确各具体国家在全球数据论文发展中的贡献份额,统计了不同国家的数据论文分布数量,图2仅显示了数据论文发文数量排名前10的国家。

图2

图2   数据论文发表数量TOP10国家/地区


从主要国家分布来看,发达国家占绝对优势,这与其综合国力及科技实力有较大关系。随着我国经济与科技的不断发展,数据论文出版也保持了较好的发展态势,数据论文数量排名第2,但与美国相比仍然存在差距,数据论文年出版量仅约为美国的一半。

3.1.2 来源期刊分布

从出版来源角度分析,数据论文绝大部分来源于Data in Brief(占比约66%)和Scientific Data(占比约13%)两本数据期刊,其他期刊占比较小,如Earth System Science Data占比约4%,Data、Biodiversity Data Journal、Gigascience三本期刊均占比约2%。由此可见,数据论文主要集中在个别期刊,呈现出明显的分布不平衡性。结合论文数量国家/地区分布情况可知,中国研究人员虽然发表了较多数据论文,但青睐选择国外数据期刊进行发表,相关成果较少出现在国内相关刊物上,这在一定程度上造成了国内数据资源的外流。

3.1.3 被引频次分布

从被引维度来看,被引频次TOP10数据论文均来自欧美国家,其中,英国有4篇,美国有2篇,西班牙、瑞士、法国和德国各1篇。这些高被引数据论文的年度被引频次也呈现整体上升趋势,表明数据论文已受到较多科研人员关注,其学术影响力在全球范围内不断攀升。值得注意的是,虽然我国数据论文发文量较大,但尚未有高被引论文。

3.2 《数据》载文特征分析

3.2.1 文献数量分布

截至2021年2月1日,《数据》共刊文五卷19期,276篇样本论文的具体卷期分布如图3所示。从图3可以看出,《数据》所载文章数量的变化可分为三个阶段:(1)初创期(第1卷第1期至第2卷第4期),这一阶段《数据》刚刚创刊,关于数据论文的相关问题尚处于探索阶段,科研人员还在摸索数据论文的撰写和发表方法,因此论文数量相对较少,期均仅9篇左右,初创期为后期发展打下了坚实基础;(2)成长期(第3卷第1期至第4卷第1期),这一阶段恰逢《办法》发布,对数据论文的相关研究日趋深入,其价值也逐渐得到认可,科研人员积极投稿,因此本阶段《数据》载文量逐渐上升,期均11.8篇,呈现出良好发展势头;(3)发展期(第4卷第2期至第5卷第4期),这一阶段随着科技管理部门、地方政府、科研院所、高等院校、数据中心等对《办法》的不断落实[23],科研人员的数据共享意识进一步提升,《数据》的来稿数量不断增加,该阶段论文数量大幅提升,期均22篇,《数据》保持可持续发展态势。总体而言,《数据》期均载文14.5篇,年均收录55.2篇,作为我国全科学领域数据期刊的代表,经过五年多时间的发展历程为我国数据期刊的可持续发展树立了标杆,同时也积极践行了《办法》精神。

图3

图3   《中国科学数据》载文卷期分布


3.2.2 核心作者分布

因文献量相对较少且每位署名作者对论文均有贡献,因此本文在统计作者时将全部作者纳入统计范围,并对论文作者及其单位信息进行详细辨识,同名作者再依据其他公开信息进行核实,确保姓名无歧义。经统计,276篇样本论文共有署名作者1 608位,去重后得到实际作者964位,人均发文约0.28篇,其中最高产作者为何国金,发文量为13篇。根据普赖斯指数Np=0.749(nmax)1/2,可以判断核心作者发文量的入围条件为Np=0.749(13)1/2≈2.70,本文将阈值设定为3,即发文量为3篇及以上的作者可视为《数据》的核心作者。经统计,核心作者共计142位,限于篇幅原因,表1仅列出发文量7篇及以上的作者,共计15位。

表1   高产作者发文量统计

序号 作者 发文量/篇 序号 作者 发文量/篇 序号 作者 发文量/篇
1 何国金 13 6 胡修棉 9 11 徐文婷 8
2 刘时银 11 7 张耀南 9 12 姚晓军 7
3 康建芳 10 8 尹春梅 9 13 彭 燕 7
4 赵常明 10 9 于贵瑞 8 14 谢宗强 7
5 龙腾飞 10 10 褚国伟 8 15 张兆明 7

新窗口打开| 下载CSV


开放科学环境下,不同背景、不同机构的学者之间合作交流已成为科研常态。为了进一步厘清不同作者间的合作关系,本文对核心作者的合作关系进行了分析,根据文本数据构建了作者共现矩阵,并借助NetDraw软件将其可视化,绘制了如图4所示的作者共现网络图谱。

图4

图4   《中国科学数据》作者共现网络图谱


图4可知,《数据》形成了以孙晓敏、郭永平、杨风婷、杜鹃、李小丽等为核心节点的较为稳定的作者合作群体,除个别作者离散在共现网络图谱周围外,大部分作者均能产生联系,这表明《数据》作者相互之间已有一定的合作基础且合作关系较为稳定。

3.2.3 核心机构分布

与核心作者统计方法相同,统计署名机构时亦不考虑其是否为论文完成的第一机构,而将完成论文的全部机构纳入统计范围。经统计,276篇论文共有署名机构362个,机构均发文约0.74篇,其中最高产机构为中国科学院大学,发文量为50篇。根据普赖斯指数可以判断核心机构发文量的入围条件为Np=0.749(50)1/2≈5.30,本文将阈值定为5,即发文量为5篇及以上的机构可视为《数据》的核心机构。经统计,核心机构共有37个,限于篇幅,表2仅列出发文量10篇及以上的13个机构。

表2   高产机构发文量统计

序号 机构 发文量/篇
1 中国科学院大学 50
2 海南省地球观测重点实验室 23
3 中国科学院华南植物园 15
4 中国科学院空天信息创新研究院 14
5 中国科学院大学资源与环境学院 12
6 中国科学院南京土壤研究所 12
7 中国科学院遥感与数字地球研究所 12
8 中国科学院地理科学与资源研究所 12
9 中国科学院东北地理与农业生态研究所 12
10 中国科学院遥感与数字地球研究所 11
11 云南大学国际河流与生态安全研究院 11
12 中国科学院沈阳应用生态研究所 10
13 中国科学院水利部成都山地灾害与环境研究所 10

新窗口打开| 下载CSV


为了分析核心机构间的合作关系(方法与核心作者合作关系的确定类似),根据数据构建机构共现矩阵并将其可视化,绘制了机构共现网络图谱,如图5所示。

图5

图5   《中国科学数据》机构共现网络图谱


图5可知,《数据》形成了以中国科学院地理科学与资源研究所、中国科学院沈阳应用生态研究所、中国科学院新疆生态与地理研究所、中国科学院成都山地灾害与环境研究所等为核心的机构合作群,所有机构间均存在联系,合作基础牢固,合作关系稳定。从表2图5均可看出核心机构主要以中国科学院所属各研究院所为主,这也对核心作者群体间的紧密联系做出了合理解释。

3.2.4 学科领域分布

《数据》收录的数据论文来自多个学科领域,按学科对数据论文的数量及其数据资源量分布情况进行统计有助于明确不同学科数据资源的出版概况。本文以《中国图书馆分类法(第五版)》为依据,对各学科领域的数据论文数量及数据量进行了归纳统计。从数据论文数量分布来看,地球物理学、大气科学、植物学、林业、海洋学、测绘学、图书馆信息事业、地质学、计算机技术、农业基础科学、矿床学等领域均在10篇以上,共计167篇,占论文总量的60.51%,为发表数据论文的主要领域。图6展示了数据论文在不同学科的分布情况。

图6

图6   《中国科学数据》论文数量在10篇及以上的学科领域(单位:篇)


从数据论文数据体量来看,共有266篇数据论文明确标注了所提交数据集的体量大小,共计约123 418.128 58GB,篇均463.977 93GB。这些数据资源主要分布在遥感技术、天文学、大气科学、自然地理学、测绘学、航天术、农业经济等领域,其中遥感技术领域的数据资源量占比达到总量的73.85%,排名前7位的学科领域共享数据资源量122 511.122 79GB,占比达到总量的99.27%。表3展示了数据资源量在1GB以上的学科领域。

表3   《中国科学数据》数据资源量在1GB以上的学科领域

序号 分类号 学科领域 数据资源量/GB
1 TP7 遥感技术 91143.71094
2 P1 天文学 20713.44531
3 P4 大气科学 4270.79490
4 P9 自然地理学 2153.20089
5 P2 测绘学 1746.42950
6 V52 航天术 1249.28000
7 F3 农业经济 1234.26125
8 S7 林业 259.21362
9 S4 植物保护 200.12193
10 G25 图书馆事业、信息事业 98.67366
11 P61 矿床学 61.78109
12 Q91 古生物学 61.72000
13 P5 地质学 48.52668
14 P7 海洋学 41.03018
15 Q94 植物学 30.43260
16 P3 地球物理学 29.39440
17 TP3 计算技术、计算机技术 20.25544
18 S6 园艺 17.30000
19 V35 航空港/站、机场及其技术管理 8.76000
20 S81 普通畜牧学 8.31133
21 Q1 普通生物学 6.12268
22 TP18 人工智能理论 5.39000
23 Q96 昆虫学 4.48000
24 Q95 动物学 2.86935

新窗口打开| 下载CSV


3.2.5 基金项目分布

《办法》第十九条明确规定“政府预算资金资助形成的科学数据应汇交保存至相关科学数据中心,并规定应当按照开放为常态、不开放为例外的原则进行开放共享”。在各类政府基金的资助下,我国产出了一大批具有较高学术影响力的学术论文[24],因此对样本论文的基金资助情况进行分析有助于明确《数据》及其论文对《办法》的落实情况。经统计,共有264篇样本论文得到了基金项目支持,支持率达95.65%;264篇文章共获得550个项目支持,篇均基金项目约2个。样本论文的基金资助情况如表4所示,基金类型以论文标注的基金信息为依据,对于基金信息不明确的划归到“其他项目”类。

表4   《中国科学数据》论文基金项目统计

基金类型 基金数量/个 基金类型 基金数量/个
中国科学院各类项目 166 各类高校自设项目 15
国家自然科学基金项目 101 国家社会科学基金项目 10
各类省市级地方项目 48 国家发展改革委促进大数据重大工程项目 9
国家重点研发计划 39 国家杰出青年科学基金项目 8
国家科技基础条件平台中心项目 27 国际合作项目 8
科技部科技基础性工作专项项目 23 公益性(气象)行业专项项目 5
科技部(CNERN)国家野外科学观测研究站运行服务项目 20 国家科技重大专项 3
CERN国家生态系统观测研究共享服务平台项目 18 中央高校基本科研业务费专项 3
国家级其他项目 13 其他项目 34

注:当一篇文章由多个同一类型的基金资助时,基金个数仅按1个计。

新窗口打开| 下载CSV


表4可知,样本论文形成了以国家级和中国科学院基金项目为主、各省市级项目为辅、各类专项基金和高校自设资助项目积极参与的基金资助体系,此外还有其他零星的资助项目及个别国外基金项目的资助等。可见,《数据》及其作者对《办法》的落实比较到位,体现出较高的责任、使命和担当。

3.2.6 被引频次分布

被引频次在一定程度上反映了文献的学术影响力,而高被引文献被认为是优质的文献情报源,其学术影响力更高[25]。因此,对《数据》刊载论文的被引情况进行统计,有助于明确其影响力和传播范围,在一定程度上也可反映共享数据集的利用率和价值效用。经统计,276篇样本论文中共有71篇获得引用,被引率为25.72%,总被引频次为111,篇均被引频次约0.40,被引频次最高的论文获得了9次引用,被引用1次的论文50篇,约占所有被引论文的70.42%,被引用2次的论文12篇,约占所有被引论文的16.90%。限于篇幅,表5仅列出被引频次3次及以上的论文基本信息,共计9篇。

表5   《中国科学数据》高被引论文统计

序号 论文题目 发表年期 被引频次/次
1 沉积岩显微数字图像数据的获取与信息收集标准 2020(03) 9
2 2000–2012年全国气温和降水1km网格空间插值数据集 2017(01) 6
3 云南省种子植物名录数据集 2018(01) 4
4 2009–2018年中国科学院海伦农业生态实验站气象数据集 2020(01) 3
5 2000–2019年中国海外电力项目信息数据集 2019(04) 3
6 1987–2017年海南岛海岸线数据集 2019(02) 3
7 1980–2015年岗日嘎布地区冰川分布数据集 2018(04) 3
8 2010年中国生态系统服务空间数据集 2018(04) 3
9 1909年、1927年、1937年南京城市历史地名数据集 2018(01) 3

注:依据论文被引频次降序排列。

新窗口打开| 下载CSV


从样本论文被引情况来看,数据论文的被引率、被引量均较低,表明当前数据论文学术影响力有待提高,从侧面也表明科研人员对数据论文的认可度不高,反映出数据集的利用率和价值效用发挥不足。

3.2.7 研究主题分布

关键词是指出现在文献标题、摘要以及正文中,能够表达文献主题内容、可作为检索入口的未经过规范化的自然语言[26],可反映论文研究目的、对象、方法、结论等,对其进行统计分析能在一定程度上了解论文的研究主题并揭示论文的内容特征[27]。经统计,276篇样本论文共有关键词932个,篇均关键词3.38个,其中最高频次关键词“中国”出现14次,根据普赖斯指数可以判断高频关键词的入围条件为Np=0.749(14)1/2≈2.80,本文将阈值定为3,即出现3次及以上的关键词可视为《数据》的高频关键词。经统计,样本论文共有高频关键词63个,限于篇幅,表6仅列举出现5次及以上的高频关键词,共16个。

表6   《中国科学数据》高频关键词统计

序号 关键词 频次 序号 关键词 频次
1 中国 14 9 一带一路 7
2 青藏高原 12 10 长期监测 7
3 数据集 9 11 岩石薄片 7
4 中巴经济走廊 8 12 偏光显微图像 5
5 海南岛 8 13 碳酸盐岩 5
6 MODIS 8 14 黄土高原 5
7 Landsat 8 15 显微图像 5
8 陆地生态系统 7 16 冰川 5

注:“MODIS”为“中分辨率成像光谱仪”、“Landsat”为“Landsat卫星”,是美国NASA的陆地卫星。

新窗口打开| 下载CSV


表6可知,“中国”是样本论文中出现频次最高的关键词,表明《数据》收录的论文主要以我国相关主题的研究为主,此外“MODIS”、“Landsat”也入选了高频关键词行列,表明有关国外问题或利用国外设备进行合作研究也较受我国科研人员青睐。

为了更加直观地展示样本论文研究主题概况,本文对关键词数据进行预处理后选取出现2次及以上的关键词,利用词云生成工具绘制了如图7所示的关键词云图。

图7

图7   《中国科学数据》样本论文关键词云图


图7可知,《数据》的研究主题分布较为广泛,重点涵盖如下研究主题:(1)青藏高原、海南岛、黄土高原、南海、鄂尔多斯盆地等具体地域的相关研究主题[28];(2)陆地生态系统、生态环境、农田生态系统、生态站、中国生态系统研究网络等生态类研究主题[29];(3)气候变化、气象数据、气象站点、气温、降水等气象类研究主题[30];(4)中巴经济走廊、一带一路、丝绸之路等与我国经济战略相关的研究主题[31];(5)植被覆盖率、生物多样性、植物多样性、植物名录、中子植物、植物物候、草地生物量等生物类研究主题[32];(6)科学数据、数据集、数据共享、数据集成等科学数据类研究主题[33];(7)黑土、土壤含水量、全国第二次土壤普查、土壤调查等关于土壤类的研究主题[34];(8)碳酸盐岩、岩石薄片、碎屑岩、沉积岩等岩石类研究主题[35];(9)遥感、遥感数据、遥感服务等遥感技术类研究主题[36]。此外,偏光显微镜图像、正射影像、显微图像、显微图集、MODIS、中子仪、长期观/监测等关键词的出现,表明利用这些仪器或设备是样本论文常用的数据采集方法[37]。同时,还有目标检测[38]、地理信息系统(GIS)[39]、冰川[40]、光合有效辐射[41]等其他方面的研究主题。

4 结论、问题及建议

4.1 结论

综合以上论述,本文得出如下主要结论。

(1)从文献数量来看,随着科学数据资源总量的持续积累和数据出版模式的不断发展,《数据》载文量经过了初创期、成长期、发展期三个阶段。

(2)就核心作者而言,形成了以何国金、刘时银、康建芳、赵常明、龙腾飞等为核心的作者群体;并形成了以孙晓敏、郭永平、杨风婷、杜鹃、李小丽等为核心节点的合作群体,且合作群体之间联系紧密、关系稳定。

(3)就核心机构而言,形成了以中国科学院大学、海南省地球观测重点实验室、中国科学院华南植物园等为核心的机构群体;同时形成了以中国科学院地理科学与资源研究所、中国科学院沈阳应用生态研究所、中国科学院新疆生态与地理研究所等为核心的机构合作群。

(4)从学科领域来看,样本论文主要分布在地球物理学、大气科学、植物学、林业、海洋学等领域,共享的数据资源主要分布在遥感技术、天文学、大气科学、自然地理学、测绘学等领域。

(5)从基金项目来看,样本论文得到了各类基金的大力支持,基金支持率达95.65%,仅有12篇论文未得到基金支持,表明《数据》在切实践行办刊宗旨,积极落实《办法》要求。

(6)就被引情况而言,样本论文的被引率、被引量均较低,表明其影响力和认可度还不高,作用发挥还不足,需要提升论文影响力和数据利用率。

(7)从研究主题来看,样本论文主要针对气候、生态、生物、科学数据、遥感、地质等主题展开了研究,既有当前热点主题,又有传统研究主题,且自然科学类研究主题多于社会科学类研究主题。

4.2 问题

自创刊以来,《数据》在数据出版方面发挥了引领作用,为数据出版、科学数据开放共享、《办法》落实等发挥了一定作用。但通过分析发现,目前《数据》发展尚存在如下问题。

(1)文献数量偏少。随着科学数据管理研究的不断深入及《办法》的推进落实,科学数据开放共享的力度势必会继续加大,但《数据》目前为季刊且年均载文仅55.2篇,这与科学数据开放共享的良好发展态势不相符合。

(2)参与力量薄弱。样本论文的核心作者群和机构群主要集中在中国科学院系统,而其他机构参与较少,机构分布不平衡现象较为突出,《数据》作为中国科学院主管的学术期刊,吸收本系统产出学术成果无可厚非,但若其他机构参与力量不足则不利于期刊的可持续发展。

(3)学科分布不均。据《国家科学数据资源发展报告(2018)》统计,我国当前已积累的科学数据资源主要分布在生命科学与医学、地球与环境科学、物理与化学、遥感对地观测、天文与空间科学、农业和林业科学等领域[42],但《数据》论文较少涉及医学、环境科学、化学、空间科学等领域,且几乎未涉及社会科学领域,学科分布呈现出明显的马太效应。

(4)学术影响不够。样本论文篇均被引仅0.40次,且仅有71篇被引用,未被引率达74.28%,不难看出样本论文的被引率、被引量均较低,还未受到广大科研人员的关注,学术影响力显然不高。

(5)外流现象严重。从全球范围来看,我国产出了较多的数据论文,但由于科技评价体系等诸多因素影响,国内研究者青睐于选择国外出版物,其中大部分数据论文发表于国外英文数据期刊,较少出现在国内相关刊物上,表明我国数据论文在一定程度上存在外流现象。

4.3 建议

针对上述问题,本文提出以下建议供《数据》编辑部及其利益相关者参考。

(1)加大文献收录。《数据》每期的论文收录数量呈现出逐步上升态势,随着数据出版的继续发展,《数据》可适时考虑由季刊逐步扩展为双月刊,时机成熟时甚至可扩展为月刊,同时增加版面,以增加收录量提高影响力,缓解载文量不足与科学数据开放共享力度逐渐增强之间的矛盾。

(2)扩大作者群体。《数据》可每年发布并更新选题指南,并优稿优酬给予作者相应的激励。也可考虑设立面向中西部欠发达省份科研人员的专栏并鼓励其投稿,多向中国科学院系统以外的机构抛出橄榄枝,积极吸纳系统外作者论文,扩大《数据》机构群体和作者群体,如此也可在一定程度上扩大其传播范围。

(3)平衡学科领域。部分优势学科领域产出的数据论文及数据量的确更为丰富,但如果仅关注这些优势学科或热门领域而忽略其他学科领域,可能会出现“偏信则暗”的现象。因此,应鼓励科研人员扩大研究范围,同时《数据》要注意吸收社会科学领域的数据论文,以改善学科领域间的不平衡性,跨学科研究、交叉学科研究也值得考虑。

(4)提升学术影响。由于我国数据出版起步较晚等诸多原因,样本论文的学术影响力还不高。国家层面、科技管理部门可制定出台相关的专门协同政策,引导科研人员积极利用数据论文及其共享出来的数据集;地方政府、科研院所、高等院校、数据中心等可制定相应的激励机制,鼓励科研人员产出高质量的数据论文;《数据》自身也要加大宣传推广,使相关领域的科研人员明确《数据》的存在价值,加强对数据论文的利用。

(5)控制数据外流。国家层面要制定合理的激励机制,鼓励研究人员将数据论文发表于国内数据期刊,并着力提升我国数据期刊的水平、质量及学术影响力,同时,在制定科技评价政策与指标时也可适当向数据论文倾斜。此外,我们在正视数据论文外流的同时,也应该与国外同行展开竞争,数据期刊要努力做好引入工作,吸引国际来稿,形成数据论文双向流动的局面[43]

5 结语

我国数据期刊及部分常规期刊虽然在数据论文出版方面开展了大量实践,但目前由于缺少相关标准规范,在某些方面仍然存在不足。可喜的是,我国已启动《数据论文出版元数据》国家标准研制工作,将在标准化对象、引用信息、版本控制、学科分类、数据论文质量指标、元数据标准应用场景等方面对数据论文的出版进行规范化约束,该标准的研制对我国科学数据论文出版工作具有重要的推动价值和现实意义[44],也将为数据期刊等的进一步向好发展提供规范依据,更好地促进科学数据开放共享。

本文在对国际数据期刊发展态势进行简要总结的基础上,以《数据》收录的论文为例,运用文献计量法从多个维度对我国数据期刊载文的基本特征进行了分析,所得结论、所析问题、所提建议有助于科研人员明确我国数据期刊载文的基本趋势和总体情况,进而为学术界明晰我国数据期刊的发展现状提供参考,为研究人员科学合理地撰写、发表数据学术成果提供借鉴。同时,本文旨在抛砖引玉,希望对相关问题的探讨能够引起学界的重视并继续加强研究,更期望能够为我国数据期刊的发展提供一定思路。本文虽然得出了一些结论,但还存在以下不足:(1)仅以《数据》刊载的数据论文为研究对象,而未考虑其他期刊数据论文的载文情况,所得结论有待进一步证明;(2)仅对样本论文的基本特征进行了描述性统计分析,并未探讨各种特征与现象形成的更深层次的机制、机理与影响因素等。未来,可选取更多的数据论文作为样本进行调研,扩大调研范围,对相关问题进行范围更广、层次更深的研究。

致谢

感谢温明霞女士在原始数据收集、数据预处理等工作中的辛勤付出。感谢中国科学院计算机网络信息中心王卫军博士慷慨分享全球科学数据出版发展态势相关调研数据。

参考文献

新华网.

中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见

[EB/OL]. [2021-03-26]. http://www.xinhuanet.com/politics/zywj/2020-04/09/c_1125834458.htm.

URL     [本文引用: 1]

温亮明, 李洋.

我国科学数据开放共享模式、标准与影响因素研究

[J]. 图书情报研究, 2021, 14(1): 33-41.

[本文引用: 1]

张丽丽.

科学数据共享治理:模式选择与情景分析

[J]. 中国图书馆学报, 2017, 43(2): 54-65.

[本文引用: 1]

马瀚青, 杨小梅, 侯春梅, .

数据论文联合出版模式及数据论文出版

[J]. 中国科技期刊研究, 2018, 29(7): 698-703.

[本文引用: 1]

撒旭, 王健, 范智萱, .

数据期刊同行评议视角下科学数据质量评价指标识别

[J]. 图书情报工作, 2020, 64(17): 123-130.

[本文引用: 1]

欧阳峥峥, 青秀玲, 顾立平, .

国际数据期刊出版的案例分析及其特征

[J]. 中国科技期刊研究, 2015, 26(5): 437-444.

[本文引用: 1]

刘晶晶, 顾立平.

数据期刊的政策调研与分析——以Scientific Data为例

[J]. 中国科技期刊研究, 2015, 26(4): 331-339.

[本文引用: 1]

雷秋雨, 马建玲.

数据期刊的出版模式与发展研究

[J]. 图书与情报, 2015(1): 112-116.

[本文引用: 1]

李修.

数据期刊出版质量控制研究

[J]. 编辑之友, 2017(4): 33-38.

[本文引用: 1]

王丹丹.

科学数据出版过程中的数据质量控制

[J]. 图书情报工作, 2015, 59(23): 124-129.

[本文引用: 1]

黄国彬, 郑霞.

数据论文的内容规范性研究

[J]. 图书情报工作, 2019, 63(22): 129-140.

[本文引用: 1]

王玲.

数据期刊带给图书馆的影响与挑战

[J]. 图书与情报, 2015(5): 25-28; 64.

[本文引用: 1]

关琳琳, 马瀚青, 王长林.

创办国际数据期刊的实践与思考——以Big Earth Data为例

[J]. 中国科技期刊研究, 2020, 31(1): 56-62.

[本文引用: 1]

刘灿, 王玲, 任胜利.

数据期刊的发展现状及趋势分析

[J]. 编辑学报, 2018, 30(4): 344-349.

[本文引用: 1]

李俊洁, 黄晓磊.

生物多样性数据论文发表趋势分析

[J]. 生物多样性, 2016, 24(12): 1317-1324.

[本文引用: 1]

近年来有关科学数据共享的呼声越来越高, 基于同行评审的生物多样性数据论文也受到越来越多的关注, 并出现了一些专门发表数据论文的数据期刊。本文总结了近年来生物多样性数据发表方面的进展, 选择两本代表性数据期刊(Biodiversity Data Journal和Scientific Data), 分析了它们自创刊以来的发文数量、涉及生物类群、文章浏览量和被引次数等指标。结果显示两本数据期刊的发文量都呈稳步增长趋势, 其生物多样性数据论文覆盖了包括动物界、植物界、真菌界在内的众多生物类群, 文章浏览量和被引次数方面也有可喜的表现, 说明数据论文正在被越来越多的研究者所接受。对文章作者国别的分析则显示了不同地区的研究者在发表生物多样性数据论文或数据共享方面的不均衡。建议相关领域的中国研究者和期刊关注生物多样性数据论文和数据共享政策, 更多地践行数据共享。

井红波.

数据期刊:未来学术期刊发展的新趋势

[J]. 编辑之友, 2016(5): 109-112.

[本文引用: 1]

温亮明, 郭蕾, 王晓东, .

基于关联规则的国内外数据期刊载文特征比较分析——以《Scientific Data》和《中国科学数据》为例

[J]. 情报科学, 2019, 37(1): 112-121.

[本文引用: 1]

宋佳, 温亮明, 李洋.

科学数据共享FAIR原则:背景、内容及实践

[J]. 情报资料工作, 2021, 42(1): 57-68.

[本文引用: 1]

《中国科学数据》编辑部.

关于我们

[EB/OL]. [2021-03-27]. http://www.csdata.org/p/static/33/.

URL     [本文引用: 1]

中国科学院.

《中国科学数据》入选中国科学引文数据库(CSCD)来源期刊

[EB/OL]. [2021-04-09]. http://www.cas.cn/yx/201704/t20170424_4598039.shtml?from=timeline.

URL     [本文引用: 1]

王卫军, 李成赞, 郑晓欢, .

全球科学数据出版发展态势分析——基于 Web of Science数据库的调研

[J]. 中国科学数据, 2021. DOI: 10.11922/csdata.2021.0019.zh.

DOI:10.11922/csdata.2021.0019.zh      [本文引用: 2]

朱亮, 孟宪学.

文献计量法与内容分析法比较研究

[J]. 图书馆工作与研究, 2013(6): 64-66.

[本文引用: 1]

李洋, 温亮明.

《科学数据管理办法》落实现状、影响因素及推进策略研究

[J]. 图书情报工作, 2021, 65(2): 65-74.

[本文引用: 1]

李洋, 温亮明.

国家社科基金论文学术影响力分析——基于国内图情类核心期刊刊载论文

[J]. 图书情报研究, 2017, 10(1): 53-58.

[本文引用: 1]

钟旭.

高产作者率和论文率指标统计值误差修正方法研究

[J]. 情报杂志, 2002(11): 28; 27.

[本文引用: 1]

图书馆·情报与文献学名词审定委员会. 图书馆·情报与文献学名词[M]. 北京: 科学出版社, 2017: 116.

[本文引用: 1]

郑彦宁, 许晓阳, 刘志辉.

基于关键词共现的研究前沿识别方法研究

[J]. 图书情报工作, 2016, 60(4): 85-92.

[本文引用: 1]

杨阳, 李伟, 王根绪.

2005–2015年青藏高原东南部贡嘎山峨眉冷杉林土壤物理性质和元素数据集

[J]. 中国科学数据(中英文网络版), 2020, 5(2): 20-29.

[本文引用: 1]

郑涵, 于贵瑞, 朱先进, .

2000–2010年中国典型陆地生态系统实际蒸散量和水分利用效率数据集

[J]. 中国科学数据(中英文网络版), 2019, 4(1): 59-72.

[本文引用: 1]

周玉科, 高琪.

1960–2012年青藏高原极端气候指数数据集

[J]. 中国科学数据(中英文网络版), 2017, 2(2): 70-78.

[本文引用: 1]

韩立钦, 张耀南, 田德宇, .

中巴经济走廊(喀什至伊斯兰堡段)高分正射影像数据集

[J]. 中国科学数据(中英文网络版), 2019, 4(3): 122-132.

[本文引用: 1]

何延彪, 庄会富, 王雨华.

缅甸植物多样性数据集

[J]. 中国科学数据(中英文网络版), 2018, 3(1): 29-37.

[本文引用: 1]

黎建辉, 吴超, 张丽丽, .

1科学数据出版调查与分析

1[J]. 中国科学数据(中英文网络版), 2016, 1(1): 70-80.

[本文引用: 1]

李够霞, 吴瑞俊, 姜峻, .

1997–2011年黄土丘陵区连续施肥试验土壤水分数据集

[J]. 中国科学数据(中英文网络版), 2020, 5(3): 236-241.

[本文引用: 1]

常晓琳, 侯明才, 刘欣春, .

塔西北与华南地区晚奥陶世碳酸盐岩(含生物碎屑)显微图像数据集

[J]. 中国科学数据(中英文网络版), 2020, 5(3): 189-195.

[本文引用: 1]

梁琛彬, 程博, 何国金.

1970–2017年海南岛Landsat系列卫星遥感深加工数据集

[J]. 中国科学数据(中英文网络版), 2019, 4(2): 120-129.

[本文引用: 1]

赖文, 蒋璟鑫, 邱检生, .

南京大学岩石教学薄片显微图像数据集

[J]. 中国科学数据(中英文网络版), 2020, 5(3): 26-38.

[本文引用: 1]

宋志勇, 回丙伟, 范红旗, .

雷达回波序列中弱小飞机目标检测跟踪数据集

[J]. 中国科学数据(中英文网络版), 2020, 5(3): 277-290.

[本文引用: 1]

程军, 张萍.

蒙元时期丝绸之路旅行家行程GIS数据集

[J]. 中国科学数据(中英文网络版), 2018, 3(3): 54-63.

[本文引用: 1]

段红玉, 姚晓军, 刘时银, .

1991年和2015年唐古拉山冰川边界/范围矢量数据集

[J]. 中国科学数据(中英文网络版), 2020, 5(2): 157-165.

[本文引用: 1]

唐利琴, 刘慧, 胡波, .

1961–2014年中国光合有效辐射重构数据集

[J]. 中国科学数据(中英文网络版), 2017, 2(3): 40-51.

[本文引用: 1]

国家科技基础条件平台中心.

国家科学数据发展报告

[R]. 北京: 科学技术文献出版社, 2019: 9.

[本文引用: 1]

李洋, 温亮明.

我国科学数据外流:表现、问题与对策

[J]. 图书馆杂志, 2019, 38(12):72-81; 115.

[本文引用: 1]

中国科学院计算机网络信息中心.

国家标准《数据论文出版元数据》立项启动会顺利召开

[EB/OL]. [2021-04-23]. http://www.cnic.cas.cn/xwdt/zhxw/202103/t20210322_5981297.html.

URL     [本文引用: 1]

/