基于文献计量的科学与工程计算发展态势分析
A Bibliometric Analysis of Computational Science and Engineering Research
通讯作者:
Corresponding authors:
Online: 2018-04-15
科学与工程计算利用高级计算能力理解和解决复杂的科学和工程问题,是计算机实现在高科技领域应用的纽带和工具。进入21世纪以来,千万亿次、百亿亿次科学与工程计算将显著提升各国在国家安全、航空航天、生命科学、材料科学、气候与生态环境等领域的科技创新能力,产生重大科学理论和应用突破。该文以Clarivate Analytics公司的Web of Science TM核心合集数据库中2007–2016年间的科学与工程计算研究论文为数据源,利用Thomson Data Analyzer等工具定量分析了科学与工程计算的研究趋势、国际竞争格局、热点方向,揭示了国际科学与工程计算研究的整体发展态势。
关键词:
Computational science and engineering solves complex science and engineering problems by using advanced computational power, and it is a link and tool for computer application in high-tech fields. Since the 21st century, the petaflop computing and exascale computing will significantly enhance the scientific and technological innovation ability of all countries in the fields of national security, aerospace, life sciences, materials science, climate and ecological environment, resulting in a major science theory and application breakthroughs. In this paper, articles of science and engineering computing from 2007 to 2016 in the Web of Science TM core collection database of Clarivate Analytics are used as data sources. Thomson Data Analyzer is used to quantitatively analyze the research trends of science and engineering computing. The analysis results revealed the overall international competition situations of science and engineering computing by exploring the annual development trends, mainstream research countries, important research institutes and hotspots research areas.
Keywords:
本文引用格式
刘小平, 吕凤先.
Liu Xiaoping, Lv Fengxian
1 引言
计算科学是计算数学、应用数学、统计学、计算机科学以及科学与工程核心学科结合产生的交叉学科,运用高级计算能力来理解和解决复杂的科学与工程问题,致力于开发适用于所有领域的科学发现的计算方法[1]。计算科学主要包含三个部分:(1)运算法则(数值的和非数值的)、建模和模拟软件,用以解决科学(如生物学、物理学和社会学等)、工程以及人文学科中的各种问题。(2)计算机与信息科学,开发和优化各种系统硬件、软件、网络和数据分析技术,解决计算中需要解决的各种问题。(3)计算基础设施,支持解决科学和工程问题,支持计算机与信息科学自身的发展。计算科学的外围很广,包括计算力学、计算物理学、计算材料科学、计算化学、计算生物学、计算医学,包括系统科学、经济科学、社会科学中发展起来的计算理论。
科学计算能力包括计算机硬件、应用软件以及支撑软件的计算方法和算法的能力。2005 年,美国《计算科学:确保美国的竞争力》报告指出,尽管计算机处理器性能的显著增长广为人知,然而改进算法和程序库对于提高计算模拟能力的贡献与计算机硬件性能提升的贡献是一样的。计算科学是继理论方法和实验方法之后的第三科学支柱。21世纪最伟大的科学突破将从计算科学中获得。高性能科学与工程计算已经成为科学技术发展和重大工程设计中革命性的研发手段。21世纪第一个重大科学突破——2001年宣布的人类基因组的解码,应归功于大规模的计算科学。
近年来,美国、欧盟、日本等对科学与工程计算愈加重视,制定了科学与工程计算战略、路线图并进行了布局。2014年美国能源部(DOE)报告《百亿亿次计算的十大挑战》明确指出,百亿亿次计算将改变全球经济。2017年 DOE发布《基础能源科学的百亿亿次计算需求》报告[2],确定了面向2025年基础能源科学的前沿科学研究的百亿亿次计算需求,包括计算、数据分析、软件、工作流、高性能服务以及各种计算机需求。报告指出,7个领域,即新型量子材料与化学品,催化、光合作用和光捕获、燃烧,材料与化学发现,软物质,量子系统算法,基础能源科学设施的计算和数据挑战,数学与计算机科学变革基础能源科学,将因计算、模拟和先进工具的重大、持续进展而获得变革性机遇。欧盟委员会2016年宣布“欧洲云计划”,在欧洲建立有竞争力的数据和知识经济,旨在加强欧洲在数据驱动创新中的地位,提高其竞争力和凝聚力,并帮助建立数字化欧洲单一市场。高性能计算是实现该计划的重要方向,它对欧洲数据基础设施和欧洲开放科学云至关重要[3]。2014年,日本文部科学省发布了《科学计算路线图》[4],旨在通过科学计算解决药物发现与医疗保健领域,综合防灾,能源环境问题,社会经济预测等社会问题,以及科学计算与物理学融合,与基于空间科学、地球科学联合的行星科学融合,与生命科学、材料科学和制造的跨领域合作,实现新的科学发现。
在此背景下,准确把握科学与工程计算发展的新态势和新特征对该领域国家发展战略的制定至关重要。本文拟通过对科学与工程计算科学论文的定量分析,揭示科学与工程计算研究的国际发展态势、了解相关机构的研发动态、明确其关键问题与挑战,以期为我国在相关领域的工作提供有益参考。
2 数据来源和方法
科学论文是科技研究成果的重要载体和科研产出的主要形式,科学论文的测度分析是衡量国家科技创新发展态势和水平的主要依据[5]。本文以科睿唯安公司的Web of Science平台中的科学引文索引扩展版(SCIE)数据库为数据源,通过构建科学与工程计算领域的关键词检索式(见附录所示),对2007–2016年发表的相关论文进行了检索,其中文献类型包括研究论文(article,letter)、研究综述(review)和学术会议论文(proceeding paper),数据采集时间为2017年7月18日。利用分析工具TDA(Thomson Data Analyzer)对下载的论文数据进行清洗和分析,通过对发文量、国家/地区、研究机构、关键词的统计分析来展示科学与工程计算的研究趋势、国际竞争格局、热点方向。同时还利用Gephi工具分析科学与工程计算领域的国际合作关系。
3 结果与分析
3.1 发文量年度变化趋势
图1
3.2 主要国家
由图2可见,2007–2016年科学与工程计算领域发文量最多的国家依次是美国、中国、德国、法国、英国、西班牙、日本、意大利、印度及加拿大。发文量排名前10位的国家共发表论文19 985篇,占科学与工程计算总论文量的76.4%,而其他国家的发文量只占总发文量的23.6%。美国以30.1%的份额处于领先地位,其发文量占绝对优势,共发表论文7 868篇,其在科学与工程计算领域的科研活动相当活跃,且具有强大的科研实力。中国大陆的发文数量位居第2位,发表论文4 878篇,占总发文量的18.7%。德国的发文数量位居第3位,发表论文1 876篇,占总发文量的7.2%。法国和英国的发文数量相差不大,分别位居第4位和第5位,其发文量分别占总发文量的5.2%和4.9%。
图2
图3
科学与工程计算主要国家的SCI发文量和篇均被引次数相对位置分布如图4所示,可以看出重要国家在科学与工程计算研究领域的相对影响力。在科学与工程计算研究中,美国处于篇均被引次数和发文量均高于平均值的第一象限,属于双高(高篇均被引次数、高发文量)国家;中国处于发文量高于平均值、篇均被引次数低于平均值的第二象限,属于相对高发文量、低篇均被引次数的国家;法国、加拿大、英国、德国以及西班牙位于发文量低于平均值、篇均被引次数高于平均值的第四象限,这些国家虽发文量有限,但是其论文影响力较高;日本、印度和意大利处于发文量和篇均被引次数都低于平均值的第三象限,属于相对双低(低篇均被引次数、低发文量)国家,说明其科学与工程计算研究的影响力相对较低。
图4
3.3 主要研究机构
从发文量来看(表1),2007–2016年间科学与工程计算领域发文量排名前10位的研究机构中6家来自美国,3家来自中国,1家来自法国。这些研究机构由科研院所和大学组成。中国科学院是发文量最多的机构,其次是美国橡树岭国家实验室。在发文量排名前10的机构中,美国的6家机构分别是橡树岭国家实验室、伊利诺伊大学、阿贡国家实验室、桑迪亚国家实验室、加利福尼亚大学伯克利分校和麻省理工学院。中国的3家机构分别是中国科学院、国防科技大学和清华大学。法国的机构是法国国家科学研究中心。
表1 2007–2016年科学与工程计算领域发文量排名前10位的机构
排名 | 主要研究机构 | 国家 | 发文量/篇 |
---|---|---|---|
1 | 中国科学院 | 中国 | 508 |
2 | 橡树岭国家实验室 | 美国 | 300 |
3 | 伊利诺伊大学 | 美国 | 283 |
4 | 阿贡国家实验室 | 美国 | 264 |
5 | 国防科技大学 | 中国 | 258 |
6 | 桑迪亚国家实验室 | 美国 | 242 |
7 | 加利福尼亚大学伯克利分校 | 美国 | 226 |
8 | 清华大学 | 中国 | 218 |
9 | 麻省理工学院 | 美国 | 212 |
10 | 法国国家科学研究中心 | 法国 | 207 |
表2为科学与工程计算领域发文量排名前10位的中国机构,中国科学院居首位,其发文量是排在第2位的国防科技大学的2倍。2007–2016年,中国科学院的科学与工程计算研究发文量占该领域发文总量的10.4%。国防科技大学、清华大学、华中科技大学和浙江大学分别位居第2、3、4及第5位。
表2 2007–2016年科学与工程计算领域发文数量排名前10位的中国机构
排名 | 机构 | 发文量/篇 |
---|---|---|
1 | 中国科学院 | 508 |
2 | 国防科技大学 | 258 |
3 | 清华大学 | 218 |
4 | 电子科技大学 | 191 |
5 | 华中科技大学 | 167 |
6 | 浙江大学 | 128 |
7 | 西安电子科技大学 | 121 |
8 | 北京理工大学 | 121 |
9 | 上海交通大学 | 111 |
10 | 北京航空航天大学 | 106 |
科学与工程计算领域主要机构发文量和篇均被引次数相对位置分布如图5所示。美国橡树岭国家实验室和伊利诺伊大学属于篇均被引次数、发文量双高的机构,其研究规模和影响力处于非常高的水平。中国科学院处于高发文量,低篇均被引次数的第二象限,虽然发文量较高,但是其篇均论文影响力相对较低。美国阿贡国家实验室、麻省理工学院和加利福尼亚大学伯克利分校处于高篇均被引次数、低发文量的第四象限,虽然发文量较低,但是其篇均被引次数相对较高。中国国防科技大学、中国清华大学以及法国国家科学研究中心均属于相对双低(低篇均被引次数、低发文量)机构,研究规模和影响力相对较弱。
图5
3.4 研究论文的合作分析
3.4.1 主要国家的合作网络
利用Gephi方法分析科学与工程计算研究SCI发文量排名前10位国家的合作情况,结果如图6所示,其中节点的大小表示国家发文量的多少,连线的粗细代表国家间的合作强度。可以看出,美国是开展国际合作最多的国家,最主要的合作国家是中国、德国和英国。中国的主要合作国家为美国,中国与其他国家合作相对较少。印度的国际合作研究开展得相对较少。
图6
3.4.2 主要机构的合作网络
图7
3.5 研究主题分析
对科学与工程计算研究论文的主题词进行分析,可以大致把握该领域的总体特征、发展趋势、研究热点和重点方向。科学与工程计算研究近10年最受关注的主题词和新出现的主题词如表3所示。自2007年以来,并行计算、并行算法、图算法、高性能计算以及图形处理器(GPU)出现频次较高,说明这些相关主题一直备受研究人员关注。另外,每年都有新出现的主题词,如2008年的多重处理、图着色,2011年出现的计算思维、图形处理单元(GPUs)等,说明该领域的研究还在不断发展中。
表3 2007–2016年科学计算研究最受关注的主题词和新出现的主题词
年份 | 最受关注的主题词 | 新出现的主题词 |
---|---|---|
2007 | 并行计算、并行算法、图算法 | |
2008 | 并行计算、并行算法、图算法 | 多重处理、图着色、Cell宽带引擎、互连网络、自适应网格加密、基准、多核处理器、最短路径、整数规划、离散优化、德劳内三角算法、分布式并行算法、群智能、多核处理器、蚁群优化算法、NP完全、生物学和遗传学、电子断层、有序二元决策图、检查站 |
2009 | 并行计算、高性能计算、并行算法 | 云计算、百亿亿次级、自主计算、网络服务、动力学、编程模型、嵌入式系统、多核处理器、计算机集群、对流扩散方程、无线带宽、作业调度、百亿亿次计算、离散元法、拓扑、卡尔曼滤波器、操作系统、多目标、参数提取、图形处理器 |
2010 | 并行计算、并行算法、高性能计算 | 计算思维、图形处理单元(GPUs)、自动并行化、逆向工程、非负矩阵分解、粒子方法、主动学习、多发性硬化症、概率分布、面向目标的误差估计、并行计算、光谱分离、连续优化、贪心算法、图像增强、任务分配、增广拉格朗日乘子法、水平集方法、SAR、代理 |
2011 | 并行计算、高性能计算、图形处理器(GPU) | 数据密集型计算、智能电网、动力效应模型、降维、工作窃取、低密度奇偶校验码、Out-of-core、卷积、N-FINDR、在线算法、时序逻辑、分布式数据库、高性能计算集群、多GPU、等几何分析、数值模拟、异构、和声搜索、实时处理、任务并行 |
2012 | 并行计算、高性能计算、图形处理器(GPU) | 多核计算、阿姆达尔定律、聚类算法、拥塞控制、古斯塔夫森定律、多重散射、多速率滤波器、viennaCL、双层微通道散热片、回旋管、马尔科夫模型、GPU加速、OpenACC、图形处理、异构体系结构、内存机器模型、协同过滤、基因组学、BSP模型、全基因组关联研究 |
2013 | 并行计算、图形处理器(GPU)、高性能计算 | 至强融核、英特尔至强融核处理器、移动计算、并行执行、中子灵敏度、能源管理、多面体模型、有限差分、独立生成树、元启发式算法、混合整数规划、消息传递接口、随机存储器、脉动阵列、全局优化问题、超级计算、分布式文件系统、基于代理模型、基于密度的聚类、深度图 |
2014 | 并行计算、高性能计算、图形处理器(GPU) | 网络的拓扑结构、星形胶质细胞、粒子物理学、海量数据、ARM、分布式发电、基于Agent的仿真模型、METIS、排列图、现场可编程门阵列、高性能计算集群、线性代数操作、结构比对、回溯搜索算法、反向学习、推断执行、分组密码、D-MASON、射电天文学、强大缩放 |
2015 | 并行计算、高性能计算、图形处理器(GPU) | 英特尔至强融核协处理器、数据挖掘算法、混合并行、差分干涉测量、多集成核心(MIC)体系结构、变异策略、路宽、算法交易、计算机辅助工程、故障恢复、表面纹理、人工蜂群算法、空化、DPM、电芬顿法、英特尔集成核心架构、开放式多处理、P-SBAS、相位展开、交通流量 |
2016 | 并行计算、高性能计算、图形处理器(GPU) | 小型天线、超宽带天线、增材制造、动态特性、HSS矩阵、模块化、自动机处理器、阻塞与交换、CPU-GPU、文化算法、平衡问题、精确的指数算法、极端学习机、信息图、车间作业、马尔可夫决策过程、加速显式方法、自适应电源管理、气动性能、AlgoWiki |
4 总结与建议
本文通过定性调研美国、日本、英国、欧盟等在科学与工程计算领域的研究现状,结合对研究论文的定量分析,发现国际科学与工程计算研究呈现出以下特点。
(1)美国能源部发布了一系列报告,日本制定了科学计算路线图,明确科学与工程计算所面临的重大研究挑战、优先研究领域、相应的发展建议。2014年,美国能源部发布的《百亿亿次计算的应用数学研究》报告建议能源部“先进科学计算研究”计划优先采取行动,开展针对百亿亿次计算的应用数学研究计划,加大对建立新数学模型、数学模拟、数学模型离散化、数据分析、数学算法等的研发经费投入,促进应用数学的发展,从而促进百亿亿次计算性能的巨大提高。计算机科学家、应用数学家、应用科学家要紧密合作。投入经费支持计算机科学家参加应用数学的培训,支持数学家参加高性能计算方面的培训,使计算机科学家和数学家同时具备高性能计算和应用数学两方面的知识,促进百亿亿次计算的发展。
(2)2007–2016年,在科学与工程计算领域,美国和中国是发文量排名第1位和第2位的国家。美国和中国在科学与工程计算领域的科研活动相当活跃,且具有强大的科研实力。从近3年发文量来看,印度近年来科学与计算工程研究十分活跃。
(3)在研究机构层面,从论文产出数量角度分析,中国科学院是科学与工程计算领域发文量最多的机构,美国橡树岭国家实验室位居第2位,伊利诺伊大学位居第3位。从论文影响力角度分析,美国橡树岭国家实验室和伊利诺伊大学属于高篇均被引次数、高发文量的双高机构,其研究规模和影响力处于非常高的水平。中国科学院的发文量很高,但篇均被引次数偏低。
(4)在国家合作和机构合作方面,美国是开展国际合作最多的国家。与美国合作最多的国家是中国,其次为德国和英国。中国的主要合作国家为美国。美国的研究机构之间的合作相对活跃。中国的研究机构也形成了一个合作网络,中国科学院、清华大学以及国防科技大学相互合作密切,但和其他国家的研究机构的合作相对较少。
综上所述,中国在科学与工程计算领域已经开展了大量的研究工作,取得了一系列瞩目的研究成果,但发文的影响力有待进一步提升。基于以上发展态势及我国现状,建议:加强科学与工程计算的算法研究,加强科学与工程计算软件研究,加强面向国家重要需求的应用领域研究,培养多学科交叉型人才。科学与工程计算的发展和数学、计算机科学、物理学以及其他科学和工程技术的发展紧密相关,今后的科学与工程计算研究人员应尽可能兼备计算机科学、数学、物理科学和工程学等多方面的知识。要培养应用计算机进行数值试验和数值分析的人才,大力提倡跨部门、跨行业、跨学科的国内外学术交流与合作,跨学科联合或交叉培养博士生与博士后研究人员,加速推动科学与工程计算的发展,促进其新的研究成果在其他科学领域和工程中的应用。
附录
参考文献
Who is winning the global nanorace?
,Analysis of scientific papers, patent applications and funding, by geography and area of nanotechnology, reveals the different strengths and weaknesses of Europe with respect to the US, Japan and the rest of the world.
/
〈 | 〉 |