全面画像 而非简单指标
Online: 2019-08-15
本文引用格式
本报告强调:当有关科研人员及其机构的数据被压缩为简单的指标和排名时,有些信息将会遗失。本报告阐述了四类常见分析,如若误用将掩盖真实的科研表现;我们提出了四种可视化选项,用于解读每个度量指标下蕴含的更丰富的信息,以支持开展全面的、负责任的科研管理。
我们身边依然存在着声称可通过简单分析来评估论文、科研人员和机构表现的现象。尽管资深分析专家提出反对意见,诸多研究人员对此深表忧虑,但是大学管理人员依然乐此不疲。有关大学排名可信度的争议无休无止,但大学排名并不会因此而停止发布。我们不禁要问:诸如单点指标和线性排名之类的简单分析为何如此受到欢迎?
总结性统计数据和排名表拥有与生俱来的魅力。我们希望“看看谁做得最好”,就像观看体育比赛一样。但是,联赛积分表是既定成员之间通过进行一系列比赛而衍生的产物,谁在公开比赛中的综合成绩更好,谁的近期排名就越靠前。联赛积分表基于一维性的比赛名次,能够一目了然地显示出选手通过博弈而取得的排名。
但科学研究并非一维性事物:其过程很复杂,没有两个项目是完全一致的。研究机构也并非只有一项任务:他们既要搞教学,又要搞研究;他们的研究内容可能是基础性、分析性、应用性、协作性、社会性或行业性的;他们的研究活动可能跨越多个学科,每个学科都有各自的学术特点。
单点指标在某些类型的比较中是具有价值的,例如各大学类似的院系中每名研究人员的相对产出,我们从中可以了解到“类似”研究中的真正差异。但是,如果用单点指标替代全面的科研管理,例如在缺乏补充信息的情况下进行学术评估,甚至将单点指标视为招聘标准,那么,这类信息就具有一定的局限性,而且单个(或孤立)指标可能会被误用。
大学排名的编制可以通过使用分布在科研活动和学科领域中的替代性指标,即采用一系列变量来“描绘”一所大学。对每个变量进行标引,将其与计数、资金、影响力、时间及其他不兼容的项目相挂钩而进行量化;然后再通过加权将不同的项目组合在一起,从而得出最终分数。如果没有合理的数据管理机制,该分数将远远不能体现大学生活的丰富性与多样性。
每一个被过度简化或误用的指标,其实都有更好的替代选项。一般是先进行适当的、负责任的数据分析,再以图形方式来显示多个互补的维度。通过展开数据,将指标置于某个背景下,或将其置于更加广泛的场景中,我们能够看到新的特征,并能了解更多信息。下面的示例将充分显示这个举措是多么简单易行,而且能大幅提高我们解读科研活动的能力。
个体:h指数与射束图
物理学家Jorge Hirsch于2005年创建了h指数[1]。h指数是一种被广泛应用但却不一定能够全面反映科研人员论文和引文影响力的指标。它将一系列论文及其被引次数缩减为单个数字:一个具有指数h的研究人员(或团队,甚至是国家)至少已发表了h篇论文,并且每篇论文至少已被引用了h次。
h指数取决于职业生涯的长度和学科。因为随着时间的推移,不同研究领域之间的论文,其被引次数的积累速度各不相同。因此,h指数不适用于对个体进行比较;它通常不涵盖非期刊出版物;从数学的角度看,也不具有一致性[2]。
来自德国马普学会的L.Bornmann和R.Haunschild提出了另一种方法[3]:将研究人员的文章放在适合比较的背景中,每篇论文的被引次数均按与其具有相同学科和出版年份的期刊的平均值进行“规范化”,并将该值转换为百分位数。因为引文分布偏斜度很大,所以相对于单纯的平均值,此方法能更准确地衡量集中趋势。百分位数为90意味着该论文位于引用率最高的前10%之列;另外90%则是引文影响力较低的论文;中位数为50,即为论文影响力达到平均水平。
射束图可用于开展公平的、有意义的评估。它可迅速传达h指数永远不能传达的信息。如图1所示,该位研究人员的平均百分位数明显高于50,表明其发表的论文在其所属领域具有核心影响力。虽然论文的年度中位影响力在早年低于50,但我们可以看出,这一数值随着时间的推移逐渐超过了平均水平。
图1
图1
在此示例中,h指数= 23的科研人员在15年间共发表了44篇可被引用的期刊文献(单独编著或与其他人合著),其中包括不能以这种方式进行分析的报告和会议论文。通过对数据制图,我们可以发现隐藏在“h”值下的相对高被引文章的分布、偏斜和存在情况,以及消失的未被引用的文献。
图2
图2
图3
图3
左图:EMBO Reports的期刊影响因子趋势图显示了该期刊的影响因子变化趋势及其在相应学科全部期刊中的影响因子排序百分位变化趋势。右图:2017年引文分布图显示了中位数和整体分布情况。
期刊:期刊影响因子(JIF)与期刊引证报告(JCR)的对比
定量科研评估通常会关注出版物的集合,并将平均被引次数与基于学科的基准进行比较。评估人员还可以关注发表该文章的期刊。
JIF2(即基于两年的期刊数据)有两个基本要素:分子和分母。分子是指前两年在期刊上所发表的任何论文在当前年份中的被引次数;分母是指这两年所发表的实质性的科研论文(article)及综述(review)的数量。这两个基本要素可通过调整来适应更短或更长的时间间隔。仅以前一年论文情况为考量的JIF可凸显快速变化的领域;而以前面5年或10年的论文情况(数量及被引次数)为考量的JIF则更能彰显某个特定年份的期刊被引用情况。
预算有限且需管理诸多图书订阅工作的图书馆员通常使用定量期刊比较工具,出版商则使用该工具来跟踪系列出版物的绩效表现。问题在于,旨在科学管理期刊的JIF,却被不负责任地应用于更广泛的研究管理之中。
为解决这一问题,2018年的期刊引证报告通过更为丰富的数据背景修订了期刊画像。例如:以同一学科中百分位数来表达JIF值的条形图将能够快速显示其分区;此外,对研究人员至关重要的是,每篇文献对引文的贡献都将显示在覆盖所有文章的引用频率分布图中。
新的期刊画像清晰地表明,JIF是更大、更复杂的数据池的汇总。JIF对期刊经理而言可能是个很有用的工具。但对研究管理人员而言,JIF只能提供他们需要的关于期刊或论文价值的部分信息。
研究机构:平均引文影响力与影响力全貌 Impact Profile™
当我们将考察对象从个人和期刊转移到研究团队和机构时,将科研活动的数据通过单点指标进行分析所产生的局限性变得更加明显。
我们对主要从事生物医学研究的两家研究机构的学术出版物进行了考察。虽然他们的具体研究任务并不相同,但其总体研究方向大致相似;由类似的科研资助机构提供支持,并拥有相似的历史背景。为了帮助考察小组对这两个机构开展分析,我们汇总了其最近5年的学术论文出版记录,发现他们一共在期刊上发表了约1 250篇论文:A机构845篇,B机构403篇。
由于被引次数的长期累积速度因学科而异,因此,这些单位的论文被引次数需要针对相应学科和出版年份的世界平均值进行“规范化”,从而得出“学科规范化引文影响力”值(CNCI也称为“基准重构影响力” (Re-Based Impact,RBI))。A机构的平均CNCI为1.86,B单位为2.55(与世界平均值1.0相比)。
虽然这些CNCI值不具有统计功效,但在管理实践中我们通常可以假设:体量越小“影响”越大。然而,某一机构CNCI的平均值是由数百篇文章各自的CNCI加权平均而来。因此,平均影响力指标可能具有一定的欺骗性。
被引次数很容易出现偏斜分布,几乎任何样本都有很多低值和几个高值。因此,为了使论文被引情况可视化,我们以世界平均值为基准,对被引次数进行分类:首先,对于超过世界平均值的文章,我们分为四个区间,引文影响力分别为世界平均值的1~2倍, 2~4倍、4~8倍和8倍以上。
同时,我们针对引文影响力为世界平均值1.0~1/2倍,1/2~1/4倍,依此类推,又得出影响范围低于世界平均值的四个区间。我们将未被引用的论文单独放置在第九个区间中,揭示出每个数据集的整体“影响力全貌TM”(Impact Profile™),显示那些高被引和低被引论文的真实分布情况[6]。
这种方法所生成的图像为我们提供了远比图4总平均值更加丰富的信息。这个画像看起来更像是分布在世界平均值两侧的正态(高斯)曲线。我们可以“定位”每个机构的整体平均值,并检查其科研产出高出或低于该平均值的比例,甚至于可以发现对于两家机构来说,低于机构平均CNCI的论文占比情况。
图4
最重要的是,我们可以立即发现这两个机构的影响力全貌(Impact Profile™)并没有实质性差异,其客观地呈现出两家机构的研究表现。事实上,通过回顾原始数据,我们发现B机构之所以拥有较高的平均影响力,主要是因为其一篇发表在权威性期刊上的综述文章被高频率引用。
图5
图5
两家英国生物医学研究机构的五年影响力全貌(Impact Profile™)。每篇论文的被引用次数均按该篇论文出版年份和期刊所属学科基于世界平均值进行了“规范化”处理,并分配了围绕着该平均水平进行分组的一系列区间(世界平均值= 1.0;未被引用的论文居于最左)。纵坐标为每家机构的发文量百分比。
大学:排名与多因素研究足迹
诸如“平均引文影响力”之类的概括性指标仅为一种类型数据的简化。即便如此,与影响力全貌(Impact Profile™)中的图片相比,科研管理人员在使用平均值时仍会错失大量信息。
当排名列表将关于不同大学活动的多类别数据汇集成一个数字排行榜时,信息丢失问题将变得更加严重,并且有用的内容将更易错失。
对于我们所熟知的年度排名体系,如泰晤士高等教育(THE)的世界大学排名,数据收集相对广泛,算法容易理解并且经过了平衡处理。此外,排名还考虑了机构规模等因素,以避免榜单被最大规模的老牌大学所统治。
尽管如此,大多数读者仍“知道”哪些大学会排在前列。在这些大学求学或任教的学者们都知道该校科研活动的复杂性和多样性及学校产生的成果。通过对以下两所英国伦敦的著名大学进行比较,我们便可揭示这种差异。他们是拥有以理工传统的帝国理工学院,以及在社会科学领域享誉全球的伦敦政治经济学院。
通常情况下,没有人会对这两所大学进行直接比较,更不用说将其归于一类进行排名了。
即使是对同样拥有大型医学院的老牌知名综合大学进行比较,例如爱丁堡大学(第29名)和曼彻斯特大学(第57名),我们也无法解读排名结果。这些排名位次究竟意味着什么?
实际上,任何大学都有高分项和低分项,导致其相对位置不断变化。全球大学排名可能很吸人眼球,但只是一个参考点。即便是面向学生的、经过精心筛选的排行榜,也会隐藏太多细节,更不用说作为管理层的决策工具了。
证据有限公司(Evidence Ltd)于2002至2014年间在“英国高等教育研究年鉴”中使用的“研究足迹”(Research Footprint)更具信息性。研究足迹是一个雷达图,它使用多个坐标轴来显示多个指标,以便将每个实体与一个基准参考研究足迹进行比较,或者由一系列的机构“足迹”共享一幅画像。
表1 在2018年泰晤士高等教育(Times Higher Education)“世界大学排名” (WUR)中排名最高的全球大学位次
全球大学 | WUR位次 | 英国大学 | |
---|---|---|---|
牛津大学 | 1 | 1 | 牛津大学 |
剑桥大学 | 2 | 2 | 剑桥大学 |
斯坦福大学 | 3 | 9 | 帝国理工学院 |
麻省理工学院 | 4 | 14 | 伦敦大学学院 |
加州理工学院 | 5 | 26 | 伦敦政经学院 |
哈佛大学 | 6 | 29 | 爱丁堡大学 |
普林斯顿大学 | 7 | 38 | 伦敦大学国王学院 |
耶鲁大学 | 8 | 57 | 曼彻斯特大学 |
帝国理工学院 | 9 | 78 | 布里斯托大学 |
芝加哥大学 | 10 | 79 | 华威大学 |
图6
图6
两家英国高等教育机构(上排)的研究足迹显示出他们在主要学科获得基金资助情况(类似图表可用于论文量、学生和工作人员人数,或引文影响力)与来自相应对比组参考基准的对标情况。下排的研究足迹比较了几家著名生物医学实验室在其活跃的特定学科中的学科规范化引文影响力:这种情况下无需基准对标。
结论
本报告中讨论的单点指标(h指数、期刊影响因子、平均引文影响力)和大学排名都能提供一定信息,但都普遍存在被误解、不可靠且经常被误用的现象。我们可通过研究活动的“图片画像”这种直观的分析方法来替代简单指标。作为图解说明方法,“图片画像”具有以下特点:制作相对简单;可释放更多有价值的信息;并支持适当的、负责任的科研管理。
射束图,而不是h指数
射束图是显示研究人员发文量和影响力的单一“画像”,可显示研究人员的发文量和影响力在一年内的变化,以及如何随着时间推移而演变。百分位数的使用意味着可以将高度偏斜分布的引文影响力放在适当的背景中,同时考虑论文所属学科以及论文发表时间。若只使用单一值的h指数,我们仅能了解概况,无法正确开展科研评估工作。
期刊画像页面(A Journal Profile Page),而不仅是期刊影响因子(JIF)
期刊影响因子(JIF)经常被误用。它所关乎的并不是科研评估,而是期刊管理。若JIF所在的使用场景是将单点值设置为画像或更为广泛的科研活动,那么研究人员和管理人员将能够看到JIF可在文章层面提供极为多样性的绩效信息。JIF对于图书馆和出版机构或许具有一定的指南作用,但是如果我们要想获取更多的真实信息,JIF是远远不够的。
影响力全貌(Impact Profile™),而非孤立的学科规范化引文影响力(CNCI)
学科规范化引文影响力(CNCI)的平均值也可能具有误导性,因为它会淹没多样化的数据传播,从而导致某篇论文或某个期刊出现高度偏斜,并且很容易受到异常值的影响。Impact Profile™可将该偏斜转变成更容易理解的形式,并揭示潜在分布情况。通过显示世界平均值和机构平均值的分布,它可揭示出论文的相对被引情况(超出还是低于)。汇总值只能告诉我们X的平均值高于Y,但影响力全貌(Impact Profile™)不仅能够提出一系列问题,而且还能指引我们找到科研管理相关问题的答案:合作论文在哪里;同一个作者是否既发表了高被引论文也发表了低被引论文;是否随着时间的推移而改变等等。
研究足迹(Research Footprint),而非大学排名
大学排名表所压缩的信息量远远超过了绝大多数的分析指标。研究足迹可按学科或数据类型显示绩效。它可以用于比较两个机构或国家,也可将一系列的目标组织与相应的基准进行对标。至关重要的是,它证明了:仅仅通过一个数字,便能对两个复杂研究体系进行比较的方法根本不存在——实际情况要更加复杂!
“西方谚语说得好,一张图片胜过千言万语。一张数据分布可视化图形胜过一千个单点指标。”
作者简介
Jonathan Adams教授是科睿唯安旗下科学信息研究所(Institute for Scientific Information,ISI)的负责人。他是伦敦国王学院政策研究所的客座教授。由于在高等教育和政策研究领域的卓越贡献,Jonathan Adams在2017年被埃克塞特大学授予荣誉理学博士学位。
Marie McVeigh是科学信息研究所编辑团队的编辑伦理主管。她最初是宾夕法尼亚大学的细胞生物学家。自1994年以来,Marie McVeigh在科学信息研究所(ISI)及其前身机构任职,致力于期刊管理和文献情报工作并发表了一系列相关文章。她近期负责对《期刊引证报告》(JCR)进行改进。JCR增加了文章层面的具体信息和数据透明度,以支持正确使用期刊引证指标。
David Pendlebury是科学信息研究所的研究分析主管。自1983年以来,他一直致力于使用Web of Science数据来探寻科学研究的结构和动态。他与ISI创始人尤金加•菲尔德(Eugene Garfield)共事多年,并与亨利•斯莫(Henry Small)共同开发了《基本科学指标》(Essential Science Indicators)数据库。
Martin Szomszor博士是科学信息研究所研究分析主管。他曾是数据科学(Data Science)负责人,以及全球研究机构识别数据库(Global Research Identifier Database)创始人,他将机器学习、数据集成和可视化技术领域的广泛知识应用到相关工作中。他因与英格兰高等教育资助委员会合作创建了“REF2015具有影响力案例研究数据库”荣膺“2015年英国信息时代50强数据领袖”称号。
关于科学信息研究所(ISI)
科学信息研究所是科睿唯安旗下学术研究事业部(Web of Science Group,WoSG)的附属“研究院”,负责维护公司知识库。该知识库用于构建Web of Science及相关信息、分析内容、产品和服务;ISI通过活动、会议和出版物等形式对外进行知识传播,并开展研究以维持、扩展和改进知识库。
关于Web of Science
Web of Science是全球最值得信赖的、最大的、非出版机构的引文索引数据库平台,助力全球自然科学、社会科学及人文艺术领域的学术发现和引文分析。从政府部门到学术机构再到研究型企业,Web of Science每天为数百万用户提供可追溯至1900年的超过14亿条引文数据。Web of Science为期刊影响因子(Journal Impact Factor)、InCites和其他强大的、可信赖的引文影响力指标提供数据基础。Web of Science可帮助科研人员、研究机构、出版商和基金组织发现和评估来自权威期刊、书籍和会议录的,拥有百年以上历史的研究文献的引文影响力。
参考文献
An index to quantify an individual,s scientific research output
,
Plots for visualizing paper impact and journal impact of single researchers in a single graph
,DOI:https://doi.org/10.1007/s11192-018-2658-1 [本文引用: 1]
Citation Indexes for Science: A New Dimension in Documentation through Association of Ideas
,
New factors in the evaluation of scientific literature through citation indexing
,
Profiling citation impact: a new methodology
,
/
〈 | 〉 |