本
文
摘
要
指导老师| 傅洛伊 王新兵
核心技术成员| 吴可意
导读
说起《Science》、《Nature》和《Cell》这三本学术期刊,相信大家都不会陌生,甚至网上有流传说,学者们获评院士的必要条件之一,便是要发表过《Nature》或《Science》的文章。《Science》、《Nature》和《Cell》被统称为CNS三大刊。大家可能会好奇,CNS三大刊上的文章为什么如此受青睐?其和普通文章相比究竟有何特别的气质?它们的刊登背后有何共同规律和现象可以为我们所掌握?以及,手握大把的《Nature》或《Science》是否真的对学者们的职位上升有决定性的作用?这些学者中有多少人拥有漫长的学术生涯,又有多少人仅仅是“one hits wonder”?也有人想好奇地了解,CNS三大刊的大牛们在合作模式上有何特点,他们究竟爱和大牛们维持合作还是乐于采用广发合作帖的模式?另外,除了学者的自身信息,CNS文章作者们所在的机构、文章的领域等是不是都蕴含着各种我们意想不到的信息量?
要回答这么多问题,就需要获取CNS的相关数据进行分析。然而,目前网络上还没有包含这三个学术期刊的数据库,而且就算有了它们的学术信息,我们也很难直接从字符串里得到清晰、立体的学术信息。于是,带着对这三个期刊学术信息的好奇心,小编决定从头构建它们的学术画像,以此来深趴一下发表在CNS三大刊上的牛文究竟有哪些方面的独到特质,希望这些特质或多或少可以帮助广大民众揭开CNS的神秘面纱,还原其niubility养成的庐山真面,以此满足广大民众对CNS长期以来持有的各类好奇心。
CNS三大刊的学术画像如何构建?
在期刊的官网上爬取公开的学术论文信息。
爬取的内容包括:标题、作者、作者所属机构、发表时间、论文领域以及引用的文献信息。
对爬取得到的数据进行规范化和补足处理。
由于官网上的论文信息时间跨度很大,早年几乎都没有收录机构信息和领域信息;而且随着时间变化,同一机构的名称在表达上也会有些出入。
对最终数据进行可视化处理。
在可视化阶段,对于论文合作者关系,我们充分考虑学术信息在时间维度上的变化情况,开创性地每十年划分一个数据集,制作出合作者关系变迁图;对于机构信息,我们让机构与其实际地理位置产生联系,绘制出含经纬度信息的机构地图。除此以外,我们还绘制出了论文引用网络以及几个有趣指标在时间跨度上的演变。
图中关系怎么表示?
在合作者关系图中,用节点表示合作者,连边表示合作者合作完成过一篇学术论文,节点越大,就表示它参与的工作越多;在引文网络中,用节点表示论文,连边表示论文的引用关系,节点越大,就表示它的被引用量越多。
机构地图怎么联系节点与实际位置?
我们将机构与其地理位置(国家/州)进行匹配,再用匹配好的地理名称区匹配经纬度。在用Gephi绘图时,使用插件GeoLayout来放置节点。
文引用网络中的节点都来自同一期刊吗?
当然不是来自同一期刊的文章。但是构建的过程是先引入某一期刊(如《Cell》)的所有论文,再将这些文章的引用引入到Gephi中,所以引文网路中的文章是不能保证均出自同一期刊的。
在完成可视化后,我们在学术画像中得到了一些有趣的发现。下面给大家一一道来!O(∩_∩)O
《Nature》合作者关系
图1 《Nature》合作者关系变迁图
图2 《Nature》合作者关系总览图
从图1最直观的可以看到的是,随着时间变化,重要性高(合作数高)的点(蓝点)越来越小,数目也在不断增加,说明随着时间变化,学术大牛也在不断增加,但是和 他们合作的人也越来越多,呈现了一个学术不断发展壮大的趋势。另外,随着时间增 长,图的复杂度也在不断地增长。还可以观察到的是,在 1900 到 1950 这段时间里,重要性高的点非常分散且位于图的边缘,而重要性低的点往往聚在一起且交错复杂,可以猜测这段时间里,学术大牛往往喜欢单人作业或和少数人合作,而其他人则喜欢聚在一起完成一些项目。
值得注意的是,从20世纪初到20世纪70年代,蓝点学者W. F.Denning一直活跃在《Nature》学术界,拥有超高的合作量。通过搜索了解到,原来这位学者是来自英国的William Frederick Denning,他是一位业余的天文学家,这就是说,他并没有接受过专业的科学培养。他的主要成就在于对彗星的发现,比如周期性的72P/Denning–Fujikaw彗星和失落彗星D/1894 F1.
《Cell》合作者关系
图3 《Cell》合作者关系变迁图
图4 《Cell》合作者关系总览图
从时间维度上看,图谱边缘区域游离的社区在不断的减少,从一开始的游离在中心外的社区变成中期游离的节点或一组有合作关系的节点,到最后节点数量大减;中心区域的节点不断增多,社区结构不断复杂化,到最后看不出来有社区结构存在。这两个 区域的变化都暗示了 《Cell》 杂志上的论文合作都朝着领域交叉的方向进行。
图5 《Cell》 合作者关系图(2010-2019)
在2010-2019年的图中,图中出现了肉眼可见的巨变,游离的节点骤减,中心区域的结构也发生了很大的变化。在中心区域的边缘,出现了一群蓝点学者包括 Li Ding, Matthew H. Bailey 和 Jianfang Liu 等(他们在癌症和基因等方面有所发文),在这〸年里,他们互相之间和与其他较低合作数的学者进行了高强度的合作。但是他们的研究可能和其他的学者之间联系并不那么密切,导致他们飞到了中心区域边缘。
《Science》合作者关系
图6 《Science》合作者关系变迁图
图7 《Science》合作者关系总览图
《Science》 杂志和其他期刊很不同的一点在于:它在很长一段时间里,都没有大量的学者合作交流,所以从时间上来看,它的变化仅仅在于合作者数量不断增加。但是到了 21 世纪,可能是学术界的一股交流合作浪潮,让 《Science》 的合作关系图也开始变得交错复杂起来。
1990年代的时候,图中大社区开始萎缩,周围的游离点也开始相应的萎缩,这可能和杂志社的刊文策略有关,可能在这一年代里,杂志社减少了学术论文的刊载,增加了科普性文章的刊载,导致合作者数量减少。
《Nature》机构地图
图8 《Nature》机构地图
以信息最为丰富的 《Nature》 图为例。总的来说,美国在这三张图上有绝对的领先优势:首先,它拥有全球最多的机构数量;其次,它拥有全球发文数量最多的机构:加州大学系列,MIT等;最后,它的总体发文数量也是最多的。再把目光移到南美洲,巴西、智利和阿根廷等国家,发现它们也有很强的科研能力。旁边的北非、东非、南非也实力不菲,如肯尼亚、加纳,他们都在这张地图里占据了很大的版面。整个欧洲也拥有与美国匹敌的机构数量和发文数量,其中以英法德三国最为瞩目。再将目光驻足到亚洲地区,可以发现中印日三国的实力也不可小觑,但是相较而言,在《Nature》 的刊物发表上,中国还有上升空间。从世界角度看,若把节点大小(发文量)看作是机构的科研实力的某种维度体现的话,除了美国,英国,澳大利亚外,其他国家还没有科研实力非常出众的机构。
从大洲的层面上看,欧洲足以和北美分庭抗礼,而其他几个大洲里,亚洲主要靠中日印以四国的科研力量领跑第二阶梯,澳洲的两个国家和非洲南美的差距不算太大。
《Nature》领域分布
图9 《Nature》领域分布
图9.1 《Nature》领域分布 图例
在采集到Nature 的机构信息和领域信息后,我们决定将两个信息放到一起来发现领域与机构/地理位置的关系。图中的机构节点按该机构发文数量最多的领域染色。我们可以看到,在全球范围里,机构发文中Health sciences的数量最多,Scientific community andsociety次之,Earth and environmental sciences数量最低,这一大小比例和2010年代合作者领域关系是基本吻合的。虽然橙色的Physical science占比不高,但是它仍然在欧美板块中占据了一些影响力较高的机构。由于本图领域划分过大,导致图中的颜色较为分散,如果进一步细分领域,我们可能会获得更多有趣的信息。
《Cell》引文网络
图10 《Cell》引文网络
从图10可以看出,由左下到右上,时间不断增长,图的复杂交错性也在不断增长,这是由于年代越新,引用文献的年代越复杂造成的。另外,在这条对角线上,基本上各个年代都会出现少量重要性高的文章,这一点很有趣,而且他们都在各自年代的图的中部位置。而到了 00 和 10 年代后,这些重要性高的文章变得更多了,但是相对的重要程度却变低了。这个现象有两个解释:a. 年代久远的文章,被引用的时间去见更久,所以重要性更大,而今年的 文章还没有足够多的时间被其他文章引用;b. 近年来的学术发展,大牛不断增加,这一结果 和之前的作者合作关系图不谋而合。
CNS论文的标题长度、论文合作者数量、论文合作机构数量随时代的变迁趋势
图11 论文标题长度变迁
图12 论文合作者数量变迁
图13 论文合作机构数量变迁
从图形上看,可发现CNS三大刊的论文标题基本呈高斯分布,且不同年代的峰值也会发生偏移。综合对比,可发现三大刊的高斯峰值点无外乎均在5、10、15附近波动,而Science在1960和2010年代甚至还在20附近出现了二次小高峰,甚是有趣。在机构数量和合作者数量方面,我们可以看到曲线基本是随数量增多而下降的,说明一篇文章的作者数和机构数并非多多益善,存在着一个合作的最佳尺度!
按时间维度来分析,在论文标题长度和论文合作者数量上,《Nature》和《Science》都是随时间变化而增长,而《Cell》与其他们的变化相反;在机构数量变迁上,三本期刊的单篇文章机构数都在上升,这一点有两个原因:1. 随着时间变化,网站上关于机构的信息越来越丰富了;2. 需时间变化,机构间的合作也更加密切了。
总结
本次研究中,我们深度挖掘了潜藏在期刊(《Nature》,《Science》和《Cell》)数据中的有趣信息,如各个期刊的学术发展脉络,学术界的合作关系演变,领域的兴起,融合和衰落,标题的长度演变等。这些分析结果可以将研究人员从大量的原始数据中解脱出来,通过研究学术画像的形式,更加轻松地获取潜藏其中的信息,进而揭示学术界众多领域的发展历程和规律,寻找各领域中的关键学者、关键论文,探索可拓展的交叉新兴领域,并预测未来研究热点。
未来展望
虽然在本篇推文中我们引入了时间和空间维度的概念,但是我们要么是单独讨论时间维度,要么是单独讨论空间维度,并没有将二者真正结合在一起。为了达成这个目的,我们可以在机构地图中加入时间信息,将各国/各洲在时间尺度上的变化动态地表现出来;也可以在合作关系中加入作者受教育机构的地理信息(如:大学本科-研究生-博士),为进一步了解合作者关系提供有力的手段。
-感谢关注-
另外,欢迎大家关注Acemap的今日头条账号及微博账号,更快速的获得最新的信息噢
Acemap|爱思美谱
1.27亿篇论文,1.15亿学者,24000+期刊会议的学术大数据智库和可视化学术地图系统