中国科技期刊引文环境的可视化*
Visualization of the citation environments of Chinese scientific and technological journals
周萍(Zhou Ping)ab
Loet Leydesdorff b
武夷山(Wu Yishan)a
a中国科学技术信息研究所
bAmsterdam School of Communications Research (ASCoR). University of Amsterdam
Kloveniersburgwal 48. 1012 CX Amsterdam. The Netherlands;
loet@leydesdorff.net; http://www.leydesdorff.net
摘要
以2003年中国科学技术信息研究所生产的中国科技论文引文数据库(CSTPC)收录的1576种期刊的引文数据为基础,通过特殊的程序处理,得到聚类期刊引文(即引用或被引)关系网络。应用矢量空间模型使这种网络可视化,用户可以在线获取有关结果。这种网络不仅可以表现期刊之间的专业相似性,更重主要的是,它可以反映期刊在局部网络中的引用/被引表现。同一种期刊在不同引用/被引环境中的表现各异,我们用局部网络中期刊当年的总引用/被引次数(C)除以该网络中当年发生的总引用/被引次数(即C/N值,)来表示局部引用环境中各期刊的表现。聚类期刊被引网络图可以反映期刊的相对影响;引用网络图则可以反映期刊参与科学交流的积极性(简称为引用积极性)。此外,我们还将总引与刊内自引进行了区分,并用椭圆将两种引用类型进行了形象化表达。用户可以根据自己的兴趣选择种子期刊,然后利用可视化程序如Pajek来获得相应的引用网络图。
关键词: 引用(citing),被引(cited),C/N值(C/N ratio),引用积极性(citing propencity),他引积极性(citing propencity to other journals),引用影响(citation impact),他引影响(citation impact to other journals),可视化(visualization)
1. 引言
在影响因子被广泛用于评价期刊和学术论文质量的同时,其客观性和可靠性受到了越来越多的质疑[1] 。为此,一些科学计量学家试图寻找更好的指标,以弥补影响因子的不足。我们也希望在这方面做一些事情。我们将期刊在局部网络中的引用表现可视化,读者一方面可以直观地了解期刊之间的专业相似性,另一方面,也可通过 C/N值了解期刊的引用/被引情况。
期刊引用数据库中期刊群之间的引用关系可被视为引用或被引期刊所构成的庞大矩阵,该矩阵不对称并且很空。科技期刊在代表专业的期刊群中互相引用[2],有些跨学科期刊在不同领域中引用和被引[3],但多数期刊却嵌入专业论文及其引用框架中。换言之,期刊之间的引用矩阵基本可以按专业结构进行分解[4],但这种划分并不是一件省心的事[5]。尽管反映专业的聚类每年都重复,但每年的分解结果受不同参数(如种子期刊、阈值大小、相似性标准以及聚类算法等)的影响。也就是说,期刊分布的矢量跨越多维空间,按不同专业类聚的期刊所形成的“云团”在这些空间中得以区分,但对这些云团边缘的描述还很模糊[6],并且随分析者所选视角的不同而各异[7]。
为了使聚类期刊之间的引用/被引模式可视化,Loet Leydesdorff与Susan Cozzens共同开发出了系列程序,并与统计软件SPSS和图形化工具Pajek相结合,获得相应的聚类期刊引用/被引网络图。我们将被种子期刊引用的期刊所构成的网络称为引用网络;而由引用种子期刊的期刊形成的网络称为被引网络(因为这一网络是因种子期刊的被引用而形成的)。所谓种子期刊,就是在获取网络图时所选定的期刊。同一种期刊可能出现在不同的引用/被引网络中,我们将期刊作为种子时所得到的引用或被引网络,称为该期刊的核心引用/被引网络。
为了方便用户获得有关期刊的引用/被引网络图,我们将2003年收录在中国科技论文与引文数据库中的1576种源期刊的引文数据进行处理后放到了网上,用户只需按照网上介绍的步骤进行简单操作I,即可得到有关期刊的引用/被引网络图。
2. 材料与方法
2.1 材料
数据来源:
2003年中国科学技术信息研究所生产的中国科技论文引文数据库(CSTPC)中1576种源期刊的引文数据 ;
Loet Leydesdorff开发的处理期刊引用数据的系列程序;
可视化软件Pajek。该软件对于学术研究是免费的,其下载地址为:
http://vlado.fmf.uni-lj.si/pub/networks/pajek/
2.2方法
期刊之间的引用关系形成了一个引用矩阵。我们用余弦函数作相似性测度,对矩阵进行归一化[8],从而了解期刊之间的专业相似性,期刊之间连线的粗细与这种专业相似性对应。余弦值越大,线条就越粗,所连接期刊的引用模式越相似,期刊所处领域或专业相似性就越强。(本文中表示期刊之间引用模式相似性的余弦值需大于或等于0.2,才能在网络图有连线,否则没有连线。)如果出现孤立期刊(即与其他期刊没有连线的期刊) ,表明该期刊与其他期刊的相似性余弦值小于0.2。但是,引文网络图中的线条只是期刊专业相似性的可视化表达,当网络中出现几个因专业而聚类的不同期刊群(即不同专业的期刊群)时,仅从线条的粗细难以进行专业区分,此时就需要参考因子分析结果(即运行统计分析软件SPSS得到的旋转后因子载荷矩阵)。
余弦矩阵相当于Pearson相关性矩阵[9],但余弦矩阵对于稀疏矩阵更有优势[10]。对于引用关系的可视化,余弦矩阵更为方便,因为它只提供正值,数值在0至1之间。代表期刊之间相似性的余弦值越大,表明这些期刊的引用模式越相近,反之则相反。按照期刊的引用和被引矢量之间的余弦值,绘制聚类期刊引用或被引网络图。这种网络包括与种子期刊发生直接引用/被引关系、并且引用或被引数占种子期刊总引用或被引数1%以上的所有期刊,由此产生的引用/被引网络通常包含10-50种期刊。
总之,可视化使更直观地了解局部的引文环境成为可能。但是,不同领域期刊之间的引文模式各异,即使同一学科如果不同专业,期刊的引文模式也会不同。例如,免疫学杂志的平均影响因子可能比毒物学杂志的高出一个数量级[11]。因此,除了总的影响影子(即数据库层次上的影响因子)以外,最好有指标反映期刊在局部引用/被引环境中的表现,这就是我们采用C/N值的原因。
我们以期刊在某一局部引用/被引矩阵中所占的引用/被引份额(Cij/N) 的百分比来描述期刊的引用/被引表现,这种局部矩阵是通过种子期刊获得的。矩阵中的期刊与种子期刊发生了引用/被引关系。为了排除与种子期刊发生引用/被引关系较少的期刊,使结果更突出,我们将阈值设定为1%,使矩阵中只包括那些与种子期刊在当年发生了引用/被引关系、并且引用或被引数占种子期刊当年总引用或被引数1%以上的所有期刊。Cij在引用矩阵中表示期刊i引用期刊j的次数,在被引矩阵中则为期刊i被期刊j引用的次数;N在局部引用矩阵中表示所有期刊在当年引用次数的总和,而在局部被引矩阵中是所有期刊在当年被引次数的总和,用公式表示为N = SCij ,S Cij/N = 100。需要强调的是,C/N不是影响因子(IF),因为C/N描述的是期刊在某一局部引用/被引网络中的表现,而影响因子描述的是期刊在某一数据库中的被引表现。在一个数据库中,一种期刊一年只有一个影响因子,而其某年的C/N则可以有很多,因为一种期刊可以出现在不同种子期刊的引用或被引网络中,与不同种子期刊发生引用/被引关系的次数各异(当然,也可能出现同一期刊在不同网络中的C/N相同情况) 。另外,期刊的引用通常有两种情况,即期刊内引用(或称期刊自引)和期刊之间引用(亦称他引)。关于期刊自引与期刊影响之间的关系,美国科学情报所在2004年进行了专门研究,发现影响因子越高的期刊(影响因子大于5.0),其自引比例越小;而在影响因子小于0.5的期刊中,自引比率较高。他们的结论是,在总引文数中自引比例在20%以下的期刊属于高质量刊物[12]。因此,我们认为有必要将期刊的自引与他引区分开来,以便从更深层次了解期刊的表现。我们将两种情况所对应的C/N进行了分别处理,用户可以直接从图中了解有关信息。
为了反映期刊的自引与他引情况,我们在计算C/N时将C分两种情况考虑,一种是期刊在某一局部网络中的总引用/被引次数,相应的C/N表示期刊在该网络中的总体引用/被引情况,在网络图中用椭圆的纵轴表示,以下称为纵轴C/N;另一种C/N中的C排除了期刊自引,只是他引数(也就是总引用数与自引数之差),相应的C/N表示发生在期刊之间的引用/被引关系,在网络图中用椭圆的横轴表示,以后称为横轴C/N。在不同引文环境中,纵轴C/N与横轴C/N所表示的意义不同:在引用网络图中,椭圆纵轴代表期刊引用和自引的总体情况,横轴则只代表期刊引用其他期刊的积极性(称为他引积极性) 。他引积极性越高,也就是期刊与其他期刊进行科学交流的积极性越强。而在被引网络中,椭圆纵轴代表期刊的总体引用影响,横轴则代表期刊对其他期刊所产生的引用影响(即他引影响) 。纵轴C/N与横轴C/N相差越大,相应的椭圆就越扁,该期刊的自引比例也就越大;如果椭圆扁到变成一条直线,表明该期刊基本上只有自引。如果这种情况发生在引用网络中,表明期刊的他引积极性几乎为零;如果发生在被引环境中,则表明期刊对其它期刊基本没有发生引用影响。反之,如果纵轴C/N与横轴C/N越接近,对应的椭圆就越接近于圆,表明期刊的自引比例越小。期刊相应的C/N值可以从引用/被引矩阵中查到。在矩阵的上方,有一个单子列出了期刊名及其相应的C/N值信息。其中x、y因子分别由横轴和纵轴C/N值再乘以100而得。
3. 结果II
为了使分析方法和结果具有一定的代表性,我们分别选取一种专业期刊和一种综合类期刊进行分析。专业类期刊选择了《材料工程》;为了对某些特殊情况进行分析,我们另外增加了《中国科学B》以便作进一步说明;综合类期刊选择《科学通报》,为了比较国内综合类期刊与国际综合类期刊的异同,我们分析了《Science》的引文环境,并与《科学通报》英文版《Chinese Science Bulletin》进行了对比。
3.1专业类刊物的引文环境(以《材料工程》为例)
3.1.1 被引网络
表1是《材料工程》在以不同期刊为种子期刊的被引环境中的有关数据,从中可以看出,在不同的被引环境中,《材料工程》的纵、横轴C/N各不相同。因此,不能孤立地用C/N值的大小来判断一种期刊的表现,C/N只有在具体引用/被引网络中才有比较意义。纵轴C/N的计算方法是《材料工程》在各刊的被引核心网络中的被引次数除以该核心网络中的总被引次数;横轴C/N则由《材料工程》在各刊的核心被引网络中的他引次数除以该网络中期刊的总被引次数。有关数据可以从脚注II提供的网址上获得。
表1:不同被引环境中《材料工程》的C/N值
|
种子期刊 |
2003年被引次数 |
N |
纵轴 C/N (%) |
横轴C/N(%) |
自引数 |
|
材料工程 |
184 |
5,524 |
3.3 |
3.0 |
18 |
|
金属学报 |
138 |
5,638 |
2.4 |
2.1 |
|
|
材料导报 |
129 |
4,563 |
2.8 |
2.4 |
|
*注:《材料工程》2003年在CSTPC中的影响因子为0.334。
图1是《材料工程》的被引网络,所涉及的都是材料学领域的刊物。其中,《金属学报》和《中国有色金属学报》的横轴C/N值较大,表明这两种期刊在该网络中所占被引次数的份额较多,因而在该网络中对其它期刊的引用影响也较大。此外,该网络中许多期刊的纵、横轴C/N值差别较大,说明这些期刊有较明显的自引现象。

图1:《材料工程》的核心被引网络 (cosine ≥ 0.2,节点大小:2).
从图1还可以了解有关期刊的学科相似性,图中连线较粗的期刊之间可能具有学科相似性,但若要进行准确判断,还需要用SPSS对引用矩阵进行运行,获得旋转后因子载荷矩阵,根据因子载荷大小,对期刊的学科相似性进行较为准确的判断(表2)。表2 显示,《材料工程》、《材料导报》、《材料科学与工程学报》、《航空材料工艺》以及《航空材料学报》在因子1的载荷最大,因此这些期刊的学科相似性较强;而《材料热处理学报》、《金属热处理》以及《机械工程材料》在因子2的载荷最大,因而这三种期刊具有学科相似性。其他期刊的学科相似性也可以进行类似分析。
表2:《材料工程》核心被引网络的旋转后因子载荷矩阵
|
|
因子 |
|||||||||
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
|
材料工程 |
.921 |
.134 |
|
|
.165 |
|
|
|
|
-.111 |
|
材料导报 |
.904 |
.129 |
.124 |
|
|
.102 |
|
|
.111 |
|
|
材料科学与工程学报 |
.864 |
|
|
|
-.290 |
.102 |
|
|
|
.131 |
|
宇航材料工艺 |
.754 |
-.159 |
|
|
|
|
|
.184 |
-.151 |
|
|
航空材料学报 |
.550 |
|
|
-.152 |
.441 |
-.162 |
-.269 |
-.190 |
-.152 |
|
|
材料热处理学报 |
|
.900 |
|
|
|
|
|
|
|
|
|
金属热处理 |
|
.874 |
|
|
.179 |
|
|
|
|
|
|
机械工程材料 |
|
.657 |
.203 |
|
-.221 |
|
|
|
|
-.105 |
|
铸造 |
|
|
.901 |
|
|
|
|
|
|
|
|
特种铸造及有色合金 |
|
|
.850 |
|
|
|
|
|
|
|
|
热加工工艺 |
|
.486 |
.740 |
|
|
.143 |
|
|
|
|
|
材料科学与工艺 |
.138 |
.252 |
.356 |
|
|
.124 |
-.163 |
.120 |
.286 |
|
|
钛工业进展 |
-.159 |
-.157 |
-.203 |
.732 |
|
|
|
|
-.251 |
|
|
金属学报 |
.107 |
.126 |
.183 |
.695 |
|
|
.142 |
|
.301 |
-.101 |
|
中国有色金属学报 |
.176 |
.107 |
.358 |
.579 |
|
|
|
|
.150 |
.246 |
|
硅酸盐学报 |
.110 |
|
-.115 |
|
-.829 |
|
|
|
|
|
|
西北工业大学学报 |
|
.124 |
|
-.125 |
.109 |
-.849 |
.139 |
|
|
|
|
兵器材料科学与工程 |
.189 |
.337 |
.203 |
-.116 |
|
.460 |
|
.129 |
|
.147 |
|
复合材料学报 |
.101 |
|
|
-.106 |
|
.134 |
-.852 |
|
|
|
|
中国表面工程 |
.153 |
|
|
-.126 |
.353 |
.381 |
.440 |
.254 |
|
-.358 |
|
中国塑料 |
|
-.137 |
-.139 |
-.154 |
.146 |
|
.213 |
-.771 |
-.244 |
|
|
材料保护 |
|
|
|
|
.124 |
|
.255 |
.620 |
-.293 |
|
|
稀有金属材料与工程 |
|
-.133 |
-.150 |
|
|
|
|
|
.811 |
|
|
稀有金属 |
|
|
|
|
|
|
|
|
|
.924 |
3.1.2 核心引用网络
《材料工程》的核心引用网络只包括了两种期刊 (图2) ,说明在CSTPC收录的期刊中,占2003年《材料工程》总引用次数1%以上(阈值= 1%)的期刊只有《材料工程》和《金属学报》。而后者的椭圆明显比前者大,说明后者的期刊引文数比前者多。由于两个椭圆都很扁,说明两种期刊的自引都非常明显。需要说明的是,《材料工程》在CSTPC中引用网络涉及的期刊少,只能说明该刊对国内期刊的引用积极性不高。由于CSTPC不包括国际期刊,因此这一网络不能反映《材料工程》对国际期刊的引用情况。由于该刊没有被SCI收录,我们也无从获得该刊对国际期刊的引用数据。我们推测《材料工程》的主要引用对象是国际期刊。
![]() |
图2. 《材料工程》的核心引用网络(cosine ≥ 0.2,节点大小:1.5)
3.2 网络图中的孤立期刊
在引用或被引网络图中,有时可能出现与其它期刊没有任何连线的期刊。我们以《中国科学B》为种子期刊,得到相应的核心被引网络(图3) 。在这一网络中,《冰川冻土》与其他期刊没有任何表示引用模式相似性的连线,表明该刊与其他期刊在被引模式上相似性差。从《中国科学B》的被引网络矩阵(表3)中,也能看出《冰川冻土》的引用模式与其他期刊有差距,并且该刊的自引比例非常高。

图3:《中国科学B》的核心被引网络(cosine ≥ 0.2,节点大小:2)
表3: 《中国科学B》的核心被引网络矩阵
|
|
科学通报 |
自然科学进展 |
中国科学 |