〔摘 要〕洛特卡定律是文献计量学的重要理论基础,是文献计量学的三大定律之一。借助它人们可以了解作者发文的结构。广义洛特卡定律是含约束条件的模型,它的参数估计较为复杂,帕欧提出了近似估计法,但其法仍较为复杂,且参数估计方法不科学。为了科学地估计参数本文在帕欧估计结果的基础上,通过回归法给出了更为简单、更为科学 的估计法。
〔关键词〕洛特卡;参数估计;新估计法
DOI:10.3969/j.issn.1008-0821.2010.12.005
〔中图分类号〕G256 〔文献标识码〕A 〔文章编号〕1008-0821(2010)12-0018-04
New Lotka Parameter EstimationZhou Aimin
(Library,Zhengzhou University,Zhengzhou 450001,China)
〔Abstract〕Lotkas Law is an important theoretical basis of bibliometrics,is one of the three laws of bibliometrics.Through which people can understand what the author issued a documents structure.Generalized Lotkas law is a model with constraints,and its parameter estimation is more complicated,Paoli proposed approximate estimation,but the law is still a bit of complicated.This paper based on the results of Paolis estimation,gave a more simple estimation method through the regression method.
〔Keywords〕Lotka;parameter estimation;new estimation
洛特卡定律(Lotkas law)是由美国学者洛特卡于1926年率先提出的描述科学生产率频率分布规律的文献计量学定律,这是描述科技生产率的一个经验定律。它是从某一时期,某一主题学科领域众多科技工作者的科技生产率的观察数据中模拟出来的一个著者频率与论文数量之间的关系式,可以用文字表述为:在某一研究领域,写x篇论文的作者数量大约是写一篇论文作者数量的1/x2,所有写一篇论文的作者占作者总数的比例大约为60%。它是文献计量学的重要理论基础,是文献计量学的三大定律之一。
后来,大量学者通过研究发现,洛特卡当年的研究仅仅局限于指数等于2的情况,这仅是x的指数的一种特殊情况,一般情况下,指数不为2,指数一般在1.2~3.8之间。于是人们提出了广义洛特卡定律:
y=Cxn(1.2<n<3.8)
我们知道y的含义是写x篇文章的作者数占全体作者数的比,也就是概率,那么
人们常用的最小二乘洛特卡参数拟合方法存在着明显的缺陷,求n并不考虑约束条件,用无约束非线性回归法估计一个参数n,然后用帕欧公式估计另一个参数C,使估计结果的误差过大,学者张贤澳早在1992年写了一篇文章大声疾呼《最小二乘法确定洛特卡定律参数的方法应当终结》。
为了消除人们对用最小二乘法确定洛特卡定律参数的方法怀疑,有人提出了K-S检验,通过了K-S检验,人们就认为数据符合洛特卡分布,参数估计合理,可以接受估计的模型。有人认为在验证洛特卡定律时,使用K-S检验有更大的优越性,K-S检验似乎已经成为验证洛特卡定律的惟一标准。
图书情报界普遍利用的K-S检验的步骤:
(1)计算实际发表某个篇数的作者的概率,作者的概率按篇数从小到大排序。
(2)计算实际作者的累计概率。
(3)计算理论发表某个篇数的作者的概率。
(4)计算理论作者的累计概率。
(5)计算实际作者的累计概率与理论作者的累计概率之差的绝对值Dx。
D=∑xk=1yk-∑xk=1k
(6)若给定检验显著水平α,若α取为0.01,则可以用
D临界=1.63∑zx
来近似计算。然后将所得结果与各Dx的最大值
Dmax=max{D1,D2,D3,…Dm}
相比较,若Dmax<D临界则认为理论分布与实际分布是一致的,若D临界Dmax,则认为理论分布与实际分布是不一致的。
例一:吕淑仪同志调研了1994-2003年《茂名学院学报》的作者与发文量的数据如下:表1 《茂名学院学报》论文数与作者数统计
论文数x作者数y占总数的百分比f112358.2926128.913167.58431.42552.37631.42
利用图书情报界普遍应用的最小二乘法求得《学报》作者洛特卡分布模型为
fx=0.6948x2.28731表2 《茂名学院学报》数据最小二乘法拟合结果
观察值最小二乘拟合值误 差0.58290.6948-0.11190.28910.14230.14680.07580.05630.01950.01420.0292-0.0150.02370.01750.00620.01420.01150.0027
2010年12月第30卷第12期洛特卡参数的新估计法Dec.,2010Vol.30 No.12D临界=1.63211=0.112213827
竟然通过了图书情报界普遍利用的K-S检验,其实上述的图书情报界普遍利用的K-S检验的步骤是对K-S检验的错误运用,上述例子只是错误运用K-S检验的恶果。
K-S检验的正确步骤应该是:
(1)计算实际发表某个篇数的作者的概率,作者的概率按篇数从小到大排序。
(2)计算实际作者的累计概率。
(3)计算理论发表某个篇数的作者的概率。
(4)计算理论作者的累计概率。
(5)计算实际作者的累计概率与理论作者的累计概率之差的绝对值Dx。
D临界=1.63∑zx
事实上绝大部分洛特卡分布都通不过K-S检验。通常人们所以能通过K-S检验,是人们错误地运用K-S检验的结果,人们把
Dx=max1<k<n∑xk=1yk-∑xk=1k,∑xk=1yk-1-∑xk=1k
错误地变成了
Dx=max1<k<n∑xk=1yk-∑xk=1k
一般情况下,
y1-1-2>D临界
正如钟云志、王春香、杜香莉等人所言:“K-S检验尽管对连续分布函数检验十分有效,但必须要求欲检验的函数F0(x)为完全事先已知的函数。若F0(x)中含有未知参数,则未知参数需要用检验样本来估计后才能确定。然后再用该样本检验F0(x)。这种检验统计学中称为分布族检验。对于该种检验,K-S检验实际上是不适合的。”
若利用帕欧公式直接把参数C代换之,用非线性回归法估计参数n,理论上可以,但因帕欧公式过于复杂,操作上却难以实现。
为了在约束条件下用非线性回归法估计参数n,本文作者以0.01步长从1.8到4计算了帕欧公式,并用各种模型拟合,通过比较得到:
C=0.991688×1-e-n-1.01671.04040.934411?
决定系数R2=1,因此,洛特卡分布可表达为:
f=0.991688×1-e-n-1.01671.04040.934411? xn
这是一个非线性回归模型,我们可用非线性最小二乘法程序进行回归。
例二:钟旭统计了《新疆大学学报?1自然科学版》论文,统计结果表明,1989-1998年该学报共刊载论文770篇,只统计第一作者,总作者数为451人,数据如下:表4 《新疆大学学报?1自然科学版》论文与作者数统计
论文数
xX=lnx第一
著者第一著者
比例yY=lny103070.6807-0.384633620.69314718760.1685-1.780819531.098612289290.0643-2.744195641.386294361130.0288-3.547379951.60943791280.0177-4.034190661.79175946940.0089-4.72170471.94591014980.0177-4.034190682.07944154240.0089-4.72170492.19722457710.0022-6.1192979112.39789527310.0022-6.1192979
我们若用最小二乘法确定洛特卡定律参数,就有
f=0.7155x2.369
我们利用非线性回归模型对数据进行一元非线性回归,求得参数n,利用帕欧公式进而求得第二个未知参数C,就有
f=0.677364x2.2229表5 《新疆大学学报?1自然科学版》数据的两种拟合结果的比较
观察值最小二乘
拟合值误差非线性回归
拟合值误差0.68070.7155-0.03480.67680.00390.16850.13850.030.14510.02340.06430.0530.01130.05890.00540.02880.02680.0020.0311-0.00230.01770.01580.00190.0189-0.00120.00890.0103-0.00140.0126-0.00380.01770.00710.01060.00900.00880.00890.00520.00370.00670.00220.00220.0039-0.00170.0051-0.002900.0031-0.00310.0041-0.00410.00220.0024-0.00020.0033-0.0011
第一个样本最小二乘拟合值残差比较大,这就是不考虑约束条件的恶果。
例三:吕淑仪同志的数据再分析:
利用图书情报界普遍应用的最小二乘法求得《学报》作者洛特卡分布模型为
fx=0.6948x2.28731
我们利用非线性回归模型对数据进行一元非线性回归,求得参数n,利用帕欧公式进而求得第二个未知参数C,就有
f=0.582077x1.928表6 吕淑仪同志的数据两种拟合结果的比较
观察值最小二乘
拟合值误差非线性回归
拟合值误差0.58290.6948-0.11190.58180.00110.28910.14230.14680.1530.13610.07580.05630.01950.07000.00580.01420.0292-0.0150.0402-0.02600.02370.01750.00620.0261-0.00240.01420.01150.00270.0184-0.0042
例四:《数理统计与管理》总第1~46的期有关数据列于表:表7 《数理统计与管理》总第1~46的期有关数据
论文数x著者数著者数百分比f13430.89562270.0705390.0235410.0026510.0026720.0052
利用图书情报界普遍应用的最小二乘法求得作者洛特卡分布模型为:
f=0.8405x3.069
我们利用非线性回归模型对数据进行一元非线性回归,求得参数n,利用帕欧公式进而求得第二个未知参数C,就有
f=0.8963x3.6027表8 《数理统计与管理》有关数据两种拟合结果的比较
观察值最小二乘
拟合值误差非线性回归
拟合值误差0.89560.84050.05510.8963-0.00070.07050.1002-0.02970.0738-0.00330.02350.0289-0.00540.01710.00640.00260.0119-0.00930.0061-0.00350.00260.0060-0.00340.0027-0.00010.00520.00210.00310.00080.0044
从上边后三个例子的最大残差看,我们提出的非线性回归模型要优于图书情报界普遍利用的线性回归模型。一元非线性回归模型求得的洛特卡分布优于一元线性回归模型求得的洛特卡分布。
结 语
本文通过回归技术将复杂的约束回归问题转化为非线性回归问题,先估计一个参数n,再计算帕欧公式得到参数C,进而得到洛特卡分布,这为各位学者利用洛特卡分布提供了一个新的思路和方法。本回归方程精度牺牲较小,但计算量大为减少,有利于人们利用洛特卡定律正确研究论文作者的结构。图书情报界和科学计量学界广为利用的K-S检验是错误的方法,不符合K-S检验的原意,另外,K-S检验不能给出数据是否符合洛特卡分布的正确判别,因此应当终结。
参考文献
[1]峁诗松.统计手册[M].北京:科学出版社,2006:172.
[2]钟云志,王春香,杜香莉.洛特卡定律研究中一个问题的探讨[J].图书情报工作,2005,(1):45-46.
[3]吕淑仪.《茂名学院学报》1994-2003年论文及作者统计分析[J].茂名学院学报,2005,(3):76-79.
[4]钟旭,闫永胜.洛特卡定律在合著者及全体著者中的验证研究[J].情报科学,2000,(6):564-565.
[5]许雯燕,康平立,龚勋.科学生产率的分布及其产生机制[J].现代情报,2007,(9):212-214.
[6]张贤澳.最小二乘法确定洛特卡定律参数的方法应当终结[J].情报学刊,1992,(6):415-419.
[7]常琳,孙静春.我国文献计量学中作者问题研究现状分析[J].现代情报,2010,(7):145-150.