洛特卡参数的新估计法

首页

当前位置：主页 > 先进事迹材料 >

洛特卡参数的新估计法
发布时间：2021-07-10 09:59:10 | 浏览：次 |

〔摘要〕洛特卡定律是文献计量学的重要理论基础，是文献计量学的三大定律之一。借助它人们可以了解作者发文的结构。广义洛特卡定律是含约束条件的模型，它的参数估计较为复杂，帕欧提出了近似估计法，但其法仍较为复杂，且参数估计方法不科学。为了科学地估计参数本文在帕欧估计结果的基础上，通过回归法给出了更为简单、更为科学的估计法。
〔关键词〕洛特卡；参数估计；新估计法
ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０１０．１２．００５
〔中图分类号〕Ｇ２５６〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０１０）１２－００１８－０４
New Lotka Parameter EstimationZhou Aimin
（Library，Zhengzhou University，Zhengzhou 450001，China）
〔Ａｂｓｔｒａｃｔ〕Lotkas Law is an important theoretical basis of bibliometrics,is one of the three laws of bibliometrics.Through which people can understand what the author issued a documents structure.Generalized Lotkas law is a model with constraints,and its parameter estimation is more complicated,Paoli proposed approximate estimation,but the law is still a bit of complicated.This paper based on the results of Paolis estimation,gave a more simple estimation method through the regression method.
〔Ｋｅｙｗｏｒｄｓ〕Lotka;parameter estimation;new estimation
洛特卡定律(Lotkas law)是由美国学者洛特卡于1926年率先提出的描述科学生产率频率分布规律的文献计量学定律，这是描述科技生产率的一个经验定律。它是从某一时期，某一主题学科领域众多科技工作者的科技生产率的观察数据中模拟出来的一个著者频率与论文数量之间的关系式，可以用文字表述为：在某一研究领域，写ｘ篇论文的作者数量大约是写一篇论文作者数量的１／ｘ２，所有写一篇论文的作者占作者总数的比例大约为60%。它是文献计量学的重要理论基础，是文献计量学的三大定律之一。
后来，大量学者通过研究发现，洛特卡当年的研究仅仅局限于指数等于2的情况，这仅是ｘ的指数的一种特殊情况，一般情况下，指数不为2，指数一般在1.2～3.8之间。于是人们提出了广义洛特卡定律：
ｙ＝Ｃｘｎ（１.２＜ｎ＜３.８）
我们知道ｙ的含义是写ｘ篇文章的作者数占全体作者数的比，也就是概率，那么
人们常用的最小二乘洛特卡参数拟合方法存在着明显的缺陷，求ｎ并不考虑约束条件，用无约束非线性回归法估计一个参数ｎ，然后用帕欧公式估计另一个参数Ｃ，使估计结果的误差过大，学者张贤澳早在1992年写了一篇文章大声疾呼《最小二乘法确定洛特卡定律参数的方法应当终结》。
为了消除人们对用最小二乘法确定洛特卡定律参数的方法怀疑，有人提出了Ｋ－Ｓ检验，通过了Ｋ－Ｓ检验，人们就认为数据符合洛特卡分布，参数估计合理，可以接受估计的模型。有人认为在验证洛特卡定律时，使用Ｋ－Ｓ检验有更大的优越性，Ｋ－Ｓ检验似乎已经成为验证洛特卡定律的惟一标准。
图书情报界普遍利用的Ｋ－Ｓ检验的步骤：
（１）计算实际发表某个篇数的作者的概率，作者的概率按篇数从小到大排序。
（２）计算实际作者的累计概率。
（３）计算理论发表某个篇数的作者的概率。
（４）计算理论作者的累计概率。
（５）计算实际作者的累计概率与理论作者的累计概率之差的绝对值Ｄｘ。
Ｄ＝∑ｘｋ＝１ｙｋ－∑ｘｋ＝１ｋ
（６）若给定检验显著水平α，若α取为0.01，则可以用
Ｄ临界＝１.６３∑ｚｘ
来近似计算。然后将所得结果与各Ｄｘ的最大值
Ｄｍａｘ＝ｍａｘ｛Ｄ１，Ｄ２，Ｄ３，…Ｄｍ｝
相比较，若Ｄｍａｘ＜Ｄ临界则认为理论分布与实际分布是一致的，若Ｄ临界Ｄｍａｘ，则认为理论分布与实际分布是不一致的。
例一：吕淑仪同志调研了1994-2003年《茂名学院学报》的作者与发文量的数据如下：表１《茂名学院学报》论文数与作者数统计
论文数x作者数y占总数的百分比f112358.2926128.913167.58431.42552.37631.42
利用图书情报界普遍应用的最小二乘法求得《学报》作者洛特卡分布模型为
ｆｘ＝０.６９４８ｘ２.２８７３１表２《茂名学院学报》数据最小二乘法拟合结果
观察值最小二乘拟合值误差0.58290.6948-0.11190.28910.14230.14680.07580.05630.01950.01420.0292-0.0150.02370.01750.00620.01420.01150.0027
２０１０年１２月第３０卷第１２期洛特卡参数的新估计法Ｄｅｃ.，２０１０Ｖｏｌ.３０Ｎｏ.１２Ｄ临界＝１.６３２１１＝０.１１２２１３８２７
竟然通过了图书情报界普遍利用的Ｋ－Ｓ检验，其实上述的图书情报界普遍利用的Ｋ－Ｓ检验的步骤是对Ｋ－Ｓ检验的错误运用，上述例子只是错误运用Ｋ－Ｓ检验的恶果。
Ｋ－Ｓ检验的正确步骤应该是：
（１）计算实际发表某个篇数的作者的概率，作者的概率按篇数从小到大排序。
（２）计算实际作者的累计概率。
（３）计算理论发表某个篇数的作者的概率。
（４）计算理论作者的累计概率。
（５）计算实际作者的累计概率与理论作者的累计概率之差的绝对值Ｄｘ。
Ｄ临界＝１.６３∑ｚｘ
事实上绝大部分洛特卡分布都通不过Ｋ－Ｓ检验。通常人们所以能通过Ｋ－Ｓ检验，是人们错误地运用Ｋ－Ｓ检验的结果，人们把
Ｄｘ＝ｍａｘ１＜ｋ＜ｎ∑ｘｋ＝１ｙｋ－∑ｘｋ＝１ｋ，∑ｘｋ＝１ｙｋ－１－∑ｘｋ＝１ｋ
错误地变成了
Ｄｘ＝ｍａｘ１＜ｋ＜ｎ∑ｘｋ＝１ｙｋ－∑ｘｋ＝１ｋ
一般情况下，
ｙ１－１－２＞Ｄ临界
正如钟云志、王春香、杜香莉等人所言：“Ｋ－Ｓ检验尽管对连续分布函数检验十分有效，但必须要求欲检验的函数Ｆ０（ｘ）为完全事先已知的函数。若Ｆ０（ｘ）中含有未知参数，则未知参数需要用检验样本来估计后才能确定。然后再用该样本检验Ｆ０（ｘ）。这种检验统计学中称为分布族检验。对于该种检验，Ｋ－Ｓ检验实际上是不适合的。”
若利用帕欧公式直接把参数Ｃ代换之，用非线性回归法估计参数ｎ，理论上可以，但因帕欧公式过于复杂，操作上却难以实现。
为了在约束条件下用非线性回归法估计参数ｎ，本文作者以0.01步长从1.8到4计算了帕欧公式，并用各种模型拟合，通过比较得到：
Ｃ＝０.９９１６８８×１－ｅ－ｎ－１.０１６７１.０４０４０.９３４４１１?
决定系数Ｒ２＝１，因此，洛特卡分布可表达为：
ｆ＝０.９９１６８８×１－ｅ－ｎ－１.０１６７１.０４０４０.９３４４１１? ｘｎ
这是一个非线性回归模型，我们可用非线性最小二乘法程序进行回归。
例二：钟旭统计了《新疆大学学报?1自然科学版》论文，统计结果表明，1989-1998年该学报共刊载论文770篇，只统计第一作者，总作者数为451人，数据如下：表４《新疆大学学报?1自然科学版》论文与作者数统计
论文数
ｘＸ＝ｌｎｘ第一
著者第一著者
比例ｙＹ＝ｌｎｙ103070.6807-0.384633620.69314718760.1685-1.780819531.098612289290.0643-2.744195641.386294361130.0288-3.547379951.60943791280.0177-4.034190661.79175946940.0089-4.72170471.94591014980.0177-4.034190682.07944154240.0089-4.72170492.19722457710.0022-6.1192979112.39789527310.0022-6.1192979
我们若用最小二乘法确定洛特卡定律参数，就有
ｆ＝０.７１５５ｘ２.３６９
我们利用非线性回归模型对数据进行一元非线性回归，求得参数ｎ，利用帕欧公式进而求得第二个未知参数Ｃ，就有
ｆ＝０.６７７３６４ｘ２.２２２９表５《新疆大学学报?1自然科学版》数据的两种拟合结果的比较
观察值最小二乘
拟合值误差非线性回归
拟合值误差0.68070.7155-0.03480.67680.00390.16850.13850.030.14510.02340.06430.0530.01130.05890.00540.02880.02680.0020.0311-0.00230.01770.01580.00190.0189-0.00120.00890.0103-0.00140.0126-0.00380.01770.00710.01060.00900.00880.00890.00520.00370.00670.00220.00220.0039-0.00170.0051-0.002900.0031-0.00310.0041-0.00410.00220.0024-0.00020.0033-0.0011
第一个样本最小二乘拟合值残差比较大，这就是不考虑约束条件的恶果。
例三：吕淑仪同志的数据再分析：
利用图书情报界普遍应用的最小二乘法求得《学报》作者洛特卡分布模型为
ｆｘ＝０.６９４８ｘ２.２８７３１
我们利用非线性回归模型对数据进行一元非线性回归，求得参数ｎ，利用帕欧公式进而求得第二个未知参数Ｃ，就有
ｆ＝０.５８２０７７ｘ１.９２８表６吕淑仪同志的数据两种拟合结果的比较
观察值最小二乘
拟合值误差非线性回归
拟合值误差0.58290.6948-0.11190.58180.00110.28910.14230.14680.1530.13610.07580.05630.01950.07000.00580.01420.0292-0.0150.0402-0.02600.02370.01750.00620.0261-0.00240.01420.01150.00270.0184-0.0042
例四：《数理统计与管理》总第1～46的期有关数据列于表：表７《数理统计与管理》总第1～46的期有关数据
论文数ｘ著者数著者数百分比ｆ13430.89562270.0705390.0235410.0026510.0026720.0052
利用图书情报界普遍应用的最小二乘法求得作者洛特卡分布模型为：
ｆ＝０.８４０５ｘ３.０６９
我们利用非线性回归模型对数据进行一元非线性回归，求得参数ｎ，利用帕欧公式进而求得第二个未知参数Ｃ，就有
ｆ＝０.８９６３ｘ３.６０２７表８《数理统计与管理》有关数据两种拟合结果的比较
观察值最小二乘
拟合值误差非线性回归
拟合值误差0.89560.84050.05510.8963-0.00070.07050.1002-0.02970.0738-0.00330.02350.0289-0.00540.01710.00640.00260.0119-0.00930.0061-0.00350.00260.0060-0.00340.0027-0.00010.00520.00210.00310.00080.0044
从上边后三个例子的最大残差看，我们提出的非线性回归模型要优于图书情报界普遍利用的线性回归模型。一元非线性回归模型求得的洛特卡分布优于一元线性回归模型求得的洛特卡分布。
结语
本文通过回归技术将复杂的约束回归问题转化为非线性回归问题，先估计一个参数ｎ，再计算帕欧公式得到参数Ｃ，进而得到洛特卡分布，这为各位学者利用洛特卡分布提供了一个新的思路和方法。本回归方程精度牺牲较小，但计算量大为减少，有利于人们利用洛特卡定律正确研究论文作者的结构。图书情报界和科学计量学界广为利用的Ｋ－Ｓ检验是错误的方法，不符合Ｋ－Ｓ检验的原意，另外，Ｋ－Ｓ检验不能给出数据是否符合洛特卡分布的正确判别，因此应当终结。
参考文献
［１］峁诗松．统计手册［Ｍ］．北京：科学出版社，2006：172．
［２］钟云志，王春香，杜香莉．洛特卡定律研究中一个问题的探讨［Ｊ］．图书情报工作，2005，（1）：45-46．
［３］吕淑仪．《茂名学院学报》1994－2003年论文及作者统计分析［Ｊ］．茂名学院学报，2005，（3）：76-79．
［４］钟旭，闫永胜．洛特卡定律在合著者及全体著者中的验证研究［Ｊ］．情报科学，2000，（6）：564-565．
［５］许雯燕，康平立，龚勋．科学生产率的分布及其产生机制［Ｊ］．现代情报，2007，（9）：212-214．
［６］张贤澳．最小二乘法确定洛特卡定律参数的方法应当终结［Ｊ］．情报学刊，1992，（6）：415-419．
［７］常琳，孙静春．我国文献计量学中作者问题研究现状分析［Ｊ］．现代情报，2010，（7）：145-150．
推荐访问:洛特估计参数

上一篇：创天下之新,,领国际之先
下一篇：反应堆弹簧组件约束失稳现象有限元分析

相关内容

推荐排行

随即浏览

如有意见、反馈或投诉等情况，请随时联系我们，我们将会在48小时内给文章处理！