9.1 引言

9.1 引言

通过在社会科学引文索引中进行主题检索,截至2013年11月13日在图书馆和信息科学领域(Library and Information Science,LIS)共发现700篇期刊文献使用了回归分析方法。在排名前25的期刊中,我们发现了Scientometrics(SM)(64篇),Journal of the American Society for Information Science and Technology(JASIST)(46篇),Information Processing and Management(24篇),Journal of Informetrics(JOI)(12篇),Journal of Documentation(9篇)等期刊。2004年以前,LIS领域使用回归模型的学术论文每年均不超过20篇。2005—2010年,发文量逐渐增加,每年大约50篇。从2011年开始年度发文量跃升到100篇,表明在LIS中回归模型的应用越来越广泛。从上述期刊论文分析可知,由于LIS领域中存在了大量的分类问题(如作者贡献、期刊分类以及用户信息)以及计数资料(如发文量、专利数及引文量),因此二分类回归、有序变量回归、泊松回归以及负二项回归模型的应用非常广泛。本章中,我们对这些受限因变量模型进行详细说明,旨在进一步推广此类模型在LIS领域研究中的应用。

受限因变量模型是指一组回归模型,该模型中的变量取值范围是有限的,结果变量可以是二分类型,例如一篇期刊论文在特定时间段内是否被引用(“是”或“否”);结果变量取值范围可以是多个不连续的值,此类情况在同行审查和评估中经常见到;当测定某一事件的发生频率时,结果变量通常为计数资料,例如,某一特定年份的专利数或出版社出版书的数量。类似情况下,回归模型的选择总是由研究的问题而定。然而,通常情况下,回归模型的选择是经过深思熟虑的,合适的方案不止一种。对于同一数据集,运用多种模型分析是有益的,且有些时候有助于检测结果的稳定性。本章会对这一问题进行详细的说明。在结论中,我们就如何选择模型为读者提供了一些建议。

回归模型的一个优点是能够估计解释变量对因变量影响的大小(这里的“影响”可能会引起误解,因为它意味着因果关系,而回归分析本身不能排除由于遗漏变量引起的反向因果与假因果关系)。与关联性分析相反,回归分析允许研究人员定量地分析自变量的变化对因变量的影响。回归模型的另一个优点是能够很容易地识别和分离不同解释变量的影响。关于这一点,一个有趣的例子是由Bornmann、Mutz和Daniel(2013)所做的关于Leiden排名的多层次Logistic分析,该分析表明如果以大学的发文量在该领域被引频次前10%的论文中所占比例进行衡量的话,大学之间5%的变化可由大学之间的差异解释,而80%的变化可由国家之间的差异解释。回归模型也可以用来预测,尽管预测的质量需以模型质量为前提。但对于大多数模型而言,可以找到一些对预测结果的质量进行评估的方法和经验。

本章首先介绍了受限因变量模型,并采用JOI、JASIST、Research Management(RE)、Research Policy(RP)和SM杂志在2008—2011年发表的2271篇文献数据分析了引文频次的决定因素。第二部分介绍了在例证中如何建立数据集和设置变量。其中9.3节讨论了二分类变量Logit模型,9.4节和9.5节讨论了多响应和计数资料模型。最后一部分对如何使用Stata估计上述模型给出了一些总结性的评论和实践指导(Long,Freese,2006)。我们选择Stata作为估计该模型的工具是因为它在信息计量学中较为常用,然而这些模型同样可以在R、SPSS等其他统计学软件中运行。

本章主要目的是阐述受限因变量模型在LIS中的应用,并比较其在实际应用中的优缺点。由于篇幅所限,本章只对不同模型的理论进行基本的介绍。想要更深层次的了解,读者可以参考经济类课本(Greene,2011;Wooldridge,2012)和专业文献(如Agresti,2002,2010;Hilbe,2011)。