这段内容主要介绍了潜在变量估计(latent variable estimation)的方法,即如何计算研究人员的潜在生产力(λ)和学术影响力(θ),并探讨了合作网络中的一些数据处理策略及其可能带来的偏差。以下是详细的中文解释:
1. 潜在变量估计方法
-
数据来源:
- 对于每个学术网络模型和学科领域,研究使用了所有已发表的论文数据(直到某一年) 来估计潜在参数集合。
- 数据时间范围:1975年至2017年。
-
计算方法:
- 研究使用凸优化(convex optimization) 来估计潜在参数集。
- 采用自助法(bootstrap)修正的伪似然估计(pseudo-likelihood estimation) 进行参数估计。
- 每一年都进行 30 次重复采样(replications),然后取均值来确保估计的稳健性。
-
合作网络的构建:
- 对于每一年 ( T ),合作网络是基于 1950 年至 ( T ) 年的所有论文 构建的。
- 在每次 bootstrap 采样之前,会对合作网络进行修剪(pruning):
- 移除所有树状子图(tree subgraphs),因为在树结构中,模型参数可能无法唯一识别(non-identifiable)。
- 被移除的作者会被分配一个潜在变量值为 0。
-
作者的参数更新:
- 研究追踪每位作者的学术生涯:
- 每位作者从首次出现(作为第一作者或最后作者)起,每年都会获得新的潜在参数估计,直到 2019 年。
- 研究追踪每位作者的学术生涯:
2. 具体参数估计
- 使用 R 语言包 CVXR 进行凸优化计算 λ 和 θ:
- 每一年(1975-2017 年),对于每个学科:
- 采用bootstrap 采样所有已发表的论文。
- 进行 30 次重复计算(replications)。
- 最终的 λ 和 θ 值取 30 次重复计算的均值。
- 每一年(1975-2017 年),对于每个学科:
3. 合作持续时间的计算
- 假设:
- 如果两位作者合作发表论文,他们的合作关系实际在论文发表前 1 年开始。
- 计算公式:
t i j = Y i j lastpaper − Y i j firstpaper + 1 t_{ij} = Y_{ij}^{\text{lastpaper}} - Y_{ij}^{\text{firstpaper}} + 1 tij=Yijlastpaper−Yijfirstpaper+1- 其中:
- Y i j lastpaper Y_{ij}^{\text{lastpaper}} Yijlastpaper是两人合作的最后一篇论文的发表年份。
- Y i j firstpaper Y_{ij}^{\text{firstpaper}} Yijfirstpaper 是他们合作的第一篇论文的发表年份。
- 该公式计算的是两人合作的持续时间(年份)。
- 其中:
4. 评估因修剪网络导致的偏差
-
由于在网络中移除了树状子图,研究评估了被剔除作者的特征,以确保结果不受偏差影响。
-
对比 2017 年的合作网络:
- 保留的研究人员(retained population):
- 女性研究人员占比 35.6%。
- 被移除的研究人员(dropped population):
- 女性研究人员占比 31.9%。
- 结论:被移除的研究人员中,女性比例稍低。
- 保留的研究人员(retained population):
-
机构声望的影响:
- 保留的研究人员的机构声望得分为 5.51。
- 被移除的研究人员的机构声望得分为 3.41。
- 结论:
- 被移除的研究人员通常来自较低声望的机构。
5. 研究结论
- 研究使用 1950-2017 年的论文数据,通过凸优化和 bootstrap 估计 λ(生产力)和 θ(学术影响力)。
- 每一年计算 30 次重复估计,取均值,以提高估计的稳定性。
- 合作网络中的树状子图被剔除,被剔除的作者被赋予 0 值。
- 合作者的合作持续时间基于首次和最后一次合作论文的时间计算。
- 评估剔除网络子图的影响,发现被剔除的研究人员更多来自低声望机构,且女性比例略低。
6. 总结
- 研究采用了严格的统计方法来估计研究人员的潜在生产力和影响力。
- 合作网络的构建经过精心处理,包括修剪树状子图,以确保参数的唯一识别。
- 被剔除的研究人员主要来自低声望机构,且女性比例较低,表明学术合作网络中的不平等现象可能对某些群体产生影响。
这项研究通过精确的数学建模和数据处理,为理解学术合作如何影响研究人员的职业发展提供了重要的洞察。