相关性系数替代模型预测得分

探讨了在转录组学研究中,如何使用相关性系数替代传统预测得分构建样本得分的方法。这种方法在全转录组数据背景下,尤其是在采用TPM定量时,能有效反映样本特征。通过数学证明,揭示了权重向量与样本得分间的关系,为理解模型预测提供新视角。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们知道,构建模型后(得到权重参数),预测某个样本的得分(输出),只需要将该样本的按照模型的转化公式计算即可。但是,笔者最近看到两篇CNS的转录组学文献,采用了另一种构建样本得分的方法,使用相关性系数替代预测得分。

具体来讲,这些文献中,在求得模型的权重向量W后,对于样本X,其预测得分用 score=Cor(W,X) 替代。而常规做法中,预测得分采用的是 predict=W^TX 。上述score与predict之间是否总是一致,一致性是否健壮?

和蔡霸对此进行了探讨,得出的大致逻辑如下:当自变量分量之和一定时,权重大的分量取值大、权重小的分量取值小时,预测值就会更大。感觉这种替代也是合理的。这些论文中采用的是全转录组学数据(全基因signature,而不是关键子集),而转录组学目前定量主要采用TPM,基本满足“自变量分量之和一定”的前提。

这种替代是否健壮,需要一定的数学证明。

杜老哥对此提出用协方差解释,思路通了。

首先,协方差的公式有如下写法:

      Cov(W,X)=E[(W-E(W))(X-E(X))] =\frac{\sum _{i=1}^n(W_i-\bar{W})(X_i-\bar{X})}{n-1}

      Cov(W,X)=E[(W-E(W))(X-E(X))] =E(WX)-E(W)E(X)

其中:E(WX)=\frac{\sum _{i=1}^nW_iX_i}{n-1}=\frac{W^TX}{n-1}

且:E(W)与E(X)是恒定值(因为X各分量的总和是确定值)。令 e=E(W)E(X)

则:Cov(W,X)=\frac{W^TX}{n-1}-e

再根据相关系数与协方差的转换公式,可得:Cor(W,X)=\frac{Cov(W,X)}{\sigma _W\sigma _X}=(\frac{W^TX}{n-1}-e)/(\sigma _W\sigma _X)

由于 \sigma _W是确定的,若假定\sigma _X 也确定,则 Cor(W,X) 与 W^TX 有对应关系。

 

若有大佬对本话题感兴趣,欢迎对此进一步探讨。

 

原论文:

Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response 中的 T cell dysfunction score构建方法。

Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分构建方法,其中mRNAsi构建采用的是相关性系数预测,mDNAsi采用的是常规的线性预测。

### 使用 IBM SPSS 计算关联系数和关联度的方法 在统计学中,关联系数通常指代皮尔逊相关系数或其他形式的相关性衡量指标,而关联度则可能涉及更复杂的分析方法,例如灰色关联分析或路径分析。以下是基于 IBM SPSS 的具体操作指南。 --- #### 1. **数据准备** 为了计算关联系数和关联度,在导入数据前需要确保以下几点: - 数据应以表格形式存在,每一列代表一个变量。 - 确保所有变量均为数值型,因为相关性和关联度的计算依赖于数值运算[^1]。 如果数据未经过标准化处理,可以在 SPSS 中执行此操作: ```spss DESCRIPTIVES VARIABLES=var1 var2 /SAVE. ``` 这一步会生成新的标准化变量(Z-scores),以便后续分析更加可靠。 --- #### 2. **计算关联系数** ##### 方法一:使用 Pearson 相关系数 Pearson 相关系数是最常用的线性相关性衡量工具之一。其值范围为 [-1, 1],其中正值表示正相关,负值表示负相关,绝对值接近 1 表明高度相关。 ###### 操作步骤: 1. 打开菜单栏中的 `Analyze` -> `Correlate` -> `Bivariate`. 2. 将目标变量拖入右侧框内。 3. 在选项卡中选择 `Pearson` 并勾选 `Flag significant correlations`. 运行后即可获得两两变量之间的相关系数矩阵及其显著性水平。 ##### 方法二:绘制散点图并观察趋势 除了直接计算外,还可以通过图形化方式初步评估变量间是否存在潜在关系。 ###### 操作步骤: 1. 转至 `Graphs` -> `Legacy Dialogs` -> `Scatter/Dot`. 2. 选取 `Simple Scatter` 图形类型并将所需变量分配到 X 和 Y 轴上。 3. 单击 OK 后查看生成图表是否呈现明显模式[^1]. --- #### 3. **高级技术—灰色关联分析下的关联度计算** 当面对多维时间序列数据时,传统的简单相关无法全面捕捉动态变化特征,此时引入灰色关联理论显得尤为重要。 ##### 步骤概述: 1. **无量纲化**: 针对每条曲线实施初值化转换公式\[X'_i(k)=\frac{X_i(k)}{X_i(1)}\]. ```spss COMPUTE normalized_var = original_var / LAG(original_var). EXECUTE. ``` 2. **确定差分数列**: 定义参考序列为标准轨迹,其余作为对比项逐一求解距离偏差。\[\Delta_{ij}=|x_0(j)-x_i(j)|\] 3. **构建关联系数向量**: 应用通用表达式:\[\xi _{{ij}}={\frac {\min \min |\Delta _{{ij}}|+\rho \max \max |\Delta _{{ij}}|}{|\Delta _{{ij}}|+\rho \max \max |\Delta _{{ij}}|}}\] 4. **综合评价得出最终关联度**: 加总所得权重乘积形成总体评判依据.\[r=\frac {1}{m}\sum ^{m}_{j=1}\xi _{{ij}}\] 由于 SPSS 默认功能不支持此类定制算法,因此推荐借助附加宏程序或者外部脚本文件完成自动化流程设计[^3]. --- #### 4. **注意事项与优化建议** 尽管上述过程提供了基础框架指导,但在实践过程中仍需注意若干细节问题: - 当样本容量较小时容易引发估计偏误现象,适当扩充观测数目有助于缓解这一状况[^3]; - 存在严重多重共线性的场景下单纯依靠常规回归模型未必能获取理想效果,考虑运用岭回归或者其他降维策略替代传统做法; - 结果解释阶段务必结合领域背景知识深入剖析因果链条逻辑链路. --- ### 示例代码片段展示 下面给出一段简化版SPSS语法实例演示如何批量生成标准化得分以及相应描述统计摘要报告: ```spss /* Standardize selected variables */ DESCRIPTIVES VARIABLES=x y z /SAVE. /* Generate descriptive statistics table */ FREQUENCIES VARIABLES=x_std y_std z_std /FORMAT=NOTABLE /STATISTICS=MEAN STDDEV MIN MAX SKEWNESS KURTOSIS. ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FarmerJohn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值