新书速览|R语言医学数据分析实践

《R语言医学数据分析实践》

本书内容

公共医学数据库的应用越来越广泛,利用这些数据库进行论文写作可以显著减少研究成本和时间。《R语言医学数据分析实践》以公共医学数据为例,讲解如何使用R语言进行数据挖掘和统计分析。《R语言医学数据分析实践》通过大量精选的实例,对统计分析方法进行了深入浅出的介绍,旨在帮助读者解决医学数据分析中遇到的实际问题。《R语言医学数据分析实践》配套提供示例源码、PPT课件、作者微信群答疑服务

《R语言医学数据分析实践》共分为12章,内容包括R语言介绍、R语言基本语法、R语言数据清洗、R语言数据可视化、R语言统计建模分析方法、R语言机器学习实战入门、列线图在预测模型中的应用、临床数据挖掘中的生存分析、NHANES 数据库挖掘实战、GEO数据库挖掘实战、孟德尔随机化分析实战、单细胞测序实战。

本书作者

李丹,福建医科大学附属协和医院消化内科主任医师,教授,博士生导师,福建省高层次人才,福建省青年五四奖章、福建省青年科技奖获得者。中华医学会消化病分会青年委员。以通讯作者或第一作者身份发表SCI论文16篇。

宋立桓,曾服务于微软中国有限公司,国内互联网头部企业解决方案资深架构师,专注于人工智能和大数据挖掘分析,拥有多项人工智能发明专利。著有《Python深度学习从零开始学》《云原生构建数字世界》《MySQL性能优化和高可用架构实践》《PyTorch深度学习与企业级项目实战》等科技著作。

蔡伟祺,福建医科大学协和临床医学院2022级专业学位硕士研究生,精通R语言和公共医学数据库挖掘。

本书读者

《R语言医学数据分析实践》适用于临床医学、公共卫生及其他医学相关专业的科生和研究生使用,也可作为其他专业的学生和科研工作者学习数据分析的参考书。阅读本书,读者不仅能够掌握使用R语言及相关包快速解决实际问题的方法,还能更深入地理解公共医学数据库挖掘的实战精髓。

本书目录

第1章  R语言介绍 1

1.1  R语言概述 1

1.1.1  什么是R语言 1

1.1.2  临床医生使用R语言的优势 1

1.2  R编程环境的搭建 2

1.2.1  R语言的下载和安装 3

1.2.2  RStudio的下载和安装 5

1.2.3  RStudio操作 6

1.3  R语言包 8

1.3.1  什么是R包 8

1.3.2  R包的安装 8

1.4  初识R语言的注意事项 9

第2章  R语言的基本语法 11

2.1  R语言的数据结构 11

2.1.1  向量 11

2.1.2  矩阵 13

2.1.3  数组 15

2.1.4  数据框 16

2.2  R语言函数简介 17

2.2.1  函数的定义 17

2.2.2  常用内置函数的使用 18

2.3  R语言中的数据读写 19

2.3.1  读取文件 19

2.3.2  写入文件 20

2.3.3  读写其他数据文件 21

2.4  R语言流程控制 21

2.4.1  判断语句 21

2.4.2  循环语句 23

2.5  字符串操作 24

2.6  R语言数据保存 26

第3章  R语言数据清洗 27

3.1  数据清洗的重要性 27

3.2  数据质量评估 28

3.3  数据清洗 30

3.3.1  缺失值检查及处理 30

3.3.2  异常值检查及处理 32

3.3.3  重复值检查及处理 34

3.4  数据清洗dplyr包的使用 34

3.5  数据清洗实战 37

第4章  R语言数据可视化 42

4.1  基础绘图 42

4.2  ggplot2绘图 45

4.2.1  ggplot2语法入门及相关软件包 46

4.2.2  ggplot2绘制简单的统计图形 46

4.2.3  ggplot2绘制复杂图形(统计图的组合、分面展示) 54

4.3  高质量SCI论文绘图 58

4.3.1  聚类分析和相关分析的热图详解 58

4.3.2  ROC曲线的绘制 63

4.3.3  火山图的绘制 67

第5章  R语言统计建模分析 71

5.1  经典统计分析 71

5.1.1  t检验 71

5.1.2  方差分析 73

5.1.3  卡方检验 74

5.1.4  简单线性回归分析 75

5.2  高级回归分析 77

5.2.1  多重线性回归分析 77

5.2.2  Logistic回归分析 78

5.2.3  回归分析实战 80

5.3  SCI文章两表一图实战 84

5.3.1  SCI文章—基线资料表 84

5.3.2  SCI文章—单因素回归分析表或多因素回归分析表 88

5.3.3  SCI文章—亚组分析的森林图 89

5.3.4  限制性立方样条图 92

第6章  R语言机器学习实战入门 95

6.1  什么是机器学习 95

6.2  机器学习的流程 96

6.2.1  数据收集 96

6.2.2  数据预处理 97

6.2.3  特征工程 97

6.2.4  模型构建和训练 98

6.3  机器学习分类 98

6.3.1  监督学习 98

6.3.2  无监督学习 99

6.3.3  强化学习 100

6.4  过拟合和欠拟合 101

6.4.1  过拟合 101

6.4.2  欠拟合 101

6.5  衡量机器学习模型的指标 102

6.5.1  正确率、精确率和召回率 102

6.5.2  几个常见的比率 104

6.5.3  混淆矩阵 104

6.5.4  F1 score和ROC曲线 105

6.6  K折交叉验证 108

6.7  支持向量机概述 108

6.8  随机森林概述 110

6.9  糖尿病风险预测实战 110

6.9.1  数据集背景 110

6.9.2  数据预处理 112

6.9.3  模型建立 113

6.9.4  模型评估 113

6.10  ICU患者死亡率预测实战 115

6.10.1  数据集背景 115

6.10.2  数据预处理 115

6.10.3  模型建立 118

6.10.4  模型评估 120

第7章  列线图在预测模型中的应用 122

7.1  列线图基本原理 122

7.2  列线图的三大要素 123

7.3  列线图解读 123

7.4  列线图的实战 124

7.4.1  列线图R实例一 124

7.4.2  列线图R实例二 126

7.5  列线图在数据挖掘中的应用 128

第8章  临床数据挖掘中的生存分析 133

8.1  基本概念和原理 133

8.1.1  什么是生存数据 133

8.1.2  生存分析的含义 134

8.1.3  为什么要用生存分析 134

8.1.4  生存分析的删失 135

8.1.5  生存分析的常用方法 135

8.2  Kaplan-Meier法生存分析实战 137

8.2.1  Kaplan-Meier法介绍 137

8.2.2  Kaplan-Meier生存曲线R语言实战 137

8.3  Cox生存分析实战 142

8.3.1  Cox回归模型介绍 142

8.3.2  Cox回归模型实战 143

8.4  竞争风险模型 144

8.4.1  临床研究中如何处理竞争事件 145

8.4.2  竞争风险模型R语言实战 145

第9章  NHANES数据库挖掘实战 149

9.1  NHANES数据库介绍 149

9.2  NHANES数据库的下载与合并 152

9.3  NHANES权重介绍及使用 155

9.3.1  什么是权重 156

9.3.2  NHANES权重分析的必要性 156

9.3.3  NHANES权重如何选择 158

9.3.4  NHANES权重实战 160

9.4  NHANES数据分析实战 162

9.5  NHANES数据库发文选题介绍 173

第10章  GEO数据库挖掘实战 175

10.1  GEO数据库介绍 175

10.1.1  GEO数据库概况 175

10.1.2  GEO数据库组织结构 176

10.2  GEO数据库检索 176

10.3  芯片基础知识 179

10.4  GEO数据库分析实战 179

10.4.1  找GSE编号 180

10.4.2  安装生物信息分析所需的R包 181

10.4.3  下载表达矩阵 182

10.4.4  获取分组信息 184

10.4.5  获取表达矩阵并检查数据 185

10.4.6  转换探针ID 186

10.4.7  差异分析 189

10.4.8  分析结果可视化—火山图、热图 192

10.5  GEO多数据集差异分析 195

第11章  孟德尔随机化分析实战 200

11.1  什么是孟德尔随机化 200

11.1.1  基因型和表型 200

11.1.2  孟德尔随机化简介 201

11.2  孟德尔随机化研究流程 204

11.2.1  MR研究流程七步法 204

11.2.2  MR分析数据库介绍 207

11.3  孟德尔随机化分析实战 211

11.3.1  TwoSampleMR包双样本MR分析 211

11.3.2  MR分析网站—MR-Base实战 219

11.4  孟德尔随机化研究论文复现实战 225

11.5  孟德尔随机化分析的优势和论文选题 236

第12章  单细胞测序实战 239

12.1  单细胞测序概述 239

12.1.1  为什么要做单细胞测序 239

12.1.2  单细胞测序技术原理 240

12.2  单细胞测序分析流程 241

12.2.1  读取原始数据并建立表达矩阵 241

12.2.2  消除技术误差 242

12.2.3  细胞聚类与可视化 244

12.3  单细胞转录组分析实战 248

12.3.1  安装Seurat包 248

12.3.2  数据导入 249

12.3.3  数据质控 251

12.3.4  寻找高变基因 253

12.3.5  PCA降维 254

12.3.6  细胞聚类 258

12.3.7  寻找差异表达标记基因 260

12.3.8  细胞注释 262

12.4  单细胞测序多样本分析实战 267

12.5  单细胞测序临床应用 278

编辑推荐

1《R语言医学数据分析实践》以易于初学者理解为原则,强调实战和应用,结合大量精选的实例对常用的R语言数据分析方法进行了深入浅出的介绍,以帮助读者解决数据分析中的实际问题。

2《R语言医学数据分析实践》力求以通俗易懂的方式,详细介绍R语言的基础知识和公共医学数据库挖掘,同时通过实际操作引导读者入门医学科研论文中的数据分析。

本文摘自《R语言医学数据分析实践》,获出版社和作者授权发布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值