作者toby,来源公众号:python生物信息学,基于妊娠糖尿病的核心基因筛选模型
大家好,我是重庆未来之智的toby老师,今天演示妊娠糖尿病与核心基因筛选模型。项目包括妊娠糖尿病与基因数据分析-核心基因筛选、重要性排序与AI诊断模型构建。该项目用于生物医药企业科研,论文期刊专利发布。
妊娠糖尿病概述
妊娠糖尿病(Gestational Diabetes Mellitus, GDM)是指在怀孕期间首次出现或被发现的葡萄糖耐量异常,通常发生在孕中期或晚期。它是一种常见的妊娠并发症,全球范围内约有14%的妊娠受到影响,每年约有1800万婴儿出生时患有妊娠糖尿病。妊娠糖尿病的发病率因地区和人群的不同而有所差异,例如在亚洲人群中,尤其是印度人群中较为常见。妊娠糖尿病的定义为:任何程度的葡萄糖耐量异常,其发病或首次被发现于妊娠期间。这一定义不排除未被识别的葡萄糖耐量异常可能早于妊娠的可能性,因此,最近由内分泌学会提出的“妊娠期高血糖”这一术语更为恰当。
妊娠糖尿病表现
妊娠糖尿病的临床表现多样,但大多数患者在早期并无明显症状。部分患者可能会出现多尿、口渴、夜尿增多、腰酸、倦怠乏力、手足心烧、健忘、多梦、自汗等症状。然而,由于症状不典型,妊娠糖尿病通常通过筛查和诊断方法被发现。目前,妊娠糖尿病的诊断主要依赖于口服葡萄糖耐量试验(OGTT),这是国际上广泛采用的标准。此外,糖化血红蛋白(HbA1c)也被认为是妊娠糖尿病的额外诊断标准之一。
妊娠糖尿病危害
妊娠糖尿病的并发症对母婴健康构成严重威胁。对母亲而言,妊娠糖尿病可能导致妊娠期高血压、子痫前期、早产、剖宫产、肩难产等。对胎儿而言,妊娠糖尿病可能导致巨大儿、胎儿畸形、新生儿低血糖、呼吸窘迫综合征、黄疸、先天性心脏病等。此外,妊娠糖尿病还可能对母亲和婴儿造成长期健康影响,包括增加母亲患2型糖尿病和心血管疾病的风险,以及婴儿未来的肥胖、心血管疾病、2型糖尿病和/或妊娠糖尿病的风险。因此,妊娠糖尿病的早期诊断和管理至关重要。
妊娠糖尿病核心基因挖掘
妊娠糖尿病的病因复杂,与多种因素有关。首先,妊娠期间胎盘分泌的激素(如人胎盘催乳素、松弛素等)会增加母体对胰岛素的抵抗,导致血糖升高。此外,遗传因素、肥胖、高龄产妇(通常指年龄大于35岁)、家族糖尿病史、孕前糖尿病前期、种族和民族背景(如非洲裔、西班牙裔、亚洲裔或美洲原住民)等也被认为是妊娠糖尿病的风险因素。研究表明,妊娠糖尿病与多种遗传因素有关,包括胰岛素抵抗、胰岛β细胞功能障碍和胰岛素抵抗基因多态性等。
妊娠糖尿病(GDM)与基因之间存在密切关系。多项研究表明,妊娠糖尿病的发生与多种基因变异有关,这些基因变异主要影响胰岛素分泌、胰岛素抵抗和葡萄糖代谢等过程。例如,IGF2BP2、MTNR1B、CDKAL1、KCNJ11、KCNQ1、PPARG、TCF7L2和GCK基因的变异与妊娠糖尿病的风险显著相关。此外,一些研究还发现,2型糖尿病相关的基因变异,如CDKAL1、CDKN2A-CDKN2B、HHEX、IGF2BP2、SLC30A8和TCF7L2,也与妊娠糖尿病的风险有关。
进一步的研究表明,妊娠糖尿病的遗传风险评分(Genetic Risk Score, GRS)可以用来评估个体患妊娠糖尿病的风险。例如,一项研究发现,遗传风险评分较高的女性患妊娠糖尿病的风险显著增加。此外,一些研究还发现,妊娠糖尿病的遗传风险评分不仅与妊娠糖尿病本身有关,还与2型糖尿病的风险有关。
妊娠糖尿病的遗传学研究还发现,不同种族和民族之间的遗传变异存在差异。例如,在韩国人群中,CDKAL1和MTNR1B基因的变异与妊娠糖尿病的风险显著相关。此外,一些研究还发现,妊娠糖尿病的遗传风险评分在不同种族和民族中的分布也存在差异。
国际上共报告了23个糖尿病易感基因,我国也报告了几个候选易感基因,但经比对发现,在不同地域和不同种族间,其易感基因谱是有区别的。 相关基因包括:定位在1号染色体上的两个小区域中。还有9号染色体上的CDKN2A、CDKN2B基因和定位在3号染色体上的IGF2BP2基因以及CDKALl基因。还有TCF7L2、SLC30A8、HHEX、PPARG、KCNJl1、SREBF2和FTO等. TM6SF2基因变异与肝脂肪变性(俗称“脂肪肝”)有关,影响着2型糖尿病的风险。(它和脂功指标提供的信息有一定重合). 一氧化氮合成酶1转接蛋白(NOS1AP)基因。这个基因位点的遗传缺陷可使得中国人Ⅱ型糖尿病的患病风险上升17%。 PAX4的基因的变异与2型糖尿病有关,而这个变异仅发生在中国、韩国、新加坡等东亚国家人群中。
基于妊娠糖尿病的机器学习核心基因挖掘模型
基于妊娠糖尿病(GDM)的机器学习核心基因挖掘模型主要通过整合妊娠糖尿病患者的基因表达数据以及机器学习算法,识别与妊娠糖尿病相关的关键基因。基于妊娠糖尿病的机器学习核心基因挖掘模型有较高的临床应用价值。
下图是妊娠糖尿病患者的基因表达数据截图,数据集有接近上百个基因和数千个妊娠糖尿病患者。重庆未来之智信息技术咨询服务有限公司有企业级的核心基因挖掘模型,无论什么疾病,无论上千个,还是上万个基因数据集,我们都能快速筛选出核心致病基因。
该数据集加入了SNP的五十多个位点数据,预测被试者是否为妊娠糖尿病。
SNP 单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,人类30亿碱基中共有300万以上的SNP.SNP所表现的多态性只涉及到单个碱基的变异. 之前听说的羊水穿刺,就是提取婴儿的DNA,对SNP相应的位点检测。
我方采用企业级AI算法建模,初步实验模型AUC高于0.8,性能优越,后续还有优化和提升空间。
model accuracy is: 0.745
model precision is: 0.859375
model sensitivity is: 0.5670103092783505
f1_score: 0.6832298136645962
AUC: 0.8350515463917526
gini 0.6701030927835052
ks value:0.5536
如下图AUC可ks值较高,模型区分妊娠糖尿病患者能力较强。
下图是对基因重要性排序,我们发现SNP34,SNP37,SNP46,SNP20重要性最高。
数据案例可用于建立华丽模型,发布论文专利,政府企业科研立项
数据案例可建立华丽模型,用于企业模型,发布论文期刊专利。
(模型自动化EDA统计图)
(KS和AUC,模型区分能力指标)
(评分分箱图)
(变量系数稳定性)
(信用额度分箱)
(PSI模型稳定性测评)
版权声明:文章来自公众号(python生物信息学),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。