自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 记事本记录

windows启动:Win10:添加或者删除开机启动项,在开机启动项中添加在用户自定义的启动文件-CSDN博客

2025-04-18 12:03:23 213

原创 MathType安装

1、安装软件安装软件参考链接控制面板-卸载程序-卸载原来安装的mathtype安装mathtype,安装路径为D:\Program Files (x86)\MathType2、配置wps2.1复制文件放入startup中从D:\Program Files (x86)\MathType\MathPage\32下复制mathpage从D:\Program Files (x86)\MathType\Office Support\32下复制。

2025-04-05 12:50:06 4382

原创 三分类常见处理以及解决方案

三分类问题不一定需要拆分为 3 个二分类问题,具体取决于模型和算法。如果模型支持多分类,直接使用多分类模型更高效。如果模型仅支持二分类,可以使用 OvR 或 OvO 策略。

2025-03-25 20:11:55 488

原创 SMOTE算法

SMOTE算法在实际的应用中也存在一些问题,比如在面对某些数据集时可能会存在对离群值比较敏感的情况,也有可能会导致模型的过拟合,当然,这些也是很多过采样方法存在的共性问题,需要在适当的范围内使用此类方法解决数据的不平衡问题。SMOTE算法相比其他的一些过采样方法存在一些优势,其在处理数据不平衡的问题时能够有效的扩充少数类的数据样本量,并且添加的数据样本是基于特征空间的随机插值,这样的方式既保证了不会简单的复制少数类的样本,具有一定的随机性,同时也保证了生成的样本具有少数类样本的基本特征。

2025-03-25 19:36:29 631

原创 算法笔试习题记录

在一个无向图中,如果图是连通的,那么图中任意两个顶点之间都存在路径。对于一个具有n 个顶点的无向图,要使其全连通(即成为连通图),至少需要n-1 条边。关系模式设计的目标是定义数据库中的表结构(即关系模式),包括表的名称、属性(列)、数据类型、约束(如主键、外键、唯一性约束等),以及表与表之间的关系。,快速排序(O(nlog⁡n)O(nlogn))比插入排序(O(n2)O(n2))快得多。每个神经元接受前一层神经元的输出作为输入,自己输出,所有多个输入对一个输出。:特征在给定类别的情况下是独立的。

2025-03-24 20:28:05 301

原创 统计领域英语专业词汇补充

应统考研复试:多元统计、回归分析、时间序列三大领域专业词汇翻译。

2025-03-20 18:48:18 366

原创 风控算法(二)—特征挖掘

11. 在特征构建过程中,你是否进行了特征工程的其他步骤,如特征缩放、编码等?13. 在特征挖掘和构建过程中,你是否使用了可视化工具来辅助分析和理解特征?5. 在特征构建过程中,你是否考虑了特征的可解释性?9. 在特征挖掘过程中,你是否使用了领域知识或业务理解来指导特征构建?17. 在特征挖掘和构建过程中,你是否进行了特征交互或组合的尝试?2. 你是如何评估提取的特征的效果的?20. 你如何评估和验证提取的特征在实际业务场景中的效果和影响?15. 在特征构建过程中,你是否考虑了特征的时效性和稳定性?

2025-03-20 17:28:23 164

原创 风控算法(一)——数据测试

在数据测试的时候,主要是利用mob3_ever10去看数据的效果,此时是不会划分客群的。真的付费接入数据之后一般会选择贷前、贷中建立的特征以及不同客群使用的模型是不一致的。确定样本(对齐样本与时间,去除假样本)——确定特征(确认目前特征)——数据信息(返回的数据字典、收费方式、底层数据:特征、分数)——数据清洗(缺失值替换)——数据训练形成报告。7、请详细描述你在评估这些变量在优质、中间、次级客群上的识别效果时的具体方法。2、如何确定数据产品在风险模型中的潜在价值和适用性的?8、贷前贷中的标签模型差异。

2025-03-20 17:03:27 250

原创 统计review

在统计学中,比较两组数据之间的差异性是常见的研究问题。根据数据类型和研究目标,可以选择不同的统计方法。

2025-03-19 18:57:51 939

原创 论文Word相关

上下两条线:1.5磅。

2025-03-19 16:48:42 159

原创 逻辑回归Review

假设数据服从,通过极大化似然函数的方法,运用梯队下降来求解参数,来达到将数据二分类的目的。损失函数一般有四种,平方损失函数,0-1损失函数,绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数。在逻辑回归这个模型下,对数损失函数的训练求解参数的速度是比较快的,因为梯度的更新速度只和xij,yi相关。和sigmod函数本身的梯度是无关的。这样更新的速度是可以自始至终都比较的稳定。为什么不选平方损失函数的呢?

2025-03-18 11:02:05 806

原创 MCMC和泊松过程

马尔可夫链(Markov Chain)是一种描述随机过程(Stochastic Process)的数学模型,具有“无记忆性”(Markov Property),即未来状态只依赖于当前状态,而与过去状态无关。马尔可夫链广泛应用于物理学、生物学、经济学、计算机科学等领域,是随机过程理论中的基础工具之一。以下是马尔可夫链的详细介绍:马尔可夫链是一组随机变量 ( {X_n, n \in T} ),其中:对于不可约、非周期性的有限状态马尔可夫链,存在唯一的稳态分布 ( \pi = [\pi_1, \pi_2, \do

2025-03-17 20:02:10 574

原创 SHAP值理论(二)

颜色编码会显示一定的交互性,比如如果颜色特征的变化导致 SHAP 值的变化趋势改变,说明这两个特征之间存在交互作用,也会显示出一定的交互趋势,但是感觉不如直接看交互效应,如果交互效应很大,看这个图可能还有点用。是 SHAP(SHapley Additive exPlanations)工具包中的一种可视化方法,用于分析。SHAP Dependence Plot没有展示交互作用,主要获取的还是正/负向影响、非线性。有点分不太清这两个图的区别。以及该特征与其他特征的。

2025-03-14 15:13:09 837

原创 SHAP值理论(一)

交互 SHAP 值帮助我们理解特征之间的交互作用。在这个例子中,A、B、C 两两之间都存在协同效应,即他们一起打车时,对车费的贡献比单独贡献之和更大。发现特征之间的协同或对抗效应:例如,某些特征组合可能对模型输出的影响更大。解释复杂模型:帮助理解模型如何利用特征之间的交互作用进行预测。优化特征工程:识别重要的特征组合,改进模型性能。通过交互 SHAP 值,我们可以更全面地理解特征之间的关系,而不仅仅是它们的单独贡献。

2025-03-14 14:36:51 1211 5

原创 python画图文字显示不全+VScode新建jupyter文件

之前有两个jupyter文件,一个显示正确一个显示错误。1、更改下载好的SimHei字体,或者其他支持中文的字体。4、从anaconda的jupyter换至vscode。目前部分中文不能正常显示、空格不能正常显示。3、清楚matplotlib缓存目录。2、重新创建虚拟环境。

2025-03-13 15:04:09 305

原创 XGBoost常见面试题(五)——模型对比

我们都知道在这种情况下,树模型很容易优化出一个使用f1特征作为重要分裂节点的树,因为这个结点直接能够将训练数据划分的很好,但是当测试的时候,却会发现效果很差,因为这个特征f1只是刚好偶然间跟y拟合到了这个规律,这也是我们常说的过拟合。(4)缓存命中率:XGB使用Block结构的一个缺点是取梯度的时候,是通过索引来获取的,而这些梯度的获取顺序是按照特征的大小顺序的,这将导致非连续的内存访问,可能使得CPU cache缓存命中率低,从而影响算法效率。当在高维稀疏特征的场景下,LR的效果一般会比GBDT好。

2025-03-07 20:42:11 806

原创 机器学习常见面试题

线性模型(如线性回归、逻辑回归)支持向量机(SVM)神经网络(如 MLP、CNN、RNN)朴素贝叶斯K 近邻(KNN)决策树(如 ID3、C4.5)随机森林梯度提升树(如 XGBoost、LightGBM)高斯过程贝叶斯网络聚类模型(如 K-Means、DBSCAN)主成分分析(PCA)隐马尔可夫模型(HMM)因子分析混合模型(如 GMM、LDA)

2025-03-07 20:25:06 797

原创 结合rpart包的决策树介绍

CART树的构建过程是递归的,它通过反复选择最佳的特征进行节点分裂,直到满足停止条件为止。在每次分裂时,CART算法会选择最佳的特征和最佳的切分点,以最小化切分后的不纯度(分类问题)或者最小化切分后的均方误差(回归问题),CART使用的是基尼指数来衡量数据的不纯度。rpartrpart():递归地构建一棵决策树。printcp():打印交叉验证结果,显示在不同复杂度下测试误差率和复杂度参数的关系。prune():根据不同的剪枝方法,来选择最优的剪枝点,并返回剪枝后的决策树。predict()

2025-03-07 20:02:31 1276

原创 XGBoost常见面试题(四)——参数篇

也称作最小划分损失min_split_loss,check from 0.1 to 0.5,指的是,对于一个叶子节点,当对它采取划分之后,损失函数的降低值的阈值。我们首先将这两个参数设置为较大的数,然后通过迭代的方式不断修正,缩小范围。min_child_weight,子节点的权重阈值,check from range(1,6,2)。max_depth,每棵子树的最大深度,check from range(3,10,2)。如果一个结点分裂后,它的所有子节点的权重之和都大于该阈值,该叶子节点才可以划分。

2025-03-07 17:23:24 432

原创 XGBoost常见面试题(三)——不平衡数据

2. 自定义损失函数(1)原理XGBoost 允许用户自定义损失函数,从而更好地适应不平衡数据。例如,可以使用 F1-score、AUC 等指标作为损失函数。(2)实现方式通过 参数指定自定义损失函数。例如,使用对数损失(log loss)作为损失函数:(3)代码示例3. 过采样与欠采样(1)原理过采样(Oversampling):增加少数类样本的数量。欠采样(Undersampling):减少多数类样本的数量。(2)实现方式使用第三方库(如 )进行过采样或欠

2025-03-07 17:04:11 708

原创 XGBoost常见面试题(二)补充理解

处理大规模数据:支持外存计算和分布式计算。高效利用硬件资源:优化 CPU 和 GPU 计算。算法优化:使用加权分位数草图和稀疏感知技术。灵活的接口与集成:支持多语言和分布式框架。实际应用中的可扩展性:在 Kaggle 竞赛和工业级应用中表现优异。这些特性使得 XGBoost 能够高效处理大规模数据,并在实际应用中表现出色。

2025-03-07 16:34:09 932

原创 XGBoost常见面试题(二)

XGBoost模型的一个优点就是允许特征存在缺失值。:如果节点的样本已经非常纯净(如所有样本属于同一类别),则不会进一步分裂。:如果节点的样本数量过少,则不会进一步分裂。

2025-03-07 15:08:04 238

原创 XGboost常见面试题总结(一)——About过拟合

【代码】XGboost常见面试题总结。

2025-03-07 12:44:50 369

原创 Hadoop、Hive、Spark的关系

MapReduce on Hadoop 和spark都是数据计算框架,一般认为spark的速度比MR快2-3倍。HIve中有metastore存储结构化信息,还有执行引擎将sql翻译成mapreduce,再把结果。

2025-03-06 13:17:05 1142 1

原创 zetoro使用

从浏览器直接导入的时候利用插件就可以,但是如果不从论文原始界面,就老是会抓取不全,解决方案如下:英文文献:偶尔受网速影响,等足够的时间再用插件保存就ok.中文文献:利用茉莉花常见问题:1、下载并替换中文转换器————重启zotero中文维护小组网址 https://github.com/l0o0/translators_CN2、浏览器插件更新+茉莉花插件更新+清楚浏览器的历史记录我的中文文献抓取失败成网页的解决,主要应该是浏览器插件更新有用了。

2025-03-03 17:14:33 681

原创 双重机器学习DML

W是影响T和Y的共同因素。X通过影响TE来间接影响Y,但与W和T没有直接的相关关系。T与W相关,并且直接影响Y。这种设定通常用于模拟因果推断中的处理效应估计问题,其中X是协变量,W是控制变量,T是处理变量,Y是结果变量。

2025-02-26 23:59:57 764

原创 开机启动项设置与图标重命名

2.win+r 打开 运行。输入 shell:startup ,回车。二、如果没有直接设置开机自启,就手动设置。三、字符映射表可以重命名图标为无名。一、win——设置——启动项。1.复制软件的快捷方式。

2024-12-22 18:58:28 429

原创 面试题常见

但因为on是先把不符合条件的记录过滤后才进行统计,它就可以减少中间运算要处理的数据,按理说应该速度是最快的。然而where statement在table2的列上面,则完全忽视了NULL的行,最终结果和INNER JOIN的结果是一样的。union和union all的区别是,union会自动压缩多个结果集合中的重复结果,而union all则将所有的结果全部显示出来,不管是不是重复。UNION在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。

2024-09-24 18:21:11 882

原创 共线性排查

的目的是计算特征之间的相关系数矩阵,并对相关性高于某个阈值(0.7)的特征对进行处理,以保留信息量更大的特征(通过信息值IV来衡量),IV。对于错误值("inf"、"-inf"、"\\N"、"None")&占位符(-8887-8888-9999)等替换成np.nan。占位符的含义可能是没有查询到,查询错误(这些是在写数据接入解析代码的时候根据对方的接口文档写的时候去写的)优点:普适性(数据量大),公平性,对称性,无分布假设前提。:和目标变量相关性高,但彼此之间相关性不高的变量。数据、金融市场数据等。

2024-09-24 11:54:30 367

原创 spark-scala使用与安装(一)

Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。

2024-09-20 16:35:52 1234

原创 R和Python数据格式的通用性

总结:Parquet 适合长期存储和归档,而 Feather 则更适用于数据的直接读写和操作,特别是在计算任务中的实时数据处理。优先选择的数据格式是Apache Arrow所定义的数据格式,即Parquet和Feather。pkl是适用于python之间的传输;Rdata之类的只用于R之间的传输;

2024-09-13 23:11:28 292

原创 SQL典型练习题

表(driver)说明:司机登录登出明细表,由于同一司机有可能同时登录两个司机端,所以同一时间段一个司机有可能会产生两条或者更多条数据。注:我们保证在8月1日0时做了一次司机清场,即保证不会有司机8月1日之前登录8月1日之后退出的情况出现。题目:请你统计2024年8月1日后的所有司机在线时长,要求对司机时间去重,每个司机在线时长精确到秒。login 登录时间 yyyy-mm-dd HH:MM:SS。exit 下线时间 yyyy-mm-dd HH:MM:SS。over可以加想加的,改变表的结构。

2024-08-27 16:55:39 872 1

原创 MySQL和Hadoop

都是数据库,mysql用sql,hadoop用的是hiveql。(大数据vs小数据)(结构化vs分布式)2、插入:Hive不支持单行插入,通常需要通过加载文件的方式插入数据。HiveQL对分区表有很好的支持,通常在创建表时指定分区。1、创建表:HiveQL中通常需要指定行格式和存储格式。针对结构化数据的存储、管理、查询。:Hadoop 包含多个组件(:Hadoop 是一个开源的。,用于大规模数据存储和处理。hadoop下的部分。

2024-08-27 16:06:29 599 1

原创 SQL语句复习

CTE是一种命名的临时结果集,CTE是通过。一、CTE和WITH。

2024-08-27 15:32:36 408

原创 git命令

git checkout -b feature-branch origin/feature-branch[创建一个与远端分支对应的本地分支,并切换到该分支]git pull origin master [同步远端master分支,将远程主机的最新内容拉下来后直接合并]【注意:即便是在本地分支上有更改,不会按照预想的提交,要先git add 才可以,push也才会生效】git checkout -b new-feature [从更新后的master分支创建新的分支]将暂存区的更改提交到本地仓库。

2024-08-27 14:53:15 466

原创 XSHELL命令

1、命令ls列出文件ls -lals a*2、命令cp复制文件afilecp * /tmp/tmp/docsdocs.bak-a-Rcp -icp -v3、命令mv移动和重命名文件afileafile/tmp4、命令rm删除文件和目录rm afileafilerm *rm-rdomedrm -i a*命令cd更改目录cd ~cd /tmpdircd /cd ..cd ../..cd ~命令mkdir建立目录photos命令mkdir删除目录mkdir命令moreless查看文件内容(|)命令grep。

2024-08-22 18:48:13 1722

原创 dataframe

日期出现从1970开始的情况,因为本来是int64类型,先改成str

2024-08-22 16:34:27 256

原创 gitlab

之后,必须配置Working Dierctory,否则会报错 the working directory '' does not exist。3、当勾选了Run with Python Console,并且配置了Working Directory,此时程序中。1、未勾选Run with Python Console,并且没有写Working Directory,默认以。为起始目录进行相对路径的开端;

2024-08-21 14:24:23 332

原创 SHAP值理论

gradient:用于深度学习模型,综合了SHAP、集成梯度、和SmoothGrad等思想,形成单一期望值方程,但速度比DeepExplainer慢,并且做出了不同的假设。ABC三人有每个人完成的效率 ,每两个人完成的效率(有交互作用),三个人一起完成something,应该怎么分配——加性的一种边际分配。tree:适用于树模型和基于树模型的集成算法,如XGBoost,LightGBM或CatBoost。线性回归的系数越大并不意味着影响越强,shap是同一维度的;kernel:模型无关,适用于任何模型。

2024-08-15 16:29:13 437

原创 jupyter快捷键

Jupyter Notebook 有两种模式:命令模式(esc) 和 编辑模式(enter)。“开始”——“条件格式”——“数据条”——渐变/实心填充。Markdown 单元格快捷键。删除单元格:esc+dd。二、windows快捷键。隐藏/显示:esc+o。剪贴板快捷键Win+V。三、excel快捷键。

2024-06-27 18:28:47 4326

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除