
机器学习
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
蒸汽预测赛题——模型训练
蒸汽预测赛题——模型训练理论知识1. 导入相关库2. 导入数据3. 切分数据4. 多元线性回归 LinearRegression5. K近邻回归 KNeighborsRegressor6. 随机森林回归 RandomForestRegressor7. LGB模型回归 lightgbm天池大赛比赛地址:链接理论知识回归用在目标数量连续时预测线性回归模型 LinearRegression假定因变量Y和自变量X呈线性相关 可以用Y=AX+b X是权重from sklearn.metr原创 2020-11-20 16:27:34 · 322 阅读 · 0 评论 -
LogisticRegression - 参数说明
LogisticRegression逻辑回归参数详细说明参数说明如下:penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是加了约束就会好,这个没有人能回答,只能说,加约束的情况下,理论上应该可以获得泛化能力更强的结果。dual转载 2020-11-17 20:54:31 · 1853 阅读 · 0 评论 -
统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法
统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法1. 特征统计2. 概率分布3. 降维4. 过采样和欠采样5. 贝叶斯统计本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。1. 特征统计特征统计可转载 2020-10-26 12:55:05 · 1188 阅读 · 0 评论 -
聚类算法(knn流程,评估方法,特征选择、主成分分析)总结
聚类算法聚类算法分类:粗聚类、细聚类一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中计算样本和样本之间的相似性,一般使用欧式距离sklearn.cluster.KMeans(n_clusters=8)参数:n_clusters:开始的聚类中心数量k-means其实包含两层内容:k – 选几个中心店means – 均值计算流程随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记原创 2020-09-29 18:12:29 · 6268 阅读 · 0 评论 -
AdaBoost、GBDT、XGBoost、LightGBM的总结以及对比
Boosting方法-AdaBoost、GBDT、XGBoost、LightGBMBoostingAdaBoost梯度提升决策树GBDTXGBoostXGBoot 和 GBDT异同LightGBMLightGBM 和 XGBoost不同点Boosting是一族可将弱学习器提升为强学习器的算法。决策树学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),在每一轮如何改变训练数据的权值或概率分布?通过提高那些在前一轮被弱分类器分错样例的权值,减小前一轮分对样本的权 值,而误分的样本在原创 2020-09-14 16:05:28 · 2379 阅读 · 0 评论 -
集成学习(boosting、bagging、GBDT、XGBoost)
集成学习什么是集成学习超级个体和弱者联盟对比解决欠拟合问题 弱弱组合变强 boosting解决过拟合问题 互相 遏制变壮 BaggingBagging采样 从所有样本里采样学习 训练弱学习器集成 使用平权投票随机森林随机森林 = Bagging + 决策树流程随机选取m条数据随机选取k个特征训练决策树重复1-3对上面的决策树进行平权投票随机选取样本 且有放回的抽取选取特征饿时候,选择m << M(所有特征树)from sklearn.e原创 2020-09-11 11:25:24 · 1247 阅读 · 0 评论 -
决策树ID3、C4.5这两种算法的特点?为什么使用C4.5要好?
ID3、C4.5这两种算法的特点?为什么使用C4.5要好?[参考文章][1]. <机器学习> p73–p79见附件书本[2]. C4.5算法详解https://blog.csdn.net/zjsghww/article/details/51638126[3]. ID3和C4.5的区别https://blog.csdn.net/Neo_226/article/details/48156679...原创 2020-09-10 13:38:58 · 563 阅读 · 0 评论 -
常见决策树(ID3、C4.5、CART)带代码
决策树定义是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树信息熵熵 用于衡量一个对象的有序程度从信息的完整性上描述当系统的有序状态一致时,数据越集中的地方熵值越小;数据越分散的地方熵值越大从信息的有序性上描述当数据量一致时,系统越有序, 熵值越低;系统越混乱分散,熵值越高Ent(A) = - (求和 k=1-n) p_k * log_2(p_k) = -p1log2p1-p2l原创 2020-09-10 00:17:49 · 1323 阅读 · 0 评论 -
逻辑回归总结 带代码
逻辑回归逻辑回归介绍解决的是二分类问题逻辑回归的输入是线性回归的输出原理激活函数sigmoid 把整体映射到[0,1]设置阈值进行分类判断f(x) = 1/(1+e^-x)对数似然损失L(y_pre,y_true) = -y_true * log(y_pre) - (1-y_true) * (1-y_pre)代价函数是对m个样本的损失函数求和然后除以m:J(w,b) = 1/m * (求和i=1 - i=m) (L(y_pre_i,y_true_i))api原创 2020-09-08 23:29:44 · 462 阅读 · 0 评论 -
线性回归和梯度下降 带代码
线性回归和梯度下降 线性回归和梯度下降线性回归和梯度下降定义利用回归方程对一个或者多个自变量(特征值)和因变量(目标)之间关系进行建模的一种分析方式表示方法 h(w) = w1x1 + w2x2 + w3x3 + … b = W转置x+b分类:线性关系、非线性关系线性回归的损失和优化最小二乘法 (y - XW)^2预测值-真实值的平方优化1:正规方程利用矩阵的逆,转置进行一步求解只适合样本和特征比较少的情况W = (X.T * X)^-1 * X.T * y时原创 2020-09-07 14:14:07 · 421 阅读 · 0 评论 -
手推逻辑回归中的正向传播和反向传播
手推逻辑回归中的正向传播和反向传播单个样本的正向传播和梯度下降m个样本的正向传播和梯度下降向量化节选自网易公开课中吴恩达老师的deeping_learning课程单个样本的正向传播和梯度下降m个样本的正向传播和梯度下降向量化...原创 2020-09-07 13:39:46 · 845 阅读 · 0 评论 -
K-近邻近算法 带代码
K-近邻近算法定义通过你的邻居来判断你属于哪个类别一般使用欧式距离scikit-learn优点简单有效重新训练的代价低适合类域交叉样本适合大样本的自动分类缺点惰性学习类别评分不是规格化输出可解释性不强对不均衡的样本不擅长样本不均衡:收集到的数据每个类别占比失衡计算量较大API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5) from sklearn,neighbors import原创 2020-09-03 21:45:45 · 403 阅读 · 0 评论