逻辑回归作为古老,使用广泛,入门的算法,对于逻辑回归的学习与使用是不可避免的,那么应该如何使用逻辑回归呢?
总结为以下问题:
- 数据特征与labels的相关系数关系(无意义特征删除)
- 逻辑回归模型处理的是数值特征,分类型特征应如何转换?onehot/dummy、数字编码转换
- 是否需要做标准化/归一化处理?
- 如何解决样本不均衡问题?再缩放/上采样/下采样。
- class_weight与sample_weight的使用带来的效果
- L1、L2正则化分别带来的效果是怎样的?
- 为什么使用交叉验证?用哪种交叉验证?
- sklearn,自建编码,TensorFlow分别如何实现逻辑回归?
- 可以使用哪些模型考核指标?accuracy,precious,kappa,…
- learning_curve绘制训练/validation准确率随着样本数据增大带来的变化,判断过拟合/欠拟合
- 小工具结合使用:pipeline可以不用保存很多模型;dataframemapper实现特征的快速处理,baggingregression可以把弱逻辑回归分离器集成
- 项目建模流程:基础信息(有监督/无监督,分类/回归,选用相关算法),建模(数据集,训练数据,特殊点/离群点,数据分布,数据预处理,特征工程,bad case观察,改进特征工程,交叉验证,泛化测试)参考:https://www.kesci.com/home/project/5bfe39b3954d6e0010681cd1