声明:本文章是根据网上资料,加上自己整理和理解而成,仅为记录自己学习的点点滴滴。可能有错误,欢迎大家指正。
1 线性回归和逻辑回归与机器学习的关系
线性回归属于机器学习 – 监督学习 – 回归 – 线性回归,
逻辑回归属于机器学习 – 监督学习 – 分类 – 逻辑回归,如下图所示。
1.1 什么是监督学习
监督学习是机器学习中的一种训练方式/学习方式。监督学习需要有明确的目标,很清楚自己想要什么结果。比如:使用大量标记为“猫”、“狗”、“汽车”等类别的图片数据集训练模型,让模型学习如何区分不同的类别。当给出新的未标记图片时(如猫的图片),模型能够预测其所属的类别(能归类为猫)。
1.2 监督学习的主要流程
主要流程为:
- 选择一个适合目标任务的数学模型
- 先把一部分已知的“问题和答案”(训练集)给机器去学习
- 机器总结出了自己的“方法论”
- 人类把”新的问题”(测试集)给机器,让他去解答
具体点,例如我们想要完成文章分类的任务,则是下面的方式:
- 选择一个合适的数学模型
- 把一堆已经分好类的文章和他们的分类给机器
- 机器学会了分类的“方法论”
- 机器学会后,再丢给他一些新的文章(不带分类),让机器预测这些文章的分类
1.3 监督学习的主要任务
监督学习有2个主要的任务:回归和分类
- 回归:预测连续的、具体的数值。比如:支付宝里的芝麻信用分数
- 分类:对各种事物分门别类,用于离散型(什么是离散?)预测。
1.4 主流的监督学习算法
算法 | 类型 | 简介 |
---|---|---|
朴素贝叶斯 | 分类 | 贝叶斯分类法是基于贝叶斯定定理的统计学分类方法。它通过预测一个给定的元组属于一个特定类的概率,来进行分类。朴素贝叶斯分类法假定一个属性值在给定类的影响独立于其他属性的 —— 类条件独立性。 |
决策树 | 分类 | 决策树是一种简单但广泛使用的分类器,它通过训练数据构建决策树,对未知的数据进行分类。 |
SVM | 分类 | 支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。 |
逻辑回归 | 分类 | 逻辑回归是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。 |
线性回归 | 回归 | 线性回归是处理回归任务最常用的算法之一。该算法的形式十分简单,它期望使用一个超平面拟合数据集(只有两个变量的时候就是一条直线)。 |
回归树 | 回归 | 回归树(决策树的一种)通过将数据集重复分割为不同的分支而实现分层学习,分割的标准是最大化每一次分离的信息增益。这种分支结构让回归树很自然地学习到非线性关系。 |
K邻近 | 分类+回归 | 通过搜索K个最相似的实例(邻居)的整个训练集并总结那些K个实例的输出变量,对新数据点进行预测。 |
Adaboosting | 分类+回归 | Adaboost目的就是从训练数据中学习一系列的弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器。 |
神经网络 | 分类+回归 | 它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。 |
2 线性回归(Linear Regression)
2.1 什么是线性(Linearity)
“越…,越…”符合这种说法的就可能是线性个关系:如「房子」越大,「租金」就越高,「汉堡」买的越多,花的「钱」就越多,杯子里的「水」越多,「重量」就越大。
从数学上来讲,线性指的是变量间存在一种直接的、成比例的关系。如果一个函数或关系可以用一个直线方程来描述,那么它就是线性的。例如,𝑦=2𝑥+3是一个线性方程,其中𝑦与𝑥成正比,比例系数为2。线性关系通常意味着系统的行为是可预测的,因为小的变化会导致成比例的小的响应。
线性关系不仅仅只能存在 2 个变量(二维平面)。3 个变量时(三维空间),线性关系就是一个平面,4 个变量时(四维空间),线性关系就是一个体。以此类推…