统计机器学习分为监督学习,无监督学习,半监督学习,增强学习。
监督学习
输入空间、特征空间、输出空间、联合概率率分布(基本假设)、假设空间。
特征空间:每个样本实例由特征向量表示,所有特征向量组成的空间就是特征空间。特征空间的每一维对应于一个特征,有时特征空间和输入空间一致,但有时不一致,故需将输入空间映射到特征空间。模型实际上是定义在特征空间上的。
假设空间:输入空间到输出空间的映射集合。
统计机器学习三要素
模型:所要学习的条件概率分布或者决策函数。模型的假设空间就是所有可能的集合。
策略:有了假设空间,要考虑按照什么样的准则选择最优的模型,这准则就是策略。
算法:是指对选择出的最优模型用计算方法求解。这就将问题转化为最优化问题,但一般没有显式的解析解,这就需要数值计算方法求解。
策略
损失函数用来度量预测错误的程度,一般有四种函数:
- 0-1损失函数:
$$ L(Y,f(X))=\begin{cases}
1, Y \neq f(X)\\
0, Y=f(X)
\end{cases}
$$ - 平方损失函数:
$$ L(Y, f(X))=(Y-f(X))^2 $$ - 绝对损失函数:
$$ L(Y, f(X))=|Y-f(X)| $$ - 对数损失函数:
$$ L(Y, f(X))=-logP(Y|X) $$
期望损失:模型关于联合分布的平均损失。学习的目标是选择期望风险最小的模型。但是联合概率分布一般是未知的,就不能求出条件概率分布。但经验风险:模型关于训练样本集的平均损失,根据大数定律,当样本容量趋于无穷大时,经验风险趋于期望风险。但是现实样本数是有限的,所以要对经验风险进行改进,这就关联了监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小的模型认为是最优的模型,这是当样本容量很大时来说的。当样本容量很小时,学习的效果未必好,所以可能出现“过拟合”现象。为了避免过拟合,就有了结构化风险最小化模型(等价于正则化):其实就是在经验风险最小化的基础上加上正则项(模型复杂度)。这时需要两者都最小才是最优模型。举例:结构风险最小化:极大似然估计(模型是条件概率分布,损失函数是对数函数),结构风险最小化:最大后验概率估计(模型是条件概率分布,损失函数是对数函数,正则化是模型的先验概率)。
模型评估和选择
评估
训练误差:随模型复杂度的增加而减小。
测试误差:随模型复杂度的增加先减小后增大。
过拟合:模型的参数过多,以致于出现对训练集预测的好,对测试集预测的差的现象。模型选择就是要避免过拟合并提高模型的预测能力。
选择
两种方法:正则化、交叉验证
正则化项:一般是模型复杂度的单调递增函数,可以是模型参数向量的范数(L1、L2等)。
交叉验证:将数据进行切分为训练集和测试集,反复训练、测试以及模型选择。(分类问题中样本足够多时,可能分为训练集(用于训练模型)、验证集(模型的选择)、测试集(对学习方法的评估))
泛化能力
泛化误差(期望风险):模型对未知数据的预测能力。
泛化误差上界:它是样本容量的单调递减函数,当样本容量增加时,泛化误差趋于0;它还是假设空间的log函数,空间越大,泛化误差越大。
生成模型和判别模型
生成方法特点:可以还原出联合概率分布P(X,Y),而判别不行;学习收敛速度快,随样本容量的增加可以更快收敛于真实模型;当存在隐变量时,也适用,但判别不行。
判别方法特点:直接学习条件概率模型或者决策函数;学习准确率高,可以对数据进行各种程度上的抽象、定义特征和使用特征,简化学习问题。
##分类问题
评价指标:准确率、精确率、召回率、F1.
精确率:正类正确分类的数量占所有分为正类的比例;
召回率:正类正确分类的数量占所有正确分类的比例;
F1:精确率和召回率的调和均值。
标注问题:输入输出都是序列。
回归问题:选择一条曲线更好地拟合一直数据且更好地预测位置数据。