统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一个学科。统计学习也称之为统计机器学习

统计学习包括监督学习、非监督学习、半监督学习及强化学习,《统计学习方法》本书主要讨论监督学习问题。

监督学习

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输入做出一个好的预测。

基本概念

输入空间、特征空间与输出空间

监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。

每个具体的输入是一个实例(stance),通常由特征向量表示,这时,所有特征向量存在的空间称为特征空间。特征空间每一个维度对应一个特征。

在监督学习过程中,习惯上输入变量写作XX,输出变量写作YY。输入、输出变量所取的值用小写字母表示,输入变量的取值写作xx, 输出变量的取值写作yy。变量可以是标量或向量,都是用相同类型字母表示。

PS: 书中的向量均为列向量

x=(x(1),x(2),x(3),,x(n))Tx=(x^{(1)},x^{(2)},x^{(3)}, \dots, x^{(n)})^T

x(i)x^{(i)}表示x的第i个特征,而xix_i表示多个输入变量中的第i个。

人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题

联合概率分布

监督学习假设输入与输出的随机变量X与Y遵循联合概率分布P(X,Y)P(X,Y),P(X,Y)P(X,Y)表示分布函数,或分布密度函数。

假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间

统计学习三要素

方法 = 模型 + 策略 + 算法

模型

策略

损失函数和风险函数

用一个损失函数(loss function)或者代价函数(cost function)来度量预测错误的程度。损失函数是f(X)f(X)YY的非负值函数,记作L(Y,f(X))L(Y, f(X))

下面是一些常用的损失函数

  1. 0-1损失函数

    L(Y,f(X))={1,Yf(X)0,Y=f(X)L(Y, f(X))=\begin{cases} 1, & Y\neq f(X) \\ 0, & Y = f(X) \end{cases}

  2. 平方损失函数

    L(Y,f(X))=(Yf(x))2L(Y, f(X))=(Y-f(x))^2

  3. 绝对损失函数

    L(Y,f(X))=YF(X)L(Y, f(X))=|Y-F(X)|

  4. 对数损失函数

    L(Y,f(YX))=logP(YX)L(Y, f(Y|X))=-logP(Y|X)

损失函数数值越小,模型就越好,由于模型的输入、输出(X,Y)(X, Y)是随机变量,遵循联合分布P(X,Y)P(X, Y),所以损失函数的期望是

Rexp(f)=EP[L(Y,f(X))]=xyL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_P[L(Y,f(X))]=\int_{x\cdot y}L(y, f(x))P(x, y)dxdy

这是理论上模型f(X)f(X)关于联合分布P(X,Y)P(X, Y)的平均意义下的损失,称为风险函数或期望损失。

给定一个训练数据集

T=(x1,y1),(x2,y2),,(xN,yN)T={(x_1, y_1), (x_2, y_2), \dots,(x_N, y_N)}

模型f(X)f(X)关于训练数据集的平均损失称为经验风险或经验损失,记作RempR_{emp}

Remp(f)=1Ni=1NL(yi,f(xi))R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i))