机器学习--基本概念(一)

机器学习 | 基本概念(一)

读者朋友大家好,今天我们来说一说机器学习的基础。

基本概念

机器学习包括监督学习、非监督学习、半监督学习以及强化学习。其中监督学习应用最广泛,它的任务是利用训练数据集学习一个模型,再用模型对测试样本集进行预测。它分为学习和预测两个过程,用关系图表示如下:

QQ截图20200810112151

监督学习的基本假设就是输入变量X和输出变量Y具有联合概率分布P(X, Y)。由图中可以看到,学习系统的训练数据是由(输入,输出)组成的,训练集通常表示为:T = {(x1, y1), (x2, y2),..., (xN, yN)},测试数据与之形式相同,输入输出对又被称为样本或样本点。学习的模型可以是概率模型或非概率模型,由条件概率P(Y|X)或Y = ƒ(X)表示。在预测阶段,对于给定的输入xN+1,由模型yN+1 = argmax P(yN+1 | xN+1)或yN+1 = ƒ(xN+1)给出相应的预测输出yN+1

输入变量和输出变量有不同的类型,他们对应的预测问题也不同,具体如下:

输入变量类型 输出变量类型 预测问题类型
连续变量 连续变量 回归问题
离散或连续 有限个离散变量 分类问题
变量序列 变量序列 标注问题

机器学习预测问题的类型

分类问题

分类问题的输入输出变量类型上面已经陈述过了,监督学习从数据中学习一个分类模型或决策函数被称为分类器。感觉输出的类的数量可以分为二分类问题和多分类问题。

评价分类器性能的指标一般是分类准确率(accuracy):对于给定的测试集,分类器正确分类的样本数与总样本数的比值。对于二分类问题常用的评价指标是精确率(precision)和召回率(call),通常以关注的类为正类,其他类为负类,四种情况的总数分别记作:

标识 含义
TP 将正类预测为正类数
FN 将正类预测为负类数
FP 将负类预测为正类数
TN 将负类预测为负类数

那么精确率定义为:P = TP / (TP + FP)

召回率定义为:R = TP / (TP + FN)

还有F1值。是精确率和召回率的调和均值,即2 / F1 = 1 / P + 1 / R

分类问题常用的方法有许多,如k近邻法、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等等。

关于分类问题应用的例子有:银行对客户按照贷款风险大小进行分类、手写识别中识别不同的数字等等

回归问题

回归问题用于预测自变量和因变量之间的关系,等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据并很好地预测未知数据。回归分析按照输入变量的个数可以分为一元回归和多元回归,其最常使用的损失函数是平方损失函数,在此情况下,回归问题可以用著名的最小二乘法求解。

关于回归问题应用的例子有市场趋势预测,股价预测,投资风险分析等等

标注问题

标注问题是分类问题的一个推广,它的输入是一个观测序列,输出是一个标记序列或状态序列。

它的评价指标与分类问题相同。

标注问题常用的方法有:隐马尔可夫模型、条件随机场。

标注问题在信息抽取、自然语言处理等领域被广泛应用,自然语言处理中最典型的一个应用就是给定一个单词组成的句子,对这个句子中的每一个单词进行词性标注。

机器学习三要素

方法 = 模型 + 策略 + 算法

模型

监督学习中,模型就是所要学习的条件概率分布或决策函数,模型的假设空间含所有可能的条件概率分布或决策函数,其中的模型一般有无穷多个。

用F来表示假设空间,则有如下表:

模型表示 假设空间 模型类型
决策函数 F = {ƒ| Y = ƒθ(X), θ\(\in\)Rn} 非概率模型
条件概率 F = {P | Pθ(Y | X), θ\(\in\)Rn} 概率模型

参数 θ取值于n维欧式空间Rn,称为参数空间。

策略

策略是种准则,指导我们如何从假设空间选取最优模型。我们根据损失函数值对模型好坏进行判断并通过对模型进行优化以选取最优模型。

损失函数:

度量模型一次预测的好坏,它根据预测值ƒ(X)和真实值Y来度量预测错误程度,损失函数越小,它是非负实值函数,记作L(Y, ƒ(X))。常用的损失函数如下:

损失函数类型 表达式
0-1损失函数 L(Y, ƒ(X)) = (Y = ƒ(X) ? 0 : 1)
平方损失函数 L(Y, ƒ(X)) = (Y - ƒ(X))2
绝对损失函数 L(Y, ƒ(X)) = |Y - ƒ(X)|
对数损失函数(对数似然损失函数) L(Y, ƒ(X)) =-log P(Y | X)

风险函数:

风险函数度量平均意义下模型预测的好坏。风险函数也称为期望损失,是理论上模型ƒ(X)关于联合分布P(X, Y)的平均意义下的损失。

联合分布P(X, Y)是未知数,然而若想求期望损失,则要知道联合分布P(X, Y),然而如果我们知道了联合分布则可以直接求出条件概率,也就不需要知道期望损失了,也就是说我们实际上无法直接求解期望损失。这个时候我们便需要经验风险,也叫作经验风险,记作Remp = (1/N) * \(\sum_{i=1}^N\)L(yi, ƒ(xi))。它是关于训练样本集的平均损失,根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。然而现实是样本数目通常有限,所以要对经验风险进行矫正,使之趋于期望风险,这关系到机器学习两个基本策略:经验风险最小化和结构风险最小化。

经验风险最小化策略认为经验风险最小的模型就是最优模型。当样本足够大时,经验风险最小化能保证有很好的学习效果,然而当样本容量很小时,则会产生过拟合现象(下篇文章讲解)。而结构风险最小化则是为了防止过拟合而提出的策略,它等价于正则化,具体在下篇文章再进行详细讲解。

算法

算法是指学习模型的具体计算方法。机器学习便是基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。机器学习的算法便成为求解最优化问题的算法,寻找全局最优解并使求解过程非常高效。

关于机器学习基础的剩余部分我将在下一篇文章继续讲解。谢谢大家的观看!