机器学习--逻辑回归与最大熵模型理论知识（一）

Posted on 2021-06-13 Edited on 2021-06-14

机器学习 | 逻辑回归与最大熵模型理论知识（一）

今天，我们开始对逻辑回归与最大熵模型的学习。

逻辑回归是统计学习中的经典分类方法，最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型。逻辑回归模型与最大熵模型都属于对数线性模型。今天，我们先来学习逻辑回归模型。

逻辑回归模型

首先来介绍逻辑分布：

定义：设\(X\)是连续随机变量，\(X\)服从逻辑分布是指\(X\)具有下列分布函数和密度函数： \[ F(x) = P(X\le x) = \frac{1}{1+e^{-(x-\mu)/\gamma} } \qquad(1)\\ f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma} }{\gamma (1+e^{-(x-\mu)/\gamma})^2}\qquad(2) \] 式中，\(\mu\)为位置参数，\(\gamma > 0\)为形状参数。

逻辑分布的密度函数\(f(x)\)和分布函数\(F(x)\)的图形如下：

分布函数属于逻辑函数，其图形是一条S形曲线(sigmod curve)。该曲线以点\((\mu,\frac{1}{2})\)为中心对称，即满足 \[ F(-x+\mu)-\frac{1}{2} = -F(x+\mu)+\frac{1}{2} \] 曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数\(\gamma\)的值越小，曲线在中心附近增长得越快。

二项逻辑回归模型

二项逻辑回归模型是一种分类模型，由条件概率分布\(P(Y|X)\)表示，形式为参数化的逻辑分布。这里，随机变量\(X\)取值为实数，随机变量\(Y\)取值为1或0.我们通过监督学习的方法来估计模型参数。

定义：二项逻辑回归模型是如下的条件概率分布： \[ P(Y=1|x) = \frac{exp(w·x+b)}{1+exp(w·x+b)} \qquad(3)\\ P(Y=0|x) = \frac{1}{1+exp(w·x+b)}\qquad(4) \] 这里，\(x \in R^n\)是输入，\(Y\in \lbrace 0,1 \rbrace\)，\(w\in R^n\)和\(b\in R\)是参数，\(w\)称为权值向量，b称为偏置，\(w·x\)为\(w\)和\(x\)的内积。

对于给定的输入实例x，按照上面两式可以求得\(P(Y=1|x)\)和\(P(Y=0|X)\)。逻辑回归比较两个条件概率值的大小，将实例x分到概率值较大的那一类。

有时为了方便，将权值向量和输入向量加以扩充，扔记作\(w、x\)，即\(w = (w^{(1)},w^{(2)},...,w^{(n)},b)^T\)，\(x = (x^{(1)},x^{(2)},...,x^{(n)},b)^T\)。这时，逻辑回归模型如下： \[ P(Y=1|x) = \frac{exp(w·x)}{1+exp(w·x)} \qquad(5)\\ P(Y=0|x) = \frac{1}{1+exp(w·x)}\qquad(6) \] 现在考察逻辑回归模型的特点。一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是\(p\)，那么该事件的几率是\(\frac{p}{1-p}\)，该事件的对数几率或logit函数是： \[ logit(p) = log\frac{p}{1-p} \] 对逻辑回归而言，由(5)、(6)式得： \[ log\frac{P(Y=1|x)}{1-P(Y = 1|x)} = w·x \] 这就是说，在逻辑回归模型中，输出Y = 1的对数几率是输入\(x\)的线性函数。或者说，输出Y = 1的对数几率是由输入\(x\)的线性函数表示的模型，即逻辑回归模型。

换一个角度看，考虑对输入\(x\)进行分类的线性函数\(w·x\)，其值域为实数域。注意，这里\(x\in R^{n+1},w\in R^{n+1}\)。通过逻辑回归模型定义式(5)可以将线性函数\(w·x\)转换为概率： \[ P(Y = 1|x) = \frac{exp(w·x)}{1+exp(w·x)} \] 这时，线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值就越接近于0。这样的模型就是逻辑回归模型。

模型参数估计

逻辑回归模型学习时，对于给定的训练数据集\(T = \lbrace(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbrace\)，其中，\(x_i\in R^n\)，\(y_i\in \lbrace0,1\rbrace\)，可以应用极大似然估计法估计模型参数，从而得到逻辑回归模型。

设： \(P(Y = 1|x) = \pi(x),\quad P(Y = 0|x) = 1-\pi(x)\)

似然函数为： \[ \prod^N_{i = 1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} \] 对数似然函数为： \[ L(w) = \sum^N_{i = 1}[y_ilog\pi(x_i) + (1-y_i)log(1-\pi(x_i))]\\ \quad= \sum^N_{i = 1}[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)} + log(1-\pi(x_i))]\\\quad=\sum^N_{i = 1}[y_i(w·x) -log(1+exp(w·x_i))] \] 对\(L(w)\)求极大值，得到\(w\)的估计值。

这样，问题就变成了以对数似然函数为目标函数的最优化问题。逻辑回归学习中通常采用的方法是梯度下降法及拟牛顿法。

假设\(w\)的极大似然估计值是\(\hat{w}\)，那么学到的逻辑回归模型为： \[ P(Y=1|x) = \frac{exp(\hat{w}·x)}{1+exp(\hat{w}·x)} \\ P(Y=0|x) = \frac{1}{1+exp(\hat{w}·x)} \]

多项逻辑回归

上面说的是二项分类模型，可以将其推广到多项逻辑回归模型，用于多项分类。假设离散型随机变量Y的取值集合是{1, 2, ..., K}，那么多项逻辑回归模型是： \[ P(Y=k|x) = \frac{exp(w_k·x)}{1+\sum^{K-1}_{k=1}exp(w_k·x)},\quad k=1,2,...,K-1\\ P(Y=K|x) = \frac{1}{1+\sum^{K-1}_{k=1}exp(w_k·x)} \] 这里，\(x\in R^{n+1},w_k\in R^{n+1}\)。

二项逻辑回归的参数估计法也可以推广到多项逻辑回归。

以上就是今天的内容，谢谢大家的观看！