机器学习、深度学习中常用损失函数

在机器学习（ML）和深度学习（DL）中，损失函数（Loss Function）用于衡量模型预测值与真实值之间的差异。选择合适的损失函数取决于任务类型（回归、分类、生成等）。

本文列出来了常用的损失函数、公式及必要的推导过程，按任务类型分类。

回归任务的目标是预测连续数值。

最常用的回归损失函数。

其中 $y_i$ 是真实值，$\hat{y}_i$ 是预测值。

推导（从极大似然估计 MLE 角度）：
假设模型预测值与真实值之间的误差 $\epsilon$ 服从高斯分布（正态分布），即 $y = \hat{y} + \epsilon$，且 $\epsilon \sim \mathcal{N}(0, \sigma^2)$。
概率密度函数为： $p(y|\hat{y}) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(y - \hat{y})^2}{2\sigma^2} \right)$ 对数据集进行极大似然估计（MLE），即最大化联合概率（似然函数）： $\max \prod_{i=1}^N p(y_i|\hat{y}_i)$ 取对数似然（Log-Likelihood）： $\ln L = \sum_{i=1}^N \ln \left( \frac{1}{\sqrt{2\pi}\sigma} \right) - \sum_{i=1}^N \frac{(y_i - \hat{y}_i)^2}{2\sigma^2}$ 最大化 $\ln L$ 等价于最小化第二项（负号），去除常数项后，即为最小化均方误差 (MSE)。

对离群点（Outliers）比 MSE 更鲁棒。

结合了 MSE 和 MAE 的优点：在误差较小时是平方误差（收敛快），误差较大时是线性误差（鲁棒）。常用于目标检测（如 Faster R-CNN）。

公式： $L_{\delta}(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \le \delta \\ \delta |y - \hat{y}| - \frac{1}{2}\delta^2 & \text{otherwise} \end{cases}$

分类任务的目标是预测离散标签。

用于二分类问题（输出为 0 或 1 的概率）。

公式：
$L_{BCE} = - \frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]$
推导（从 MLE 角度）：
二分类服从伯努利分布 (Bernoulli Distribution)。
对于样本 $i$，真实标签 $y_i \in {0, 1}$，模型预测为 1 的概率为 $\hat{y}_i$。
概率质量函数写作：
$P(y_i | x_i) = (\hat{y}_i)^{y_i} (1 - \hat{y}_i)^{1 - y_i}$
似然函数：
$L(\theta) = \prod_{i=1}^N (\hat{y}_i)^{y_i} (1 - \hat{y}_i)^{1 - y_i}$
取对数似然：
$\ln L(\theta) = \sum_{i=1}^N \left[ y_i \ln(\hat{y}_i) + (1 - y_i) \ln(1 - \hat{y}_i) \right]$
最大化对数似然等价于最小化其负值，即 BCE Loss。

用于多分类问题（配合 Softmax 使用）。

公式：
$L_{CCE} = - \sum_{j=1}^{C} y_j \log(\hat{y}_j)$
其中 $C$ 是类别数，$y$ 是 One-hot 编码的真实向量，$\hat{y}$ 是 Softmax 输出的概率向量。
Softmax + Cross Entropy 的梯度推导（经典面试题）：
假设神经网络输出 Logits 为 $z$，经过 Softmax 得到 $\hat{y}$：

损失函数（针对单个样本）：

我们需要求 $\frac{\partial L}{\partial z_i}$。
根据链式法则：

第一步：求 $\frac{\partial L}{\partial \hat{y}_k}$

第二步：求 Softmax 的导数 $\frac{\partial \hat{y}_k}{\partial z_i}$
分为两种情况：
1. 当 $k = i$ 时： $\frac{\partial \hat{y}_i}{\partial z_i} = \frac{e^{z_i}(\sum e^{z_j}) - e^{z_i}e^{z_i}}{(\sum e^{z_j})^2} = \hat{y}_i (1 - \hat{y}_i)$
2. 当 $k \neq i$ 时： $\frac{\partial \hat{y}_k}{\partial z_i} = \frac{0 - e^{z_k}e^{z_i}}{(\sum e^{z_j})^2} = -\hat{y}_k \hat{y}_i$
第三步：代回求和

因为真实标签 $y$ 是 One-hot 向量，$\sum{k} y_k = 1$，即 $\sum{k \neq i} y_k = 1 - y_i$。

结论： Softmax + Cross Entropy 的梯度非常优雅，就是 预测值 - 真实值。

用于解决分类中极度类别不平衡（Class Imbalance）问题（如目标检测中背景极其多）。基于二元交叉熵改进。

公式：其中 $p_t$ 是模型对该样本属于真实类别的预测概率，$\gamma$ 是调节因子（通常取 2）。
- 原理： 对于易分类样本（$p_t$ 很大），$(1-p_t)^\gamma$ 趋近于 0，权重被降低；模型更关注难分类样本。

主要用于支持向量机 (SVM)。

公式： $L = \max(0, 1 - y \cdot \hat{y})$ 其中 $y \in {-1, 1}$，$\hat{y}$ 是模型的输出分数（未经过 Sigmoid）。

常用于人脸识别、推荐系统，目的是拉近相似样本，推开不相似样本。

用于训练差异性，输入为一个三元组：Anchor ($A$), Positive ($P$), Negative ($N$)。

公式：
- $d(x, y)$：距离度量（通常是欧氏距离）。
- $\alpha$：Margin（间隔），强制 $P$ 比 $N$ 离 $A$ 更近至少 $\alpha$。

常用于孪生网络 (Siamese Network)。

衡量两个概率分布 $P$ 和 $Q$ 的差异。常用于 VAE（变分自编码器）中的正则项。

生成对抗网络的损失函数。