Score-Based

NCSN

p_{θ} (x) = \frac{e^{- f_{θ} (x)}}{Z_{θ}}

已知很多样本 $x_{i}$ ，要估计 $x$ 的概率分布，待学习参数为 $θ$ 。然而问题是归一化常数 $Z_{θ}$ 很难求，因为没办法积分。

一般有两种解决方案，要么控制模型结构使得 $Z_{θ}$ 能处理，要么近似估计。而 Score-Based 使用 score function 绕开了这个问题：

\nabla_{x} \log p_{θ} (x) = - \nabla_{x} f_{θ} (x) - \underset{= 0}{\underset{⏟}{\nabla_{x} \log Z_{θ}}} = - \nabla_{x} f_{θ} (x)

然后就只需要训练一个函数 $s_{θ}$ 来拟合 $\nabla_{x} \log p (x)$ ，训练目标是最小化：

E_{p (x)} [∥ \nabla_{x} \log p (x) - s_{θ} (x) ∥_{2}^{2}]

我们不知道 $\nabla_{x} \log p (x)$ ，但这个可以通过 score matching 方法获得，一般两种方法： denoising score matching 或者 sliced score matching，NCSN 用的是前者去噪分数匹配。

然后就可以用类似退火爬山的朗之万动力学，通过一步步更新来采样了：

x_{i + 1} \leftarrow x_{i} + ϵ \nabla_{x} \log p (x) + \sqrt{2 ϵ} z_{i}, i = 0, 1, \dots

其中 $z_{i} \sim N (0, I)$ 用于增加随机性不至于卡在局部最小， $ϵ \to 0$ 使得步长从大到小最后收敛，而 $\nabla_{x} \log p (x)$ 是通过 $s_{θ} (x)$ 来拟合的。

还有问题是 $p (x)$ 较小的地方没有梯度数据，使得这些地方更新不对，解决方法是在数据样本 $x$ 上加噪声，类似于模糊滤镜，这样样本就扩散到稀疏的地方了，但准确性降低，因此让模糊程度从高到低，这可以通过直接在样本上加噪实现：

x_{i} = x + σ_{i} z, z \sim N (0, I)

其中 $σ_{i}$ 是模糊程度，通过这些样本得到 $p_{σ_{i}} (x)$ 并训练得到 $s_{θ} (x, i)$ 。

这时候的训练目标是：

\sum_{i = 1}^{L} λ (i) E_{p_{σ_{i}} (x)} [∥ \nabla_{x} \log p_{σ_{i}} (x) - s_{θ} (x, i) ∥_{2}^{2}]

其中 $λ (i) = σ_{i}^{2}$ 是权重参数，用来平衡不同模糊程度的贡献。实际生成时，使模糊程度从大到小递减，这样可以前期走对方向，后期走得精准。

SDE

不同噪声程度划分得越细效果当然越好，所以使用随机微分方程使得离散的噪声程度变为连续的。

前向过程：

d x = f (x, t) d t + g (t) d w

其中 $f (x, t) : R^{d} \to R^{d}$ 叫 drift coefficient ，对应离散形式的 $\nabla_{x} \log p (x)$ ， $g (t) \in R$ 叫 diffusion coefficient ，对应离散形式的 $\sqrt{2}$ 。 $d w$ 可以当作无穷小的噪声。前半部分描述采样运动，后半部分描述布朗运动。

反向过程：

d x = [f (x, t) - g^{2} (t) \nabla_{x} \log p_{t} (x)] d t + g (t) d w

类似离散版本，我们可以训练一个 $s_{θ} (x, t)$ ：

E_{t \in U (0, T)} E_{p_{t} (x)} [λ (t) ∥ \nabla_{x} \log p_{t} (x) - s_{θ} (x, t) ∥_{2}^{2}]

其中 $λ (t) \propto 1 / E [∥ \nabla_{x (t)} \log p (x (t) ∣ x (0)) ∥_{2}^{2}]$ ，用于平衡贡献，选择 $λ (t) = g (t)^{2}$ 效果较好。

TODO：怎么得出反向过程公式和 $λ (t)$ 的， $f (x, t)$ 是什么？