KL散度(Kullback–Leibler divergence,亦称“相对熵”)是衡量两个概率分布差异的量,常写作 (D_{KL}(P|Q))。它表示:如果真实分布是 (P),但用 (Q) 来近似/编码,会“多付出”多少信息代价。它不对称,因此一般不被当作严格意义上的距离。
/ˌkeɪˈɛl dɪˈvɝːdʒəns/
KL divergence measures how different two probability distributions are.
KL散度衡量两个概率分布之间有多不同。
In variational inference, we minimize the KL divergence between the approximate posterior and the true posterior.
在变分推断中,我们最小化近似后验与真实后验之间的KL散度。
“KL”来自两位统计学家Solomon Kullback与Richard A. Leibler的姓氏;该概念在他们1951年的论文中系统提出,用于刻画信息论中用一个分布替代另一个分布所造成的“信息损失/额外编码长度”。“divergence”意为“偏离、分歧”,在此指分布之间的偏离程度。