本
文
摘
要
前言
在机器学习和现代统计学中,贝叶斯方法可谓无处不在,常见的涉及“贝叶斯”的内容有:贝叶斯公式、贝叶斯(参数)估计、贝叶斯推理(Bayesian Inference)、贝叶斯预测(Bayesian Prediction)、经验贝叶斯(Empirical Bayes)、朴素贝叶斯(Naive Bayes)等等,其中贝叶斯估计和贝叶斯预测一般被合称为贝叶斯推理。本文主要介绍贝叶斯推理以下相关内容:
1、贝叶斯估计。此部分会把极大似然估计(MLE)、极大后验估计(MAE)和贝叶斯参数估计(以下简称:贝叶斯估计)进行对比,说明贝叶斯参数估计的特性。
2、贝叶斯预测,用于预测的贝叶斯方法框架被称为经验贝叶斯方法。
3、贝叶斯在线学习。贝叶斯推理的思想中天然的包含着某些在线学习的元素,因此介绍贝叶斯在线学习方法是必要的。
1. 预备知识
1.1.贝叶斯推理的定义
以下直接引用参考文献[9]的S1.3中的定义:
Bayesian statistical conclusions about a parameter θ\theta , or unobserved data , are made in terms of probability statements. These probability statements are conditional on the observed value of yy , and in our notation are written simply as p(θ|y)p\left( \theta | y \right) or p(y~|y)p\left( \tilde{y} | y \right) . We also implicitly condition on the known values of any covariates, xx .
1.2.问题背景
已知:样本集 D={(x(n),y(n))|n=1,2,...,N}D=\left\{ \left( x^{\left( n \right)} ,y^{\left( n \right)}\right) | n=1,2,...,N \right\} 和总体分布 p(y(n)|x(n),θ)p\left( y^{\left( n \right)} | x^{\left( n \right)},\theta \right) (这里“总体”的说法借鉴自参考文献[2],可以理解为是指条件变量 y|xy|x 或边际变量 yy )。其中 xx 是样本特征向量, yy 表示样本的待预测值的(本文假设 yy 是标量,但结论可以很容易的推广到 yy 是向量的情况), KK 维向量x(n)x^{\left( n \right)} 表示样本 nn 的特征向量, y(n)y^{\left( n \right)} 表示样本 nn 的真值, 向量 θ\theta 是模型的参数。
目标:参数估计的目标:根据已知的样本集 DD 推断总体分布中参数 θ\theta 的最合理的值 θ¯\bar{\theta} 。
1.3.贝叶斯公式
贝叶斯公式和公式中各部分称呼如下图(参考文献[5]):
注意本文(以及大部分文献)将样本集上的似然概率 p(D|θ)p\left( D|\theta \right) 定义如下:
p(D|θ)=∏n=1Np(y(n)|x(n),θ)p\left( D|\theta \right)=\prod_{n=1}^{N}p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)
2.贝叶斯估计
本节通过对比三种基于概率的参数估计方法(MLE、MAE和贝叶斯估计),逐层递进的说明贝叶斯方法的内容和特点。本节内容主要来自参考资料[1]。
2.1. MLE(Maximum Likelihood Estimation)
极大似然估计(MLE)方法的优化目标是:通过调整模型参数 θ\theta 使得似然概率 p(D|θ)p\left( D|\theta \right) 化。为了简化计算,同时也为了遵循优化问题的一般提法,实际中一般采用极小化似然函数的负对数,即:
优化目标(负对数似然):
−logp(D|θ)=−log∏n=1Np(y(n)|x(n),θ)=−∑n=1Nlogp(y(n)|x(n),θ)-log \ p\left( D|\theta \right)=-log \ \prod_{n=1}^{N}p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)=-\sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)}
优化问题(极大化对数似然等价于极小化负对数似然):
θML=argminθ[−∑n=1Nlogp(y(n)|x(n),θ)]\theta_{ML}=argmin_{\theta}\left[- \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)} \right]
2.2. MAP(maximum a posteriori Estimation)
极大后验估计思想在极大似然估计基础上有两点创新:(1)将参数 θ\theta 看作是随机变量(而不是MLE中的一般变量),并加入了对参数的先验分布假设 p(θ)p\left( \theta \right) ,(2)利用了贝叶斯公式,需要计算参数的后验分布 p(θ|D)p\left( \theta|D \right) 。
极大后验估计的求解流程可以分为两个步骤:
STEP 1:基于样本集,利用贝叶斯公式修正参数的先验分布,得到参数的后验分布;
p(θ|D)=p(D|θ)p(θ)p(D)p\left( \theta|D \right)=\frac{p\left( D|\theta \right)p\left( \theta \right)}{p\left( D \right)}
注意到 p(D)p\left( D \right) 是一个以模型参数 θ\theta 无关的值,不影响通过调整参数值极大化 p(θ|D)p\left( \theta|D \right) 的优化问题的解,即
p(θ|D)∝p(D|θ)p(θ)p\left( \theta|D \right) \propto p\left( D|\theta \right)p\left( \theta \right)
STEP 2:求解使得参数后验分布极大化的参数。
后验概率(的负对数似然):
−logp(θ|D)=−log[p(D|θ)p(θ)]+logC=argminθ[−∑n=1Nlogp(y(n)|x(n),θ)]-\ log \ p\left( \theta|D \right)=-\log \ \left[ p\left( D|\theta \right)p\left( \theta \right) \right] + \log \ C=argmin_{\theta}\left[- \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)} \right]
优化问题:
θML=argminθ{−[∑n=1Nlogp(y(n)|x(n),θ)+logp(θ)]}\theta_{ML}=argmin_{\theta}\left\{ -\left[ \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)}+\log \ p\left( \theta \right) \right] \right\}
其中, CC 是与参数 θ\theta 无关的量,因此在针对 θ\theta 的模型优化过程中可以看作是常数,因此再优化问题中被省略。
2.3.BPE(Bayes parameter estimation)
贝叶斯参数估计在MAP的基础上进行了继承和发展。一方面,贝叶斯估计继承了MAP中将待估计参数看作是随机变量的思想,在流程上保留了MAP中的STEP 1,但改变了STEP 2,即改变了基于参数的后验分布求解参数估计值的方式。另一方面,贝叶斯估计不再将求参数估计问题转化为最优化问题,而是采用直接用参数的期望作为估计值。
贝叶斯估计的一般步骤如下:
STEP 1:计算参数的后验分布 p(θ|D)p\left( \theta|D \right) ,此步的计算方法与MAP的STEP 1相同;
STEP 2:计算参数的后验期望,作为参数估计值。
θBPE=∫θθ⋅p(θ|D)=Eθ|D[θ]\theta_{BPE}=\int_{\theta}\theta \cdot p\left( \theta|D \right)=E_{\theta|D}\left[ \theta \right]
综上,贝叶斯参数估计继承了MAP中将待估计参数看作是随机变量的思想,但将参数求解不再是一个优化问题,而是采用了概率期望的做法。需要注意的是,虽然贝叶斯推理在思想上与传统的频率主义方法存在着本质区别,但二者推导出的结论在形式上往往相似或存在着明显的非关联(参考文献[9])。
参考文献
[1] ML, MAP, and Bayesian — The Holy Trinity of Parameter Estimation and Data Prediction. Avinash Kak, Purdue University, originally presented in Summer 2008, minor changes in 2017, D
[2] 贝叶斯统计, 茆诗松, 中国统计出版社, 1999, M
[3] 再谈经验贝叶斯,知乎,链接:https://zhuanlan.zhihu.com/p/142221534, Z
[4] A Bayesian Approach to Online Learning, Manfred Opper, 1998, C
[5] Maximum Likelihood vs. Bayesian Estimation -- A comparison of parameter estimation methods, Lulu Ricketts, 2021, 博客,超链接:https://towardsdatascience.com/maximum-likelihood-vs-bayesian-estimation-dd2eb4dfda8a
[6] Pattern Recognition and Machine Learning, Christopher M. Bishop, Springer, 2006, M
[7] Optimal Bayesian Online Learning, Ole Winther and Sara A. Solla, C
[8] Online Bounds for Bayesian Algorithms, Sham M. Kakade, Andrew Y. Ng, NIPS 2014, C
[9] Bayesian Data Analysis, 3rd edition, Andrew Gelman etc., 2020, M