小伙伴关心的问题:贝叶斯推理是一种(贝叶斯推理例子),本文通过数据整理汇集了贝叶斯推理是一种(贝叶斯推理例子)相关信息,下面一起看看。

贝叶斯推理是一种(贝叶斯推理例子)

前言

在机器学习和现代统计学中,贝叶斯方法可谓无处不在,常见的涉及“贝叶斯”的内容有:贝叶斯公式、贝叶斯(参数)估计、贝叶斯推理(Bayesian Inference)、贝叶斯预测(Bayesian Prediction)、经验贝叶斯(Empirical Bayes)、朴素贝叶斯(Naive Bayes)等等,其中贝叶斯估计和贝叶斯预测一般被合称为贝叶斯推理。本文主要介绍贝叶斯推理以下相关内容:

1、贝叶斯估计。此部分会把极大似然估计(MLE)、极大后验估计(MAE)和贝叶斯参数估计(以下简称:贝叶斯估计)进行对比,说明贝叶斯参数估计的特性。

2、贝叶斯预测,用于预测的贝叶斯方法框架被称为经验贝叶斯方法。

3、贝叶斯在线学习。贝叶斯推理的思想中天然的包含着某些在线学习的元素,因此介绍贝叶斯在线学习方法是必要的。

1. 预备知识

1.1.贝叶斯推理的定义

以下直接引用参考文献[9]的S1.3中的定义:

Bayesian statistical conclusions about a parameter θ\theta , or unobserved data , are made in terms of probability statements. These probability statements are conditional on the observed value of yy , and in our notation are written simply as p(θ|y)p\left( \theta | y \right) or p(y~|y)p\left( \tilde{y} | y \right) . We also implicitly condition on the known values of any covariates, xx .

1.2.问题背景

已知:样本集 D={(x(n),y(n))|n=1,2,...,N}D=\left\{ \left( x^{\left( n \right)} ,y^{\left( n \right)}\right) | n=1,2,...,N \right\} 和总体分布 p(y(n)|x(n),θ)p\left( y^{\left( n \right)} | x^{\left( n \right)},\theta \right) (这里“总体”的说法借鉴自参考文献[2],可以理解为是指条件变量 y|xy|x 或边际变量 yy )。其中 xx 是样本特征向量, yy 表示样本的待预测值的(本文假设 yy 是标量,但结论可以很容易的推广到 yy 是向量的情况), KK 维向量x(n)x^{\left( n \right)} 表示样本 nn 的特征向量, y(n)y^{\left( n \right)} 表示样本 nn 的真值, 向量 θ\theta 是模型的参数。

目标:参数估计的目标:根据已知的样本集 DD 推断总体分布中参数 θ\theta 的最合理的值 θ¯\bar{\theta} 。

1.3.贝叶斯公式

贝叶斯公式和公式中各部分称呼如下图(参考文献[5]):

注意本文(以及大部分文献)将样本集上的似然概率 p(D|θ)p\left( D|\theta \right) 定义如下:

p(D|θ)=∏n=1Np(y(n)|x(n),θ)p\left( D|\theta \right)=\prod_{n=1}^{N}p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)

2.贝叶斯估计

本节通过对比三种基于概率的参数估计方法(MLE、MAE和贝叶斯估计),逐层递进的说明贝叶斯方法的内容和特点。本节内容主要来自参考资料[1]。

2.1. MLE(Maximum Likelihood Estimation)

极大似然估计(MLE)方法的优化目标是:通过调整模型参数 θ\theta 使得似然概率 p(D|θ)p\left( D|\theta \right) 化。为了简化计算,同时也为了遵循优化问题的一般提法,实际中一般采用极小化似然函数的负对数,即:

优化目标(负对数似然):

−logp(D|θ)=−log∏n=1Np(y(n)|x(n),θ)=−∑n=1Nlogp(y(n)|x(n),θ)-log \ p\left( D|\theta \right)=-log \ \prod_{n=1}^{N}p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)=-\sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)}

优化问题(极大化对数似然等价于极小化负对数似然):

θML=argminθ[−∑n=1Nlogp(y(n)|x(n),θ)]\theta_{ML}=argmin_{\theta}\left[- \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)} \right]

2.2. MAP(maximum a posteriori Estimation)

极大后验估计思想在极大似然估计基础上有两点创新:(1)将参数 θ\theta 看作是随机变量(而不是MLE中的一般变量),并加入了对参数的先验分布假设 p(θ)p\left( \theta \right) ,(2)利用了贝叶斯公式,需要计算参数的后验分布 p(θ|D)p\left( \theta|D \right) 。

极大后验估计的求解流程可以分为两个步骤:

STEP 1:基于样本集,利用贝叶斯公式修正参数的先验分布,得到参数的后验分布;

p(θ|D)=p(D|θ)p(θ)p(D)p\left( \theta|D \right)=\frac{p\left( D|\theta \right)p\left( \theta \right)}{p\left( D \right)}

注意到 p(D)p\left( D \right) 是一个以模型参数 θ\theta 无关的值,不影响通过调整参数值极大化 p(θ|D)p\left( \theta|D \right) 的优化问题的解,即

p(θ|D)∝p(D|θ)p(θ)p\left( \theta|D \right) \propto p\left( D|\theta \right)p\left( \theta \right)

STEP 2:求解使得参数后验分布极大化的参数。

后验概率(的负对数似然):

−logp(θ|D)=−log⁡[p(D|θ)p(θ)]+log⁡C=argminθ[−∑n=1Nlogp(y(n)|x(n),θ)]-\ log \ p\left( \theta|D \right)=-\log \ \left[ p\left( D|\theta \right)p\left( \theta \right) \right] + \log \ C=argmin_{\theta}\left[- \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)} \right]

优化问题:

θML=argminθ{−[∑n=1Nlogp(y(n)|x(n),θ)+log⁡p(θ)]}\theta_{ML}=argmin_{\theta}\left\{ -\left[ \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)}+\log \ p\left( \theta \right) \right] \right\}

其中, CC 是与参数 θ\theta 无关的量,因此在针对 θ\theta 的模型优化过程中可以看作是常数,因此再优化问题中被省略。

2.3.BPE(Bayes parameter estimation)

贝叶斯参数估计在MAP的基础上进行了继承和发展。一方面,贝叶斯估计继承了MAP中将待估计参数看作是随机变量的思想,在流程上保留了MAP中的STEP 1,但改变了STEP 2,即改变了基于参数的后验分布求解参数估计值的方式。另一方面,贝叶斯估计不再将求参数估计问题转化为最优化问题,而是采用直接用参数的期望作为估计值。

贝叶斯估计的一般步骤如下:

STEP 1:计算参数的后验分布 p(θ|D)p\left( \theta|D \right) ,此步的计算方法与MAP的STEP 1相同;

STEP 2:计算参数的后验期望,作为参数估计值。

θBPE=∫θθ⋅p(θ|D)=Eθ|D[θ]\theta_{BPE}=\int_{\theta}\theta \cdot p\left( \theta|D \right)=E_{\theta|D}\left[ \theta \right]

综上,贝叶斯参数估计继承了MAP中将待估计参数看作是随机变量的思想,但将参数求解不再是一个优化问题,而是采用了概率期望的做法。需要注意的是,虽然贝叶斯推理在思想上与传统的频率主义方法存在着本质区别,但二者推导出的结论在形式上往往相似或存在着明显的非关联(参考文献[9])。

参考文献

[1] ML, MAP, and Bayesian — The Holy Trinity of Parameter Estimation and Data Prediction. Avinash Kak, Purdue University, originally presented in Summer 2008, minor changes in 2017, D

[2] 贝叶斯统计, 茆诗松, 中国统计出版社, 1999, M

[3] 再谈经验贝叶斯,知乎,链接:https://zhuanlan.zhihu.com/p/142221534, Z

[4] A Bayesian Approach to Online Learning, Manfred Opper, 1998, C

[5] Maximum Likelihood vs. Bayesian Estimation -- A comparison of parameter estimation methods, Lulu Ricketts, 2021, 博客,超链接:https://towardsdatascience.com/maximum-likelihood-vs-bayesian-estimation-dd2eb4dfda8a

[6] Pattern Recognition and Machine Learning, Christopher M. Bishop, Springer, 2006, M

[7] Optimal Bayesian Online Learning, Ole Winther and Sara A. Solla, C

[8] Online Bounds for Bayesian Algorithms, Sham M. Kakade, Andrew Y. Ng, NIPS 2014, C

[9] Bayesian Data Analysis, 3rd edition, Andrew Gelman etc., 2020, M

更多贝叶斯推理是一种(贝叶斯推理例子)相关信息请关注本站,本文仅仅做为展示!