贝叶斯推理是一种（贝叶斯推理例子）

本

文

摘

要

小伙伴关心的问题：贝叶斯推理是一种（贝叶斯推理例子）,本文通过数据整理汇集了贝叶斯推理是一种（贝叶斯推理例子）相关信息，下面一起看看。

贝叶斯推理是一种（贝叶斯推理例子）

前言

在机器学习和现代统计学中，贝叶斯方法可谓无处不在，常见的涉及“贝叶斯”的内容有：贝叶斯公式、贝叶斯（参数）估计、贝叶斯推理（Bayesian Inference）、贝叶斯预测（Bayesian Prediction）、经验贝叶斯（Empirical Bayes）、朴素贝叶斯（Naive Bayes）等等，其中贝叶斯估计和贝叶斯预测一般被合称为贝叶斯推理。本文主要介绍贝叶斯推理以下相关内容：

1、贝叶斯估计。此部分会把极大似然估计（MLE）、极大后验估计（MAE）和贝叶斯参数估计（以下简称：贝叶斯估计）进行对比，说明贝叶斯参数估计的特性。

2、贝叶斯预测，用于预测的贝叶斯方法框架被称为经验贝叶斯方法。

3、贝叶斯在线学习。贝叶斯推理的思想中天然的包含着某些在线学习的元素，因此介绍贝叶斯在线学习方法是必要的。

1. 预备知识

1.1.贝叶斯推理的定义

以下直接引用参考文献[9]的S1.3中的定义：

Bayesian statistical conclusions about a parameter θ\theta , or unobserved data , are made in terms of probability statements. These probability statements are conditional on the observed value of yy , and in our notation are written simply as p(θ|y)p\left( \theta | y \right) or p(y~|y)p\left( \tilde{y} | y \right) . We also implicitly condition on the known values of any covariates, xx .

1.2.问题背景

已知：样本集 D={(x(n),y(n))|n=1,2,...,N}D=\left\{ \left( x^{\left( n \right)} ,y^{\left( n \right)}\right) | n=1,2,...,N \right\} 和总体分布 p(y(n)|x(n),θ)p\left( y^{\left( n \right)} | x^{\left( n \right)},\theta \right) （这里“总体”的说法借鉴自参考文献[2]，可以理解为是指条件变量 y|xy|x 或边际变量 yy ）。其中 xx 是样本特征向量， yy 表示样本的待预测值的（本文假设 yy 是标量，但结论可以很容易的推广到 yy 是向量的情况）， KK 维向量x(n)x^{\left( n \right)} 表示样本 nn 的特征向量， y(n)y^{\left( n \right)} 表示样本 nn 的真值，向量 θ\theta 是模型的参数。

目标：参数估计的目标：根据已知的样本集 DD 推断总体分布中参数 θ\theta 的最合理的值 θ¯\bar{\theta} 。

1.3.贝叶斯公式

贝叶斯公式和公式中各部分称呼如下图（参考文献[5]）：

注意本文（以及大部分文献）将样本集上的似然概率 p(D|θ)p\left( D|\theta \right) 定义如下：

p(D|θ)=∏n=1Np(y(n)|x(n),θ)p\left( D|\theta \right)=\prod_{n=1}^{N}p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)

2.贝叶斯估计

本节通过对比三种基于概率的参数估计方法（MLE、MAE和贝叶斯估计），逐层递进的说明贝叶斯方法的内容和特点。本节内容主要来自参考资料[1]。

2.1. MLE(Maximum Likelihood Estimation)

极大似然估计（MLE）方法的优化目标是：通过调整模型参数 θ\theta 使得似然概率 p(D|θ)p\left( D|\theta \right) 化。为了简化计算，同时也为了遵循优化问题的一般提法，实际中一般采用极小化似然函数的负对数，即：

优化目标（负对数似然）：

−logp(D|θ)=−log∏n=1Np(y(n)|x(n),θ)=−∑n=1Nlogp(y(n)|x(n),θ)-log \ p\left( D|\theta \right)=-log \ \prod_{n=1}^{N}p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)=-\sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)}

优化问题（极大化对数似然等价于极小化负对数似然）：

θML=argminθ[−∑n=1Nlogp(y(n)|x(n),θ)]\theta_{ML}=argmin_{\theta}\left[- \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)} \right]

2.2. MAP(maximum a posteriori Estimation)

极大后验估计思想在极大似然估计基础上有两点创新：（1）将参数 θ\theta 看作是随机变量（而不是MLE中的一般变量），并加入了对参数的先验分布假设 p(θ)p\left( \theta \right) ，（2）利用了贝叶斯公式，需要计算参数的后验分布 p(θ|D)p\left( \theta|D \right) 。

极大后验估计的求解流程可以分为两个步骤：

STEP 1：基于样本集，利用贝叶斯公式修正参数的先验分布，得到参数的后验分布；

p(θ|D)=p(D|θ)p(θ)p(D)p\left( \theta|D \right)=\frac{p\left( D|\theta \right)p\left( \theta \right)}{p\left( D \right)}

注意到 p(D)p\left( D \right) 是一个以模型参数 θ\theta 无关的值，不影响通过调整参数值极大化 p(θ|D)p\left( \theta|D \right) 的优化问题的解，即

p(θ|D)∝p(D|θ)p(θ)p\left( \theta|D \right) \propto p\left( D|\theta \right)p\left( \theta \right)

STEP 2：求解使得参数后验分布极大化的参数。

后验概率（的负对数似然）：

−logp(θ|D)=−log⁡[p(D|θ)p(θ)]+log⁡C=argminθ[−∑n=1Nlogp(y(n)|x(n),θ)]-\ log \ p\left( \theta|D \right)=-\log \ \left[ p\left( D|\theta \right)p\left( \theta \right) \right] + \log \ C=argmin_{\theta}\left[- \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)} \right]

优化问题：

θML=argminθ{−[∑n=1Nlogp(y(n)|x(n),θ)+log⁡p(θ)]}\theta_{ML}=argmin_{\theta}\left\{ -\left[ \sum_{n=1}^{N}{log \ p\left( y^{\left( n \right)} |x^{\left( n \right)},\theta \right)}+\log \ p\left( \theta \right) \right] \right\}

其中， CC 是与参数 θ\theta 无关的量，因此在针对 θ\theta 的模型优化过程中可以看作是常数，因此再优化问题中被省略。

2.3.BPE(Bayes parameter estimation)

贝叶斯参数估计在MAP的基础上进行了继承和发展。一方面，贝叶斯估计继承了MAP中将待估计参数看作是随机变量的思想，在流程上保留了MAP中的STEP 1，但改变了STEP 2，即改变了基于参数的后验分布求解参数估计值的方式。另一方面，贝叶斯估计不再将求参数估计问题转化为最优化问题，而是采用直接用参数的期望作为估计值。

贝叶斯估计的一般步骤如下：

STEP 1：计算参数的后验分布 p(θ|D)p\left( \theta|D \right) ，此步的计算方法与MAP的STEP 1相同；

STEP 2：计算参数的后验期望，作为参数估计值。

θBPE=∫θθ⋅p(θ|D)=Eθ|D[θ]\theta_{BPE}=\int_{\theta}\theta \cdot p\left( \theta|D \right)=E_{\theta|D}\left[ \theta \right]

综上，贝叶斯参数估计继承了MAP中将待估计参数看作是随机变量的思想，但将参数求解不再是一个优化问题，而是采用了概率期望的做法。需要注意的是，虽然贝叶斯推理在思想上与传统的频率主义方法存在着本质区别，但二者推导出的结论在形式上往往相似或存在着明显的非关联（参考文献[9]）。

参考文献

[1] ML, MAP, and Bayesian — The Holy Trinity of Parameter Estimation and Data Prediction. Avinash Kak, Purdue University, originally presented in Summer 2008, minor changes in 2017, D

[2] 贝叶斯统计, 茆诗松, 中国统计出版社, 1999, M

[3] 再谈经验贝叶斯，知乎，链接：https://zhuanlan.zhihu.com/p/142221534, Z

[4] A Bayesian Approach to Online Learning, Manfred Opper, 1998, C

[5] Maximum Likelihood vs. Bayesian Estimation -- A comparison of parameter estimation methods, Lulu Ricketts, 2021, 博客，超链接：https://towardsdatascience.com/maximum-likelihood-vs-bayesian-estimation-dd2eb4dfda8a

[6] Pattern Recognition and Machine Learning, Christopher M. Bishop, Springer, 2006, M

[7] Optimal Bayesian Online Learning, Ole Winther and Sara A. Solla, C

[8] Online Bounds for Bayesian Algorithms, Sham M. Kakade, Andrew Y. Ng, NIPS 2014, C

[9] Bayesian Data Analysis, 3rd edition, Andrew Gelman etc., 2020, M

更多贝叶斯推理是一种（贝叶斯推理例子）相关信息请关注本站，本文仅仅做为展示！

贝叶斯推理是一种（贝叶斯推理例子）

前言

1. 预备知识

1.1.贝叶斯推理的定义

1.2.问题背景

2.贝叶斯估计

2.1. MLE(Maximum Likelihood Estimation)

2.2. MAP(maximum a posteriori Estimation)

2.3.BPE(Bayes parameter estimation)

参考文献

南充最美人民警察（南充特警大队图片）

狼族百度百科（狼族魔舞团）

贝叶斯推理是一种（贝叶斯推理例子）

前言

1. 预备知识

1.1.贝叶斯推理的定义

1.2.问题背景

2.贝叶斯估计

2.1. MLE(Maximum Likelihood Estimation)

2.2. MAP(maximum a posteriori Estimation)

2.3.BPE(Bayes parameter estimation)

参考文献

南充最美人民警察（南充特警大队图片）

狼族百度百科（狼族魔舞团）

相关文章