小伙伴关心的问题:贝叶斯推断 贝叶斯估计(三种贝叶斯估计的区别与联系),本文通过数据整理汇集了贝叶斯推断 贝叶斯估计(三种贝叶斯估计的区别与联系)相关信息,下面一起看看。

贝叶斯推断 贝叶斯估计(三种贝叶斯估计的区别与联系)

贝叶斯

头条号AiMath在头条文章《贝叶斯定理》里介绍贝叶斯定理以及先验、后验、似然等概念,在文章《你知道极大似然估计和最大后验估计的区别和联系吗?》里介绍了最小二乘法、极大似然估计、最大后验估计的关系。上述两篇文章是本文的基础。在本文中,头条号AiMath将通俗介绍贝叶斯估计,尽量避免过多的数学推导。极大似然估计、最大后验估计和贝叶斯估计有什么区别和联系?我相信经过认真阅读AiMath发表的这三

1.贝叶斯定理以及最大后验估计回顾

贝叶斯定理描述了后验(posterior)、似然(likelihood)和先验(prior)的关系:

贝叶斯定理具体公式:

贝叶斯定理

后验p(W|D)是指在知道数据集D之后,参数W发生的概率(对连续型随机变量,这里的p是指概率密度函数)。举例说明这一点,比如你要估计某地区小学一年级学生的平均高度(这个平均高度就是参数W),当你知道样本来源(随机抽样)于某所小学一年级学生所构成的数据集D之后,你应该对W进行重新认识或校正(没拿到样本之前,别人告诉你W=1.2米,当你拿到样本后,你觉得W=1米可能性更大一点),即p(W|D)。

似然p(D|W)是指在知道参数W的情况下,数据集D发生(关联参数)的可能性(likelihood)。如果你事先知道W=1.4米,就可以判断某所小学一年学生(数据D)的平均高度为1.4米的可能性,这就是似然p(D|W)的含义。

先验p(W)是没有做任何统计调查之前,就已经知道关于参数W的有关信息。继续之前的例子,如果过去每年都对某地区小学一年级学生的平均高度W做过统计调查,那么过去W的取值范围或分布我们就知道,这些先验信息对我们现在的统计调查是有帮助的。

极大似然估计就是对似然p(D|W)关于参数W求最大值。最大后验估计就是对后验p(W|D)关于参数W求最大值。由于最大后验估计增加了关于参数W的先验信息,因此最大后验估计往往比极大似然估计更加鲁棒。

极大似然估计和最大后验估计的共同特点是:都是关于参数W的点估计。下面要讲的贝叶斯估计不是点估计,而且估计参数W在数据集D下的条件期望。

推荐一本书

2.贝叶斯估计

最大后验估计是求参数W使得后验p(W|D)最大,即

最大后验估计

仍然属于点估计,和极大似然估计一样,把参数W看作未知常数。这种点估计具有不确定性,即随着训练集的变化,可能计算出不同的参数值。

贝叶斯估计把参数W看成一个随机变量,通过后验分布p(W|D)来计算参数W在条件D下的数学期望,即加权使用所有参数W,而权重由后验分布p(W|D)确定(类似于离散情形的加权平均),从而起到分摊估计参数W的不确定性。这是比极大似然估计和最大后验估计这种点估计先进的地方。

具体数学推导如下:

理解为加权平均

其中p(W|D)为后验分布。利用贝叶斯定理对上述公式进行进一步推导。首先用贝叶斯全概率公式计算p(D):

贝叶斯全概率公式

由贝叶斯定理推出:

贝叶斯估计参数计算公式

通常情况下,计算上述积分较为困难。在某些情况下,可以计算它。随着计算能力的增强,可以使用从后验分布p(W|D)产生样本的 *** 方法(Andrieu 等 2003)计算上述积分。

当先验p(W)为高斯分布,似然p(D|W)也是高斯分布的情况下,最大后验估计和贝叶斯估计是等价的。

3.总结

综合前面两篇文章和本文,头条号AiMath总结以下:

极大似然估计、最大后验估计和贝叶斯估计都是参数估计方法。

极大似然估计和最大后验估计都是点估计,即把参数看成未知常数,通过最大化似然和后验实现。

贝叶斯估计把参数看成一个随机变量,然后求该随机变量在数据集D下的条件期望。

当先验为均匀分布时,极大似然估计和最大后验估计是等价的。

当先验和似然都是高斯分布时,最大后验估计和贝叶斯估计是等价的。

通常情况下,贝叶斯估计的积分很难计算,但可以采取一些近似方法,如拉普拉斯和变分近似以及马尔科夫链 *** 抽样。

更多贝叶斯推断 贝叶斯估计(三种贝叶斯估计的区别与联系)相关信息请关注本站,本文仅仅做为展示!