在正式开启朴素贝叶斯分析之前,我们还有一些公式要进行推证,如果稀里糊涂的直接去理解可能很快就会忘了,虽然受限于数学的能力, 但是这篇博客将尽可能的把朴素贝叶斯中遇到的公式做一个梳理。

朴素贝叶斯算法的基本假设

独立性假设: 假设单一样本的 n 个维度彼此之间在各种意义上相互独立。(我们之后的很多推证都是建立在这个假设上的)

  这当然是很强的假设,在现实任务中也大多无法满足该假设。由此会衍生出所谓的半朴素贝叶斯和贝叶斯网,我们暂时先不说。我们主要说的是朴素贝叶斯算法, 朴素贝叶斯算法得到的模型所做的决策就是 0-1 损失函数下的贝叶斯决策。

  从直观上分析:在损失函数为 0-1 损失函数的情况下,决策风险、亦即训练集的损失的期望就是示性函数某种线性组合的期望、从而就是相对应的概率; 朴素贝叶斯本身就是运用相应的概率做决策,此时可以认为朴素贝叶斯和贝叶斯决策在0-1损失函数上是等价的。

  在进入正题前,我们先说一个定理:

  令满足:

  也就是是已知训练集\tilde X=(x_1,…,x_n)的最小后验期望损失。那么如果一个决策能使任意一个含有 n 个样本的训练集的后验期望损失达到最小,即:

  满足这个条件的话,那么就是贝叶斯决策。这个定理我是证明不来的,里面涉及了泛函甚至是图论的知识,不过从真实的含以上我们是可以理解的。

  有了这个定理以后,如果我们想证明朴素贝叶斯算法能导出贝叶斯决策、我们只需证明它能使任一个训练集上的后验期望损失最小即可。 所以,我们需要先计算

  这里的期望是对联合分布取的,所以可以做后面的条件期望。

  我们讨论的朴素贝叶斯多为离散的,在损失函数为0-1的情况下,可以有下面变换:

  因为我的损失要么为0要么为1,此时是示性函数,它满足:

  有了上述的描述,为了使后验期望损失最小,我们只需逐个对最小化,从而有:

  上面公式的第一步到第二步就是利用了0-1损失达到的,这个假设还是很重要的。有了上述的推导,我们可以看出,最小化后验期望损失其实是对后验概率最大化, 也就是朴素贝叶斯所采用的原理。

离散型朴素贝叶斯算法的推导

  离散型朴素贝叶斯算法的推导相对简单但是我感觉也是蛮繁琐的,核心的思想是利用示性函数将对数似然函数写成比较“整齐”的形式、再运用拉格朗日方法进行求解。

  在正式推导前,我们先说明一下符号约定:

记已有的数据为,也就是训练集,其中:

  • 表示生成数据的随机变量

  • 随机变量的取值限制在集合

  • 类别的可能取值集合为

  • 表示先验概率

  • 表示条件概率

  有了上述约定,我们就可以来推导公式了:

计算对数似然函数

  其中

极大化似然函数

  有了上式,最大化对数似然只需分别最大化

  对于后者,由条件独立性假设可知、我们只需要对分别最大化:

  具体求解极大值时,我们采用拉格朗日方法求解,用到的约束条件是:

  对于计算最大值时,有

  由一阶条件

  可以解得

  同理,对应用拉格朗日方法,可以得到

  自此,离散型朴素贝叶斯算法的推导就结束了,对于半朴素贝叶斯和贝叶斯网我们之后再去分析,接下来我们就将正真进入朴素贝叶斯算法的学习了。

谢谢观看,希望对您有所帮助,欢迎指正错误,欢迎一起讨论!!!