第一句子网 > 隐马尔可夫模型(三)——鲍姆-韦尔奇算法(Baum-Welch算法)

隐马尔可夫模型(三)——鲍姆-韦尔奇算法(Baum-Welch算法)

时间：2022-11-27 21:35:37

一、问题回顾

模型参数的学习问题。即给定观测序列O={o1,o2,…oT}，估计模型λ=(A,B,Π)的参数。这个问题的求解需要用到鲍姆-韦尔奇算法，我会在隐马尔可夫模型系列的第三篇博客中讲解，这个问题是HMM模型三个问题中最复杂的。

鲍姆-韦尔奇算法本质上就是EM算法，只不过它比EM算法出来的早，所以这里继续称它为鲍姆-韦尔奇算法。

二、监督学习算法求解模型参数

监督学习算法适用于观测序列和状态序列都已知的情况下，因为需要大量的训练数据，而人工标注训练数据的代价很高，所以该方法不是很常用。

假设训练数据为S对长度为 T 的状态序列 I = (i1, i2, … , iT)及其观测序列 O = (o1, o2, … , oT)组成的集合{(I1, O1), (I2, O3), … , (Is, Os)}，其中所有可能的状态集合为Q = {q1, q2, … , qN}，所有可能的观测集合为V = {v1, v2, … , vM}。

初始状态概率分布Π：

Π =[ πi ]N

取 I1 到 Is 这S个状态序列的 i1时刻的状态，组成一个长度为S的初始状态序列 C = (c11, c21, … , cs1)，其中ck1表示 Ik 这个状态序列在时刻 1 时的状态。

假设C( i )表示初始状态序列 C 中状态 qi 出现的次数，则 πi 等于：

状态转移概率矩阵A：

统计 I1 到 Is 这S个状态序列中从状态 qi 转移到状态 qj 的次数，用Aij来表示。则可得：

所以得：

A = [aij]N×N

观测生成概率矩阵B：

统计 (I1, O1) 到 (Is, Os) 这S对状态序列—观测序列中状态 qj 生成观测 vk 的次数，用Bjk来表示。则可得：

三、非监督学习算法求解模型参数

此处的非监督学习算法也就是本文打算重点讲解的鲍姆-韦尔奇算法。之所以说它是非监督学习算法，是因为鲍姆-韦尔奇算法求解模型参数时只用到了观测序列，而不用状态序列。

已知条件：

假设训练数据是长度为 T 的观测序列 O = (o1, o2, … , oT)，所有可能的状态集合为Q = {q1, q2, … , qN}，所有可能的观测集合为V = {v1, v2, … , vM}。

未知条件：

假设长度为 T 的观测序列 O = (o1, o2, … , oT) 所对应的状态序列为 I = (i1, i2, … , iT)，它是未知的。

鲍姆-韦尔奇算法的原理：

鲍姆-韦尔奇算法使用的就是EM算法的原理，那么在第 h+1 次迭代时我们需要在E步求出联合分布P(O,I；λ)基于条件概率P(I | O；λ(h))的期望，其中λ(h)为第 h 次迭代时的模型参数，然后在M步最大化这个期望，就能得到更新的模型参数λ，它就是 h+1 次迭代得到的模型参数。接着不停的进行EM迭代，直到模型参数的值收敛为止。

首先来看看E步，联合分布P(O,I；λ)基于条件概率P(I | O；λ(h))的期望表达式为：

在M步，我们极大化上式，然后得到更新后的模型参数如下：

通过不断的E步和M步的迭代，直到λ(h+1)收敛。下面我们来看看鲍姆-韦尔奇算法的推导过程。

鲍姆-韦尔奇算法的推导：

已知条件：

假设训练数据是长度为 T 的观测序列 O = (o1, o2, … , oT)，所有可能的状态集合为Q = {q1, q2, … , qN}，所有可能的观测集合为V = {v1, v2, … , vM}。

未知条件：

假设长度为 T 的观测序列 O = (o1, o2, … , oT) 所对应的状态序列为 I = (i1, i2, … , iT)，它是未知的。

模型参数：

λ=(A,B,Π)

首先来计算一下联合分布P(O, I；λ)的表达式：

求Q函数的表达式：