第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > 高斯过程(Gaussian Process)

高斯过程(Gaussian Process)

时间:2024-04-14 15:06:42

相关推荐

高斯过程(Gaussian Process)

高斯过程是对函数的概率分布进行建模,给定数据 (X,Y)(\mathbf{X}, \mathbf{Y})(X,Y) , 高斯过程便是得到从空间 X\mathbf{X}X 到空间 y\mathbf{y}y 的概率性映射,假设 fff 为所需求得的函数分布,考虑到存在一定的噪声干扰,则从 X\mathbf{X}X 到 y\mathbf{y}y 的概率性映射可表示为:

y=f(X)+ϵ,ϵ∼N(0,β−1I)\mathbf{y}=f(\mathbf{X})+ \boldsymbol{\epsilon}, \boldsymbol{\epsilon} \sim \mathcal{N}\left(\mathbf{0}, \beta^{-1} \mathbf{I}\right) y=f(X)+ϵ,ϵ∼N(0,β−1I) 该公式中涉及两个映射过程,先是从 X\mathbf{X}X 到函数 F\mathbf{F}F 的映射,后是 F\mathbf{F}F 到 Y\mathbf{Y}Y 的映射。而高斯过程主要专注于第一个映射过程,这两个概率性映射可由以下高斯分布表示:

F∣X∼N(0,K(X,X))\mathbf{F} \mid \mathbf{X} \sim \mathcal{N}(\mathbf{0}, K(\mathbf{X}, \mathbf{X})) F∣X∼N(0,K(X,X))Y∣F∼N(F,β−1IN)\mathbf{Y} \mid \mathbf{F} \sim \mathcal{N}\left(\mathbf{F}, \beta^{-1} \mathbf{I}_{N}\right) Y∣F∼N(F,β−1IN​) 其中 K(X,X)K(\mathbf{X}, \mathbf{X})K(X,X) 是高斯过程的核函数,衡量各X\mathbf{X}X之间的两两相互关系。

则由 X\mathbf{X}X 到 y\mathbf{y}y 的概率映射可表示为:

p(y∣X)=∫p(y∣f)p(f∣X)dfp(\mathbf{y}\mid\mathbf{X})=\int p(\mathbf{y} \mid \mathbf{f}) p(\mathbf{f} \mid \mathbf{X}) d \mathbf{f} p(y∣X)=∫p(y∣f)p(f∣X)df 现在我们给定测试数据 X∗\mathbf{X}^{*}X∗, 要求其所对应的预测值 y∗\mathbf{y}^{*}y∗, 其公式为:

p(y∗∣X∗,X,y)=∫p(y∗∣f∗)p(f∗∣X∗,X,y)dfp(\mathbf{y}^{*}\mid\mathbf{X}^{*}, \mathbf{X}, \mathbf{y})=\int p(\mathbf{y}^{*} \mid \mathbf{f}^{*}) p(\mathbf{f}^{*} \mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}) d \mathbf{f} p(y∗∣X∗,X,y)=∫p(y∗∣f∗)p(f∗∣X∗,X,y)df 其中 p(y∗∣f∗)p\left(\mathbf{y}^{*}\mid \mathbf{f}^{*}\right)p(y∗∣f∗) 已知,p(f∗∣X∗,X,y)p\left(\mathbf{f}^{*}\mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}\right)p(f∗∣X∗,X,y) 为未知量,由于:

[ff∗]∼N(0,[K(X,X)K(X,X∗)K(X∗,X)K(X∗,X∗)])\left[\begin{array}{l}\mathbf{f} \\\mathbf{f}^{*}\end{array}\right] \sim \mathcal{N}\left(\mathbf{0},\left[\begin{array}{ll}K(\mathbf{X}, \mathbf{X}) & K\left(\mathbf{X}, \mathbf{X}^{*}\right) \\K\left(\mathbf{X}^{*}, \mathbf{X}\right) & K\left(\mathbf{X}^{*}, \mathbf{X}^{*}\right)\end{array}\right]\right) [ff∗​]∼N(0,[K(X,X)K(X∗,X)​K(X,X∗)K(X∗,X∗)​]) 所以:

p(f∗∣X∗,X,y)∼N(K(X∗,X)K(X,X)−1f,K(X∗,X∗)−K(X∗,X)K(X,X)−1K(X,X∗))\begin{aligned} p\left(\mathbf{f}^{*} \mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}\right) \sim \mathcal{N}(& K\left(\mathbf{X}^{*}, \mathbf{X}\right) K(\mathbf{X}, \mathbf{X})^{-1} \mathbf{f}, \\ &\left.K\left(\mathbf{X}^{*}, \mathbf{X}^{*}\right)-K\left(\mathbf{X}^{*}, \mathbf{X}\right) K(\mathbf{X}, \mathbf{X})^{-1} K\left(\mathbf{X}, \mathbf{X}^{*}\right)\right) \end{aligned} p(f∗∣X∗,X,y)∼N(​K(X∗,X)K(X,X)−1f,K(X∗,X∗)−K(X∗,X)K(X,X)−1K(X,X∗))​ 上式的证明可参考《Pattern Recognition and Machine Learning》一书中的”条件高斯分布”章节。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。