模式识别与机器学习——生成式分类器 课程笔记

发布时间 2023-09-25 17:18:51作者: moomight

有监督学习:从有标记的数据中学习推断函数

目标函数:\(Y=f(x)\)\(P(Y|X)\)

注意:条件概率用小写p表示,先验概率用大写P表示。

贝叶斯判别原则

给定观测值X,判断其属于\(\omega 1\)类还是\(\omega 2\)类,最小化误差概率条件下,\(P(\omega1|X) > P(\omega2|X)\)则判断成\(X\in\omega 1\),否则\(X\in\omega 2\)(哪一类概率大就判断成哪一类)

贝叶斯判别:\(P(\omega_1|X)\quad?\quad P(\omega_2|X)\)

由贝叶斯公式:

得到\(P(\omega i|x) = \Large \frac{p(x|\omega i)P(\omega i)}{p(x)}\)

由全概率公式:

得到\(P(\omega_i|x) = \Large \frac{p(x|\omega_i)P(\omega_i)}{\sum p(x|\omega_i)P(\omega_i)}\)

由于分母都是\(p(x)\),只需比较分子的大小

\(p(x|\omega_1)P(\omega_1)\ >\ p(x|\omega_2)P(\omega_2)\)则判断为\(\large\omega_1\)

\(p(x|\omega_1)P(\omega_1)\ <\ p(x|\omega_2)P(\omega_2)\)则判断为\(\large\omega_2\)

似然的概念参考知乎回答如何理解似然函数? - HiTao的回答 - 知乎
https://www.zhihu.com/question/54082000/answer/470252492

似然函数:\(P(x|\theta)\),将X看为常量,以\(\theta\)为变量的函数。=>对于已知的情况x,找到一个\(\theta\)使x出现的概率最大

似然比:\(l_{12}(x)=\large\frac{p(x|\omega_1)}{p(x|\omega_2)}\)

判决阈值:\(\large\frac{P(\omega_2)}{P(\omega_1)}\)

似然比>判决阈值,则属于\(\large\omega_1\),否则属于\(\large\omega_2\)

贝叶斯最小风险判别

如果分类器判别x属于\(\omega_j\)类,但它实际来自\(\omega_i\)类,也就是说分类失败,此时\(L_{ij}\)为失分,对应的条件风险为后验概率进行\(L_{ij}\)的加权运算\(L_{ij}P(\omega_i|x)\)

\(r_j = \sum_{i=1}^{M}L_{ij}P(\omega_i|x)\)

\(L_{ij}\) 称为将本应属于\(ω_i\)类的模式判别成属于\(ω_j\) 类的是非代价。

\(L_{ij}\)的取值:

若i==j,则判别正确,得分,取负值或者零,表示不失分

否则判别错误,失分,取正值

最小平均条件风险分类器

分类器对每一个模式x有M种可能的类别可供选择。

若对每一个x计算出全部类别的平均风险值\(r_1(x), r_2(x),…, r_M(x)\),并且将x指定为是具有最小风险值的那一类,则这种分类器称为最小平均条件风险分类器

\(\large r_j(x)=\frac{1}{p(x)} \sum_{i=1}^{M}L_{ij}p(x|\omega_i)P(\omega_i)\)

一般多类(M类)的情况

\(r_j(x) = \large\sum_{i=1}^M L_{ij}p(x|\omega_i)P(\omega_i)\)
特例:当i==j时,\(L_{ij} = 0\),不相等时,\(L_{ij}=1\)

\(r_j(x)=\sum_{i=1}^{M}p(x|\omega_i)P(\omega_i) - p(x|\omega_j)P(\omega_j) = p(x)-p(x|\omega_j)P(\omega_j)\)

补一个\(L_{jj}\)项凑成全概率公式,再减掉,就得到了贝叶斯判别

判别函数为:\(d_j(x)=p(x|\omega_j)P(\omega_j)\),d大,\(r_j\)就小

所以\(\forall i\neq j, d_i(x)>d_j(x)\),则\(x\in \omega_i\)

朴素贝叶斯

在特征\(x=(x_1, x_2, x_3, ..., x_d)\) 是多维向量时,朴素贝叶斯算法是假设各个特征之间相互独立。

不独立时需要计算\(2^d\)次,独立只需要算d次

\(p(x_1, x_2, x_3, ..., x_d|\omega)=\prod_{i=1}^{d}p(x_i|\omega)\)

概率分布参数估计

预先假设每一个类别的概率密度函数的形式已知,而具体的参数未知。

矩估计:用样本的矩去估计总体的矩,即用样本一阶原点矩去估计总体的一阶原点矩,用样本的二阶原点矩去估计总体的二阶原点矩。

最大似然估计(MLE):把参数看作是非随机变量,寻找使似然最大的参数的值。

最大后验估计(MAP):把这些参数看成是随机变量时,最大化参数的后验分布。

贝叶斯参数估计:将参数看成是随机变量,估计参数的后验分布。

将参数看成随机变量意味着参数服从某种分布

最大似然估计(MLE)

独立同分布假设:样本集D中包含N个样本,样本是独立同分布的随机变量

\(p(D|\theta)=\prod_{i=1}^Np(x_i|\theta)\) D确定且\(\theta\)是参数=>似然函数

对似然函数求对数,把乘法转为加法:\(l(\theta)=logp(D|\theta)=\sum_{i=1}^{n}logp(x_i|\theta)\)

最大似然估计:寻找使\(l(\theta)\)最大的参数\(\theta\)=>求导

\(\hat{\theta}=arg \mathop{max}\limits_{\theta}l(\theta)\)

最大后验估计(MAP)

将参数看作随机变量,对其有一个先验的分布认知。通过观测到的样本数据,计算样本的后验分布,对先验概率进行调节。

最大化参数的后验分布\(\Large\frac{p(D|\theta)p(\theta)}{p(D)}\)

贝叶斯参数估计

贝叶斯也认为参数是一个随机变量,根据样本集D和参数\(\theta\)的先验分布\(p(\theta)\),估计参数的后验分布\(p(\theta|D)\),能过提高小样本集条件下估计的准确性,但计算比较复杂

  1. 确定参数\(\theta\)的先验分布\({p(\theta)}\)

  2. 由样本集\(D=(x_1, x_2, x_3, ..., x_N)\),求出样本联合分布\(p(D|\theta)=\large\prod_{n=1}^N p(x_n|\theta)\)

  3. 利用贝叶斯公式求\(\theta\)的后验分布\(p(\theta|D)=\Large\frac{p(D|\theta)p(\theta)}{\int_\theta p(D|\theta)p(\theta)d\theta}\)

  4. 求出贝叶斯估计值\(\hat{\theta}=\large \int_\theta \theta p(\theta|D)d\theta\)

贝叶斯估计

\(D=(x_1, x_2, ......)\)表示用于估计参数的样本集,其中\(x_i\)逐次给出。\(\theta\)表示给出前N个样本后估计的参数。\(p(\theta_N)=p(\theta|x_1, x_2, x_3, ..., x_N)\)

\(p(\theta|x_1, x_2) = \Large\frac{p(x_2|\theta, x_1)p(\theta|x_1)}{p(x_2|x_1)}=\frac{p(x_1, x_2|\theta)p(\theta)}{p(x_1, x_2)}\)

对于\(p(\theta|x_1, x_2)\)而言,\(p(\theta|x_1)\)相当于它的先验

正态分布模式的贝叶斯分类器

待续……