有监督学习：从有标记的数据中学习推断函数

目标函数：\(Y=f(x)\)或\(P(Y|X)\)

注意：条件概率用小写p表示，先验概率用大写P表示。

贝叶斯判别原则

给定观测值X，判断其属于\(\omega 1\)类还是\(\omega 2\)类，最小化误差概率条件下，\(P(\omega1|X) > P(\omega2|X)\)则判断成\(X\in\omega 1\)，否则\(X\in\omega 2\)（哪一类概率大就判断成哪一类）

贝叶斯判别：\(P(\omega_1|X)\quad?\quad P(\omega_2|X)\)

由贝叶斯公式：

得到\(P(\omega i|x) = \Large \frac{p(x|\omega i)P(\omega i)}{p(x)}\)

由全概率公式：

得到\(P(\omega_i|x) = \Large \frac{p(x|\omega_i)P(\omega_i)}{\sum p(x|\omega_i)P(\omega_i)}\)

由于分母都是\(p(x)\)，只需比较分子的大小

即\(p(x|\omega_1)P(\omega_1)\ >\ p(x|\omega_2)P(\omega_2)\)则判断为\(\large\omega_1\)

若\(p(x|\omega_1)P(\omega_1)\ <\ p(x|\omega_2)P(\omega_2)\)则判断为\(\large\omega_2\)

似然的概念参考知乎回答如何理解似然函数? - HiTao的回答 - 知乎
https://www.zhihu.com/question/54082000/answer/470252492

似然函数：\(P(x|\theta)\)，将X看为常量，以\(\theta\)为变量的函数。=>对于已知的情况x，找到一个\(\theta\)使x出现的概率最大

似然比：\(l_{12}(x)=\large\frac{p(x|\omega_1)}{p(x|\omega_2)}\)

判决阈值：\(\large\frac{P(\omega_2)}{P(\omega_1)}\)

似然比>判决阈值，则属于\(\large\omega_1\)，否则属于\(\large\omega_2\)

贝叶斯最小风险判别

如果分类器判别x属于\(\omega_j\)类，但它实际来自\(\omega_i\)类，也就是说分类失败，此时\(L_{ij}\)为失分，对应的条件风险为后验概率进行\(L_{ij}\)的加权运算\(L_{ij}P(\omega_i|x)\)

\(r_j = \sum_{i=1}^{M}L_{ij}P(\omega_i|x)\)

\(L_{ij}\) 称为将本应属于\(ω_i\)类的模式判别成属于\(ω_j\) 类的是非代价。

\(L_{ij}\)的取值：

若i==j，则判别正确，得分，取负值或者零，表示不失分

否则判别错误，失分，取正值

最小平均条件风险分类器

分类器对每一个模式x有M种可能的类别可供选择。

若对每一个x计算出全部类别的平均风险值\(r_1(x), r_2(x),…, r_M(x)\)，并且将x指定为是具有最小风险值的那一类，则这种分类器称为最小平均条件风险分类器。

\(\large r_j(x)=\frac{1}{p(x)} \sum_{i=1}^{M}L_{ij}p(x|\omega_i)P(\omega_i)\)

一般多类（M类）的情况

\(r_j(x) = \large\sum_{i=1}^M L_{ij}p(x|\omega_i)P(\omega_i)\)
特例：当i==j时，\(L_{ij} = 0\)，不相等时，\(L_{ij}=1\)

则\(r_j(x)=\sum_{i=1}^{M}p(x|\omega_i)P(\omega_i) - p(x|\omega_j)P(\omega_j) = p(x)-p(x|\omega_j)P(\omega_j)\)

补一个\(L_{jj}\)项凑成全概率公式，再减掉，就得到了贝叶斯判别

判别函数为：\(d_j(x)=p(x|\omega_j)P(\omega_j)\)，d大，\(r_j\)就小

所以\(\forall i\neq j, d_i(x)>d_j(x)\)，则\(x\in \omega_i\)

朴素贝叶斯

在特征\(x=(x_1, x_2, x_3, ..., x_d)\) 是多维向量时，朴素贝叶斯算法是假设各个特征之间相互独立。

不独立时需要计算\(2^d\)次，独立只需要算d次

\(p(x_1, x_2, x_3, ..., x_d|\omega)=\prod_{i=1}^{d}p(x_i|\omega)\)

概率分布参数估计

预先假设每一个类别的概率密度函数的形式已知，而具体的参数未知。

矩估计：用样本的矩去估计总体的矩，即用样本一阶原点矩去估计总体的一阶原点矩，用样本的二阶原点矩去估计总体的二阶原点矩。

最大似然估计（MLE）：把参数看作是非随机变量，寻找使似然最大的参数的值。

最大后验估计（MAP）：把这些参数看成是随机变量时，最大化参数的后验分布。

贝叶斯参数估计：将参数看成是随机变量，估计参数的后验分布。

将参数看成随机变量意味着参数服从某种分布

最大似然估计(MLE)

独立同分布假设：样本集D中包含N个样本，样本是独立同分布的随机变量

\(p(D|\theta)=\prod_{i=1}^Np(x_i|\theta)\) D确定且\(\theta\)是参数=>似然函数

对似然函数求对数，把乘法转为加法：\(l(\theta)=logp(D|\theta)=\sum_{i=1}^{n}logp(x_i|\theta)\)

最大似然估计：寻找使\(l(\theta)\)最大的参数\(\theta\)=>求导

\(\hat{\theta}=arg \mathop{max}\limits_{\theta}l(\theta)\)

最大后验估计（MAP）

将参数看作随机变量，对其有一个先验的分布认知。通过观测到的样本数据，计算样本的后验分布，对先验概率进行调节。

最大化参数的后验分布\(\Large\frac{p(D|\theta)p(\theta)}{p(D)}\)

贝叶斯参数估计

贝叶斯也认为参数是一个随机变量，根据样本集D和参数\(\theta\)的先验分布\(p(\theta)\)，估计参数的后验分布\(p(\theta|D)\)，能过提高小样本集条件下估计的准确性，但计算比较复杂

确定参数\(\theta\)的先验分布\({p(\theta)}\)
由样本集\(D=(x_1, x_2, x_3, ..., x_N)\)，求出样本联合分布\(p(D|\theta)=\large\prod_{n=1}^N p(x_n|\theta)\)
利用贝叶斯公式求\(\theta\)的后验分布\(p(\theta|D)=\Large\frac{p(D|\theta)p(\theta)}{\int_\theta p(D|\theta)p(\theta)d\theta}\)
求出贝叶斯估计值\(\hat{\theta}=\large \int_\theta \theta p(\theta|D)d\theta\)

贝叶斯估计

\(D=(x_1, x_2, ......)\)表示用于估计参数的样本集，其中\(x_i\)逐次给出。\(\theta\)表示给出前N个样本后估计的参数。\(p(\theta_N)=p(\theta|x_1, x_2, x_3, ..., x_N)\)

\(p(\theta|x_1, x_2) = \Large\frac{p(x_2|\theta, x_1)p(\theta|x_1)}{p(x_2|x_1)}=\frac{p(x_1, x_2|\theta)p(\theta)}{p(x_1, x_2)}\)

对于\(p(\theta|x_1, x_2)\)而言，\(p(\theta|x_1)\)相当于它的先验

正态分布模式的贝叶斯分类器

待续……

JZTXT

模式识别与机器学习——生成式分类器课程笔记

贝叶斯判别原则

贝叶斯最小风险判别

最小平均条件风险分类器

朴素贝叶斯

概率分布参数估计

最大似然估计(MLE)

最大后验估计（MAP）

正态分布模式的贝叶斯分类器

JZTXT

模式识别与机器学习——生成式分类器 课程笔记

贝叶斯判别原则

贝叶斯最小风险判别

最小平均条件风险分类器

朴素贝叶斯

概率分布参数估计

最大似然估计(MLE)

最大后验估计（MAP）

正态分布模式的贝叶斯分类器

模式识别与机器学习——生成式分类器课程笔记