概率论

$1.1$ · 随机事件与概率

一定条件下完成的事件称为（随机）试验。

随机试验与所有可能的结果集合称为 $S$ 的样本空间，记为 $\Omega$。

称试验 $S$ 与样本空间 $\Omega$ 的子集为 $S$ 的随机事件，单个样本点构成的事件称为基本事件。

设试验 $S$ 样本空间 $\Omega$，$A\in \Omega$ 在相同的实验条件下将试验 $S$ 重复若干次，$M_n$ 表示 $n$ 次试验种 $A$ 发生的次数，若 $\lim\limits_{n\to \infty} \dfrac{M_n}{n}=p$，则称 $p$ 为事件 $A$ 发生的概率，记为 $P(A)=p$。

$1.$$A\subset B$： $A$ 发生 $B$ 一定发生。
$2.$$A\cup B$： $A$ 发生或者 $B$ 发生，称为 $A$ 与 $B$ 的并事件。
$3.$$A\cap B$： $A$ 与 $B$ 都发生，称为 $A$ 与 $B$ 的交（积）事件。
$4.$$A\;\backslash\; B$： $A$ 发生但 $B$ 不发生，称为 $A$ 与 $B$ 的差事件。
$5.$ 若 $A\cap B=\phi$，则称 $A$ 与 $B$ 不相容（互斥）。
$6.$$A^c$ 表示 $\Omega$ 中除去 $A$ 的事件，称为的对立事件（逆事件，余事件）。

$1.2$ · 古典概型

定义：假设试验 $S$ 样本空间 $\Omega$ 有限集，且 $\Omega$ 中每个样本点发生可能性相同，定义 $P(A)=\dfrac{\# A}{\# \Omega}$，为 $S$ 下 $A$ 发生的概率。这个模型称为古典概型模型。

概率性质：
$1. P(A)\geq 0, P(\Omega) = 1$
$2.$ 有限可加性：若 $AB$ 不相容，则 $P(A\cup B)=P(A)+P(B)$，$\# (A\cup B)=\#A+\#B$。
$3.$ 加法公式：$P(A\cup B) = P(A)+P(B)-P(AB)$。

$1.3$ · 概率公理化定义及性质

假设 $\Omega$ 为任意的非空集合，设 $\mathscr F$ 是由 $\Omega$ 的一些子集构成的集合，满足：
$1.$$\Omega \in \mathscr F$
$2.$ 若 $A\in \mathscr F$，则 $A^c\in \mathscr F$
$3.$ 若 $A_n\in \mathscr F, n\geq 1$，则 $\cup_{n=1}^{\infty}\in \mathscr F$
则称 $\mathscr F$ 是 $\Omega$ 上的 $\sigma$ 域。$\mathscr F$ 中的元素称为事件，$(\Omega, \mathscr F)$ 称为可测空间。

$\sigma$ 域对有限或可列集合运算封闭：对可列多的集合进行操作（$\cap, \cup, \backslash$ 等操作）仍然在集合 $\mathscr F$ 中。$\sigma$ 域中的集合元素大小为 $2^k$ 个。

概率空间：设 $(\Omega, \mathscr F)$ 可测空间，$P$ 是定义在 $\mathscr F$ 上的实值函数，满足：
$1.$ $P(A)\geq 0, P(\Omega) = 1$
$2.$ 若$A_n\in \mathscr F, (n\geq 1)$，互不相容，则 $P(\cup_{n=1}^\infty)A_n=\sum_{n=1}^\infty P(A_n)$
则称 $P$ 是 $(\Omega, \mathscr F)$ 上的概率（测度）。$(\Omega, \mathscr F, P)$ 合称为概率空间。$\forall A\in \mathscr F, P(A)$ 称为 $A$ 发生的概率。

$1.4$ · 条件概率

设 $(\Omega, \mathscr F, P)$ 概率空间，$B\in \mathscr{F}$，$P(B)>0$，则定义 $P(A|B)=\dfrac{P(AB)}{P(B)}$，$\forall A\in \mathscr F$，称 $B$ 发生条件下，$A$ 的条件概率。

独立事件：若 $P(AB)=P(A)P(B)$ 则称 $AB$ 事件相互独立。

有 $n$ 个事件，相互独立必须满足，取任意的 $2\le k\le n，1\le i_1<i_2\cdots<i_k\le n$，有 $P(A_{i_1}A_{i_2} \cdots A_{i_k})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_k})$，则称 $A_1,A_2\cdots A_k$ 相互独立。
相互独立不能推出两两独立，两两独立也不能推出相互独立。

$1.5$ · 全概公式与逆概公式

1.全概公式
完备事件组：设事件 $B_1\cdots B_n$ 满足 $\forall i \ne j$，$B_i\cap B_j=\phi$，$\cup_{i=1}^nB_i=\Omega$，称 $\{B_1\cdots B_n\}$为完备事件组（$\Omega$ 的一个分割）
全概公式：设 $\{B_1\cdots B_n\}$为完备事件组，$P(B_i)>0,\forall i=1\cdots n$，则 $\forall A\in \mathscr F, P(A)=\sum_{i=1}^nP(AB_i)=\sum_{i=1}^nP(B_i)P(A|B_i)$

2.逆概公式（贝叶斯公式）
设 $\{B_1\cdots B_n\}$为完备事件组，$P(B_i)>0,\forall i=1\cdots n$，$\forall A\in \mathscr F, P(A)>0$，则 $P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}$

$2.1$ · 随机变量的定义

定义：若定义在样本空间 $\Omega$ 上的实值函数 $X: \Omega\to R,s.t.\forall x\in R, \{\omega\in \Omega|X(\omega)\}\in \mathscr{F}$，则称 $X$是 $\{\Omega, \mathscr F\}$ 上的随机变量（$r.v.$）。
离散型随机变量：所有可能却只有限个或者可列无穷多个。

$2.2$ · 离散型随机变量

定义：设 $r.v.X$ 所有可能取值为 $x1, x2, \cdots x_n\cdots$，称 $p_n=P(x=x_n), n\ge 1$ 为 $X$ 的概率分布列。

常见的离散型概率分布：
（1）两点分布：若 $r.v.x$ 只取 $0$ 和 $1$，概率分布 $P(x=1)=P\in [0, 1], P(x=0)=1-P$，则 $X$ 服从分数 $P$ 的两点分布，记为 $X\sim B(1, P)$
（2）二项分布：若 $r.v.x$ 有概率分布 $P(x=k)=\binom{n}{k}p^k(1-p)^{n-k}$，则称 $X$ 服从分数为 $(n, P)$ 的二项分布，记为 $X\sim B(n, P)$
（3）超几何分布：若 $r.v.x$ 概率分布为 $P(x=k)=\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}, k=0, 1, 2, \cdots$，则称 $X$ 服从超几何分布，记为 $X\sim H(N, M, n)$（有 $N$ 个产品中有 $M$ 个次品，选 $n$ 个产品恰好有 $k$ 个次品的概率）
（4）几何分布：若 $r.v.x$ 有概率分布 $P(x=k)=q^{k-1}p, k=1, 2, \cdots, q = (1-p), p\in (0, 1)$，则称 $X$ 服从分数 $P$ 的几何分布，记为 $X\sim G(p)$（充要条件是 $\forall m\ge 1, k\ge 1, P(X=m+k|X>m)=P(X=k)$（无记忆性））
（5）泊松分布：若 $r.v.x$ 有概率分布 $P(x=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}$，$k=0, 1, 2, \cdots$（$\lambda>0$ 且为常数），则称 $X$ 服从分数 $\lambda$ 的泊松分布。（一个月平均下 $\lambda$ 次雨，求恰好下 $k$ 次雨的概率）
定理：若 $\lim\limits_{n\to \infty}np_n=\lambda>0$，则 $\lim\limits_{n\to \infty}\binom{n}{k}p_n^k(1-p_n)^{n-k}=\dfrac{\lambda^k}{k!}e^{-\lambda}, k=0, 1, 2\cdots$
（6）负二项分布：独立连续射击，每次射击击中概率为 $P\in (0, 1)$，则击中 $r$ 次所需射击次数 $X$ 的概率分布。$P(X=k)=\dbinom{k-1}{n-1}p^rq^{k-r}$

$2.3$ · 连续性随机变量

定义：对 $r.v.x$ 若存在非负可积函数 $P:\mathbf{R}\to \mathbf{R}^+, s.t.\forall a<b$ 有 $P(a<x<b)=\int_{a}^bp(x)dx$，则称 $x$ 是连续性随机变量，$P$ 称为 $X$ 的概率密度函数。
性质：$\int_{-\infty}^{+\infty}P(x)dx=1, P(X=a)=0$

（1）均匀分布：给定任意常数 $a<b$，若 $r.v.x$ 有概率密度 $$P(x)=\begin{equation}\left{\begin{array}{lr}\lambda, x\in [a, b] & \0, otherwise\end{array}\right.\end{equation}$$
记为 $x\sim U[a, b]$
（2）指数分布：若 $r.v.x$ 有概率密度 $P(x)=\lambda e^{-\lambda x}(x\ge 0)$，则称 $X$ 服从参数为 $\lambda$ 的指数分布，记为 $x\sim \epsilon(x)$（充要条件是：$\forall s, t\ge 0, P(x>s+t|x>s)=P(x>t)$（无记忆性））
（3）正态分布：设 $r.v.x$ 有概率密度 $P(x)=\dfrac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}$，则称 $X$ 服从参数为 $(\mu, \sigma^2)$ 的正态分布，记为 $X\sim N(\mu, \sigma^2)$。$N(0, 1)$ 称为标准正态分布，概率密度为：$P(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$，则称 $X$ 服从参数为 $(\mu, \sigma^2)$。
性质：$p$ 关于 $x=\mu$ 对称，在 $x=\mu$ 处取得最大值。设 $\phi(x)=\int_{-\infty}^x\dfrac{1}{\sqrt{2\pi}}e^{\frac{u^2}{2}}du$ 为 $N(0, 1)$ 的分布函数，则 $\phi(x)+\phi(-x)=1$
令 $u=\dfrac{x-\mu}{\sigma}$，则正态分布概率密度可以转化成标准正态分布概率密度：$\int P(x)=\int\dfrac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}du$，可以用平方之后重积分计算出结果。
（4）伽玛分布：若随机变量有概率密度 $ p(x)=\begin{cases}\dfrac{\beta^{{\alpha}}{\Gamma(\alpha)}x}^{-\beta x},&x>0\0,&x\le 0\end{cases}(\alpha>0,\beta>0) $, 其中 $ \Gamma(\alpha)=\int_0^{\infty}x^{-x}{\rm d}x $, 则称 $X$ 服从参数为 $(\alpha,\beta)$ 的伽玛分布, 记为 $ \Gamma(\alpha,\beta) $.

$ \alpha=1,\Gamma(1,\beta)=\mathcal E(\beta) $.
$ \Gamma(\dfrac n2,\dfrac 12) $ 称为自由度为 $n$ 的卡方分布 $ \chi^2(n) $.
$ \Gamma(1)=1,\ \Gamma(\dfrac 12)=\sqrt{\pi},\ \Gamma(\alpha+1)=\alpha T(\alpha) $.
$ B(\alpha, \beta)=\dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}=\int_{0}^1x(1-x)^{\beta-1}dx$

$2.4$ · 随机变量的分布函数

1. 分布函数

定义:
对随机变量 $X$, 函数 $ F(X)=P(X\le x)=P({{\omega\in\Omega:X(\Omega)\le x} }),x\in\R $ 称为 $X$ 的(概率)分布函数.

定理(分布函数 $F$ 的性质):

非降. $ \forall x_1<x_2,F(x_1)\le F(x_2) $.
右连续. $ \forall x\in\R, F(x+0):=\lim\limits_{\delta\to0+0}F(x+\delta)=F(x) $.
$ F(-\infty)=0, F(\infty)=1 $.
$ \forall x\in\R, P(X=x)=F(x)-F(x-0) $, 从而若 $F$ 在 $ x=x_0 $ 处连续, 则 $ P(X=x_0)=0 $.

证2. 由下单调性, $$ F(x+0)=\lim\limits_{n\to\infty}F(x+\dfrac 1n), $$ 由概率上连续性, $$ F(x+0)=\lim\limits_{n\to\infty}F(x+\dfrac 1n)=\lim\limits_{n\to\infty}P(X\le x+\dfrac 1n)=P(X\le x)=F(x). $$
证毕.

注: 满足 1 $\sim$ 3 的函数 $ F:\R\to[0,1] $ 称为分布函数.

$ P(a<x<b)=F(b-0)-F(a)  P(a\le x<b)=F(b-0)-F(a-0)  P(a\le x\le b)=F(b)-F(a-0) $

2. 离散型

设 $X$ 有概率分布列 $ P(X=x_i)=p_i,\ i=1,2,\cdots $, 则 $$ F(x)=P(X\le x)=P(\bigcap\limits_{i:\ x_i\le x}{x=x_i })=\sum\limits_{i:\ x_i\le x}P(x=x_i)=\sum\limits_{i:\ x_i\le x}p_i $$
是阶梯函数.

$ P(X=x)=F(x)-F(x-0) $.

3. 连续型

若随机变量 $X$ 有概率密度 $p(x)$, 则 $X$ 的分布函数 $ F(x)=\int_{-\infty}^xp(u){\rm d}u $. $F$ 连续, $p(x)$ 在 $x=x_0$ 处连续, 则 $ F'(x_0)=p(x_0) $.

定理:
若 $F'$ 存在且连续, 则 $X$ 是连续型随机变量, 且 $F'$ 是 $X$ 的概率密度.

定理:
设随机变量 $X$ 分布函数 $F$ 连续, 且除有限个点 $c_1,c_2,\cdots,c_k$ 外, $F'(x)$ 存在且连续, 则 $X$ 是连续型随机变量. 令 $ p(x)=\begin{cases}F'(x),&x\notin{c_1,c_2,\cdots,c_k }\ a_i(a_i\ge 0),&x=c_i,\ i=1,2,\cdots,k \end{cases} $, 则 $p$ 是 $X$ 的概率密度.

注: 存在既非离散型, 也非连续型的随机变量.

2.5 随机变量函数的分布

设 $X$ 是随机变量, $ f:\R\to\R $ 是Borel可测函数( $ {x:f(x)\le y}\in\mathcal B $ ), 则 $ Y=f(X) $ 是随机变量, 即 $ \forall y\in\R, {Y\le y}\in\mathscr F $.

1. $X$ 离散型

设 $X$ 有概率分布列 $ P(X=x_i)=p_i,\ i=1,2,\cdots $, 记 $ y_i=f(x_i),\ i=1,2,\cdots $.
若 $ f(x_1),f(x_2),\cdots,f(x_i),\cdots $ 有相等情形, 合并相应值为 $ y_1,y_2,\cdots,y_k,\cdots $, 则 $$ P(Y=y_k)=P(f(x)=y_k)=P(\bigcap\limits_{i:\ f(x_i)=y_k}{X=x_i})=\sum\limits_{i:\ f(x_i)=y_k}p_i $$

2. $X$ 连续型

例. 设 $ X\sim N(\mu,\sigma^2) $, 则 $ Y=\dfrac{X-\mu}{\sigma} $ 的概率分布为 $ Y\sim N(0,1) $.

例. 设 $ X\sim N(0,1) $, 求 $ Y=X^2 $ 的概率分布.
解: $ \forall y<0, F_Y(y)=0 $. $ \forall y\ge 0,F_Y(y)=P(-\sqrt{y}\le x\le\sqrt{y})=2\int_0^{\sqrt{y}}\dfrac 1{\sqrt{y}}{\rm e}^{-\dfrac{x2}2}{\rm d}x $,
则 $F_Y$ 连续, 除 $ y=0 $ 外有导数, 故 $Y$ 连续型随机变量.
对 $F_Y$ 求导得概率密度. $ Y\sim\Gamma(\dfrac 12,\dfrac 12)=\chi^2(1) $.

一般地, $$ F_Y(y)=P(Y\le y)=P(f(x)\le y)=P(X\in f^{{-1}(-\infty,y])=\int_{f}(-\infty,y]}p_X(X){\rm d}x. $$.

例. 设 $ Y\sim N(\mu,\sigma^2),X={\rm e}^Y $, 则 $X$ 的概率密度为 $$ p_X(x)=\dfrac 1{\sqrt{2\pi}\sigma x}{\rm exp}\left{-\dfrac 1{2\sigma^2}(\ln x-\mu)^2\right} $$

3.分布函数的广义反函数

定义：设 $F$ 为分布函数，令 $F^{-1}(p):=min\{x:F(x)\ge p\}(0<p<1)$，则称 $F^{-1}(p)$ 是 $F(x)$ 的广义反函数。
易得：$F^{-1}(p)$ 是关于 $p$ 的增函数。$F^{-1}(p)\le x$ 的充分必要条件是 $p\le F(x)$。$F(F^{-1}(p))\ge p$，取等号的条件当且仅当 $F(x)$ 在 $x=F^{-1}(p)$ 处连续。（本质上是 $F(x)$ 不严格递增，所以 $F^{-1}(p)$ 不一定是一个严格意义上的函数，也就是 $F^{-1}(p)$ 可能不连续）

设随机变量 $x$ 的分布函数 $F(x)$ 是连续函数，$Y=F(x)$，则 $Y$ 服从区间 $[0, 1]$ 上的均匀分布。
设 $F(x)$ 是任何分布函数，若 $U$ 是服从区间 $[0, 1]$ 上均匀分布的随机变量，且 $X=F^{-1}(U)$，则 $X$ 的分布函数恰好是 $F(x)$。

$2.6$ · 随机变量的数学期望

一般形随机变量的数学期望
定义：$X_\epsilon^*=\begin{cases}-\epsilon,&x\in [-\epsilon,0)\\ 0,&x\in [0, \epsilon)\\k\epsilon,&x\in [k\epsilon,(k+1)\epsilon) \end{cases}$
对 $r.v.x.$，若 $\forall \epsilon>0, E(X^*_\epsilon)$ 存在且 $lim_{\epsilon\to 0}E(X^*_\epsilon)$ 存在，则称 $X$ 的期望存在，并定义 $EX=lim_{\epsilon\to 0}E(X^*_\epsilon)$。
若 $r.v.x$ 有概率密度 $p(x)$，且 $\int^{+\infty}_{-\infty}|x|p(x)dx<+\infty$ 则 $EX$ 存在，且 $EX=\int^{+\infty}_{-\infty}xp(x)dx$

常用分布的期望：
离散型：
泊松分布：$E(X)=\lambda$
几何分布：$E(X)=\dfrac{1}{p}$（$P(X=k)=(1-p)^{k-1}p$）
超几何分布：$E(X)=\dfrac{nD}{N}$ （$P(X=k)=\dfrac{\binom{D}{k}\binom{N-D}{n-k}}{\binom{N}{n}}$）
连续型：
正态分布：$E(X)=\mu$
伽马分布：$E(X)=\dfrac{\alpha}{\beta}$

马尔可夫不等式：设 $X=X(w)$ 是任何非负随机变量，且 $E(X)$ 存在，则对于任何 $C>0$，有 $P(X\ge C)\le \dfrac{1}{C}E(X)$
证明：$C\times [X\ge C]\le X(w)$，故 $E(C\times [X\ge C])\le E(X(w))$，即：$E([X\ge C])=P(X\ge C)\le \dfrac{1}{C}E(X)$
推论：若 $E(|X|)=0$，则 $P(X=0)=1$

均值公式：$E(f(x))=\sum_kf(x_k)p_k$，$E(f(x))=\int_{-\infty}^{+\infty}f(x)p(x)dx$

$2.7$ · 方差及其他数字特征

定义：设 $r.v.x$ 期望 $E(X)$ 存在且有限，则称 $E(X-E(X))^2$ 为 $X$ 的方差，记为 $Var(X)$ 或 $D(X)$。若 $D(X)$ 存在，则称标准差 $\sigma(X)=\sqrt{D(X)}$

方差计算方法：（1）若 $EX^2$ 存在，则 $Var(X)=E(X^2)-E(X)^2$
（2）对于离散型 $r.v.$，有概率分布列 $P(X=X_k)=P_k$，有 $Var(X)=\sum_{k}(X_k-E(X))^2p_k=\sum_{k}X_K^2P_k-(EX)^2$
（3）对于连续型 $r.v.$，有概率密度 $p(x)$，则 $Var(X)=\int_{-\infin}^{+\infty}(x-EX)^2p(x)dx=\int_{-\infin}^{+\infty}x^2p(x)dx-(EX)^2$

常见分布方差：
（1）两点分布：$X\sim B(1, p)$，则 $X=X^2$，$Var(X)=EX^2-(EX)^2=p-p^2=pq$
（2）二项分布：$X\sim B(n, p)$，则 $EX=np$，$EX^2=\sum_{k=0}^nk^2\dbinom{n}{k}p^kq^{n-k}=\sum_{k=1}^n[(k-1)+1]\dfrac{n!}{(k-1)!(n-k)!}p^kq^{n-k}=\sum_{k=2}^n\dfrac{n!}{(k-2)!(n-k)!}p^kq^{n-k}+\sum_{k=1}^n\dfrac{n!}{(k-1)!(n-k)!}p^kq^{n-k}=n(n-1)p^2\sum_{l=0}^{n-2}\dbinom{n-2}{l}p^lq^{n-2-l}+EX=n(n-1)p^2+np$，故 $Var(X)=EX^2-(EX)^2=n(n-1)p^2+np-(np)^2=npq$
（3）泊松分布：$X\sim P(\lambda)$，则 $Var(X)=\lambda$
（4）几何分布：$X\sim G(p)$，即 $P(X=k)=(1-p)^{k-1}p$，则 $Var(X)=\dfrac{q}{p^2}$
（5）均匀分布：$X\sim V[a, b]$，$Var(X)=\dfrac{(b-a)^2}{12}$
（6）正态分布：$X\sim N(\mu, \sigma^2)$，$Var(X)=\int_{-\infin}^{+\infin}(X-\mu)^2\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx$
令 $t=\dfrac{x-\mu}{\sigma}$，$Var(X)=\sigma^2\int_{-\infty}^{+\infty}t^2\dfrac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=\dfrac{\sigma^2}{\sqrt{2\pi}}[-te^{-\frac{t^2}{2}}|^{+\infin}_{-\infty}+\int_{-\infty}^{+\infty}e^{-\frac{t^2}{2}}dt]=\dfrac{\sigma^2}{\sqrt{2\pi}}(0+\sqrt{2\pi})=\sigma^2$
（7）伽马分布：$X\sim T(\alpha, \beta)$，则 $Var(X)=\dfrac{\alpha}{\beta^2}$

方差的性质：
（1）$Var(aX+b)=a^2Var(X)$
（2）$Var(X+Y)=Var(X)+Vat(Y)+2E(X-EX)(Y-EY)$
一般的，设 $C_0, C_1, \cdots, C_n\in R$，$Var(c_0+\sum_{1}^nC_iX_i)=\sum_{1}^nC_i^2Var(X_i)+2\sum_{i<j}c_ic_jE(X_i-EX_i)(X_j-EX_j)$
（3）切比雪夫不等式：设 $EX$ 存在有限，则 $\forall \epsilon>0, P(|X-EX|\ge \epsilon)\le \dfrac{Var(X)}{\epsilon^2}$
证明：令 $t=(X_EX)^2$，则 $P(|X-EX|\ge \epsilon)=P(t\ge \epsilon^2)\le \dfrac{Et}{\epsilon^2}=\dfrac{E(X-EX)^2}{\epsilon^2}=\dfrac{Var(X)}{\epsilon^2}$（第二步是马尔可夫不等式得到）

其他数字特征：
对 $r.v.x, k\in N$，若 $E(X^k)$ 存在，则称其为 $X$ 的 $k$ 阶原点矩，记为 $\nu_k=Ex^k$
若 $EX$ 存在，且 $E(X-EX)^k$ 存在，则称$E(X-EX)^k$ 为 $X$ 的 $k$ 阶中心矩，记为 $\mu_k=E(X-EX)^k$
$EX=\nu_1, VarX=\mu_2$

注意 $\sigma$ 表示标准差（$\sqrt{varX}$）
偏度系数：$\alpha:=\dfrac{\mu_3}{\sigma^3}=E(\dfrac{X-EX}{\sigma})^3$，用来刻画关于均值的对称程度，当 $X$ 关于 $EX$ 对称时 $\alpha=0$
峰度系数：$\gamma:=\dfrac{\mu_4}{\sigma^4}=E(\dfrac{X-EX}{\sigma})^4$，用来刻画分布曲线的陡峭程度，当 $X$ 为正太分布的时候， $\gamma=3$

分位数：对 $r.v.x$，$p\in (0, 1)$，若 $a\in R$，$s.t.P(X\le a)\ge p\ge P(X>a)$，则称 $a$ 为 $X$ 的 $p$ 分位数。注意：$p$ 分位数一定存在，但不一定唯一。
特殊的， $\dfrac{1}{2}$ 分位数又称中位数，记为 $med(X)$。
众数（$mode(X)$）

设 $EX^2<+\infty, EY^2<+\infty$，则 $E|XY|\le \sqrt{EX^2\times EY^2}$

$3.1$ · 随机向量的概率分布

定义：设 $X_1, X_2\cdots, X_n$ 是 $(\Omega, \mathscr F, P)$ 上的随机变量，称 $\vec{X}=(X_1, X_2, \cdots, X_n)$ 为 $(\Omega, \mathscr F, P)$ 上的 $n$ 维随机向量。

二维离散型随机变量：若 $X, Y$ 都是离散型 $r.v.$，则称 $(X, Y)$ 是一个二维离散型随机变量。称 $P(X, Y)=(x_i, y_j)=P_{i, j}$ 为 $(X, Y)$ 的联合概率分布列，称 $X$（$Y$）的概率分布为 $(X, Y)$ 关于 $Y$（$X$）的边缘概率分布。

$r$ 项分布：设 $A_1, A_2, \cdots, A_r\in \mathscr F$ 是实验 $S$ 的完备事件组（$A_i\cap A_j= \phi, \cup_{1}^r=\Omega$），设在 $S$ 中独立重复进行 $n$ 次试验，$A_i$ 发生次数为 $X_i$，则 $P(X_1=k_1, X_2=k_2, \cdots, X_r=k_r)=\dfrac{n!}{k_1!k_2!\cdots k_r!}p_1^{k_1}p_2^{k_2}\cdots p_r^{k_r}$

二维连续性随机向量：定义 $r.v.(X, Y)$，若存在非负可积函数 $p(x, y)$，使得 $P((X, Y)\in A)=\int\int_Ap(X, Y)dxdy$ ，则称 $P(x, y)$ 为 $X, Y$ 的联合分布密度。

设 $\mu_1, \mu_2\in R, \sigma_1>0,\sigma_2>0, \rho\in (-1, 1)$，为常数，若 $(X, Y)$ 由概率密度：$p(x, y)=\dfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\{-\dfrac{1}{2(1-\rho^2)}[(\dfrac{(x-\mu_1)}{\sigma_1})^2-2\rho\dfrac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+(\dfrac{(x-\mu_2)}{\sigma_2})^2]\}$，则称 $(X, Y)$ 服从二维正态分布，记为 $(X, Y)\sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$
正态分布的每一个边缘分布都是正态分布。特殊的，$N(0, 0, 1, 1, 0)$ 为：$p(x, y)=\dfrac{1}{2\pi}e^{-\frac{x^2+y^2}{2}}$

对于二元联合分布函数 $F(X, Y)=P(X\le x, Y\le y)$，满足 $F(X, Y)$ 是 $x/y$ 的非降右连续函数。$F(-\infty, y)=F(x, -\infty)=0, F(x, +\infty)=P(X\le x), F(+\infin, y)=P(Y\le y), F(+\infty, +\infin)=1$

若 $x, y$ 联合分布函数 $F(x, y)$ 连续，且除有限条平行于坐标轴的直线外（有限个 $x, y$ 外），$\dfrac{\partial^2F}{\partial x\partial y}$ 存在且连续，则 $x, y$ 是连续型的，$\dfrac{\partial^2F}{\partial x\partial y}$是 $(x, y)$ 的一个概率密度

命题：$x, y$ 相互独立 $\Leftrightarrow$ $\forall a<b, c < d$, $P(a<x\le b, c<Y\le d)=P(a<x\le b)P(c<x\le d)$（联合分布函数等于边缘分布函数的乘积）
二维正态分布是独立的当且仅当 $\rho=0$

定理：若 $x_1, x_2\cdots, x_n$ 相互独立，给定 $1\le m\le n - 1$，$g_1：R^m\to R, g_2：R^{n-m}\to R$
$Y_1=g_1(x_1, x_2, \cdots, x_m), Y_2=g_2(x_{m+1}, x_{m+2}, \cdots, x_n)$，则 $Y_1, Y_2$ 独立。
定义：对随机变量序列，$\{x_n:n\ge 1\}$，若 $\forall n \ge 2, x_1, x_2, \cdots, x_n$，相互独立，则称 $\{x_n:n\ge 1\}$ 相互独立，称$\{x_n:n\ge 1\}$ 为独立随机变量序列。若对 $x_i$ 还有相同的分布函数，则称 $\{x_n:n\ge 1\}$ 为独立同分布随机变量序列（$i.i.d.r.v.s$）

$3.2$ 随机向量函数

若 $X, Y\ r.v., f:R^2\to R$，令 $Z=f(X, Y)$是 $(\Omega, \mathscr{F})$ 上 $r.v.$
1.$(X, Y)$ 是离散型，$P(X=x_i, Y=y_i)=P_{i, j}, f(x, y)$ 合并相同值后记为 $\{z_k:k\ge 1\}$，$P(Z=z_k)=P(f(X, Y)=z_k)=\sum_{f(x_i, y_j)=z_k}P_{i, j}$
2.$(X, Y)$ 是连续型，$F_z(z)=P(Z\le z)=P(f(X, Y)\le z)-P((X, Y)\in f^{-1}(-\infty, z]=\int\int_{f^{-1}(-\infty, z]} P(x, y)dxdy$
特别的，$z=x+y$，且 $x, y$ 独立的时候，$P(z)$ 的概率密度为 $P(x)$ 与 $P(y)$ 概率的卷积，即：$P_Z(z)=\int_{-\infin}^{+\infty}P_X(x)P_Y(z-x)dx$
$z=x/y$，有概率密度：$P_Z(z)=\int_{-\infty}^{+\infty}|y|p(zy, y)dy$
$z=x*y$，有概率密度：$P_Z(z)=\int_{-\infty}^{+\infty}|y|^{-1}p(y^{-1}z, y)dy$
$z=max(x, y)$，有概率密度：$P_Z(z)=2F(x)p(x), P(Z\le z)=P(X\le z)P(Y\le z)=(F(z))^2$

设 $f(x, y)=u, g(x, y)=v$，反解出 $x=F(u, v), y=G(u, v)$，则 $q(u, v)=p(F(u, v), G(u, v))|\dfrac{\partial(F,G)}{\partial(u, v)}|$

设变量 $X, Y$ 独立，则 $E(XY)=E(X)E(Y), var(X+Y)=var(X)+var(Y)$

协方差：设 $X, Y$ 均有期望与方差，则记 $\sigma_{XY}=cov(X, Y)=E((X-E(X))(Y-E(Y)))=EXY-EX\times EY$，称当 $\sigma_{XY}=0$ 时，称 $X$ 与 $Y$ 不相关。
相关系数：记录 $\rho_{XY}=\dfrac{cov(X, Y)}{\sqrt{var(X)}\sqrt{var(Y)}}$，其中 $|\rho_{XY}|\le 1$
$\rho_{XY}=1$ 当且仅当存在常数 $a, b$ 使得 $P(Y=aX+b)=1$。
若 $X, Y$ 相互独立，则 $\rho_{XY}=0$
注意：不相关不代表独立。
定理：$Cov(X, Y)^2\le Var(X)Var(Y)$。$min_{a, b\in R}E(Y-(aX+b))=Var(Y)(1-\rho_{XY}^2)$
命题：$c_i$ 为常数，$x_i$ 方差有限，则有 $Var(c_0+\sum_{i=1}^nc_ix_i)=\sum_{i=1}^nc_i^2Var(x_i)+2\sum_{i<j}c_ic_jcov(x_i, x_j)$，可以把 $n$ 维问题转化为 $2$ 维问题

可以将 $cov(X, Y)$ 写成矩阵形式，记为协差阵，也可以将 $\rho(X, Y)$ 写成矩阵形式，记为相关阵。
显然协差阵是对称的（正定的），矩阵退化当且仅当存在非零常数 $a_i$，使得 $P(\sum_{i=1}^na_i(X_i-EX_i)=0)=1$

JZTXT

概统期中复习

概率论

\(1.1\) · 随机事件与概率

\(1.2\) · 古典概型

\(1.3\) · 概率公理化定义及性质

\(1.4\) · 条件概率

\(1.5\) · 全概公式与逆概公式

\(2.1\) · 随机变量的定义

\(2.2\) · 离散型随机变量

\(2.3\) · 连续性随机变量

\(2.4\) · 随机变量的分布函数

1. 分布函数

2. 离散型

3. 连续型

2.5 随机变量函数的分布

1. \(X\) 离散型

2. \(X\) 连续型

3.分布函数的广义反函数

\(2.6\) · 随机变量的数学期望

\(2.7\) · 方差及其他数字特征

\(3.1\) · 随机向量的概率分布

\(3.2\) 随机向量函数