概率论
\(1.1\) · 随机事件与概率
一定条件下完成的事件称为(随机)试验。
随机试验与所有可能的结果集合称为 \(S\) 的样本空间,记为 \(\Omega\)。
称试验 \(S\) 与样本空间 \(\Omega\) 的子集为 \(S\) 的随机事件,单个样本点构成的事件称为基本事件。
设试验 \(S\) 样本空间 \(\Omega\),\(A\in \Omega\) 在相同的实验条件下将试验 \(S\) 重复若干次,\(M_n\) 表示 \(n\) 次试验种 \(A\) 发生的次数,若 \(\lim\limits_{n\to \infty} \dfrac{M_n}{n}=p\),则称 \(p\) 为事件 \(A\) 发生的概率,记为 \(P(A)=p\)。
\(1.\)\(A\subset B\): \(A\) 发生 \(B\) 一定发生。
\(2.\)\(A\cup B\): \(A\) 发生或者 \(B\) 发生,称为 \(A\) 与 \(B\) 的并事件。
\(3.\)\(A\cap B\): \(A\) 与 \(B\) 都发生,称为 \(A\) 与 \(B\) 的交(积)事件。
\(4.\)\(A\;\backslash\; B\): \(A\) 发生但 \(B\) 不发生,称为 \(A\) 与 \(B\) 的差事件。
\(5.\) 若 \(A\cap B=\phi\),则称 \(A\) 与 \(B\) 不相容(互斥)。
\(6.\)\(A^c\) 表示 \(\Omega\) 中除去 \(A\) 的事件,称为的对立事件(逆事件,余事件)。
\(1.2\) · 古典概型
定义:假设试验 \(S\) 样本空间 \(\Omega\) 有限集,且 \(\Omega\) 中每个样本点发生可能性相同,定义 \(P(A)=\dfrac{\# A}{\# \Omega}\),为 \(S\) 下 \(A\) 发生的概率。这个模型称为古典概型模型。
概率性质:
\(1. P(A)\geq 0, P(\Omega) = 1\)
\(2.\) 有限可加性:若 \(AB\) 不相容,则 \(P(A\cup B)=P(A)+P(B)\),\(\# (A\cup B)=\#A+\#B\)。
\(3.\) 加法公式:\(P(A\cup B) = P(A)+P(B)-P(AB)\)。
\(1.3\) · 概率公理化定义及性质
假设 \(\Omega\) 为任意的非空集合,设 \(\mathscr F\) 是由 \(\Omega\) 的一些子集构成的集合,满足:
\(1.\)\(\Omega \in \mathscr F\)
\(2.\) 若 \(A\in \mathscr F\),则 \(A^c\in \mathscr F\)
\(3.\) 若 \(A_n\in \mathscr F, n\geq 1\),则 \(\cup_{n=1}^{\infty}\in \mathscr F\)
则称 \(\mathscr F\) 是 \(\Omega\) 上的 \(\sigma\) 域。\(\mathscr F\) 中的元素称为事件,\((\Omega, \mathscr F)\) 称为可测空间。
\(\sigma\) 域对有限或可列集合运算封闭:对可列多的集合进行操作(\(\cap, \cup, \backslash\) 等操作)仍然在集合 \(\mathscr F\) 中。\(\sigma\) 域中的集合元素大小为 \(2^k\) 个。
概率空间:设 \((\Omega, \mathscr F)\) 可测空间,\(P\) 是定义在 \(\mathscr F\) 上的实值函数,满足:
\(1.\) \(P(A)\geq 0, P(\Omega) = 1\)
\(2.\) 若\(A_n\in \mathscr F, (n\geq 1)\),互不相容,则 \(P(\cup_{n=1}^\infty)A_n=\sum_{n=1}^\infty P(A_n)\)
则称 \(P\) 是 \((\Omega, \mathscr F)\) 上的概率(测度)。\((\Omega, \mathscr F, P)\) 合称为概率空间。\(\forall A\in \mathscr F, P(A)\) 称为 \(A\) 发生的概率。
\(1.4\) · 条件概率
设 \((\Omega, \mathscr F, P)\) 概率空间,\(B\in \mathscr{F}\),\(P(B)>0\),则定义 \(P(A|B)=\dfrac{P(AB)}{P(B)}\),\(\forall A\in \mathscr F\),称 \(B\) 发生条件下,\(A\) 的条件概率。
独立事件:若 \(P(AB)=P(A)P(B)\) 则称 \(AB\) 事件相互独立。
有 \(n\) 个事件,相互独立必须满足,取任意的 \(2\le k\le n,1\le i_1<i_2\cdots<i_k\le n\),有 \(P(A_{i_1}A_{i_2} \cdots A_{i_k})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_k})\),则称 \(A_1,A_2\cdots A_k\) 相互独立。
相互独立不能推出两两独立,两两独立也不能推出相互独立。
\(1.5\) · 全概公式与逆概公式
1.全概公式
完备事件组:设事件 \(B_1\cdots B_n\) 满足 \(\forall i \ne j\),\(B_i\cap B_j=\phi\),\(\cup_{i=1}^nB_i=\Omega\),称 \(\{B_1\cdots B_n\}\)为完备事件组(\(\Omega\) 的一个分割)
全概公式:设 \(\{B_1\cdots B_n\}\)为完备事件组,\(P(B_i)>0,\forall i=1\cdots n\),则 \(\forall A\in \mathscr F, P(A)=\sum_{i=1}^nP(AB_i)=\sum_{i=1}^nP(B_i)P(A|B_i)\)
2.逆概公式(贝叶斯公式)
设 \(\{B_1\cdots B_n\}\)为完备事件组,\(P(B_i)>0,\forall i=1\cdots n\),\(\forall A\in \mathscr F, P(A)>0\),则 \(P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}\)
\(2.1\) · 随机变量的定义
定义:若定义在样本空间 \(\Omega\) 上的实值函数 \(X: \Omega\to R,s.t.\forall x\in R, \{\omega\in \Omega|X(\omega)\}\in \mathscr{F}\),则称 \(X\)是 \(\{\Omega, \mathscr F\}\) 上的随机变量(\(r.v.\))。
离散型随机变量:所有可能却只有限个或者可列无穷多个。
\(2.2\) · 离散型随机变量
定义:设 \(r.v.X\) 所有可能取值为 \(x1, x2, \cdots x_n\cdots\),称 \(p_n=P(x=x_n), n\ge 1\) 为 \(X\) 的概率分布列。
常见的离散型概率分布:
(1)两点分布:若 \(r.v.x\) 只取 \(0\) 和 \(1\),概率分布 \(P(x=1)=P\in [0, 1], P(x=0)=1-P\),则 \(X\) 服从分数 \(P\) 的两点分布,记为 \(X\sim B(1, P)\)
(2)二项分布:若 \(r.v.x\) 有概率分布 \(P(x=k)=\binom{n}{k}p^k(1-p)^{n-k}\),则称 \(X\) 服从分数为 \((n, P)\) 的二项分布,记为 \(X\sim B(n, P)\)
(3)超几何分布:若 \(r.v.x\) 概率分布为 \(P(x=k)=\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}, k=0, 1, 2, \cdots\),则称 \(X\) 服从超几何分布,记为 \(X\sim H(N, M, n)\)(有 \(N\) 个产品中有 \(M\) 个次品,选 \(n\) 个产品恰好有 \(k\) 个次品的概率)
(4)几何分布:若 \(r.v.x\) 有概率分布 \(P(x=k)=q^{k-1}p, k=1, 2, \cdots, q = (1-p), p\in (0, 1)\),则称 \(X\) 服从分数 \(P\) 的几何分布,记为 \(X\sim G(p)\)(充要条件是 \(\forall m\ge 1, k\ge 1, P(X=m+k|X>m)=P(X=k)\)(无记忆性))
(5)泊松分布:若 \(r.v.x\) 有概率分布 \(P(x=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}\),\(k=0, 1, 2, \cdots\)(\(\lambda>0\) 且为常数),则称 \(X\) 服从分数 \(\lambda\) 的泊松分布。(一个月平均下 \(\lambda\) 次雨,求恰好下 \(k\) 次雨的概率)
定理:若 \(\lim\limits_{n\to \infty}np_n=\lambda>0\),则 \(\lim\limits_{n\to \infty}\binom{n}{k}p_n^k(1-p_n)^{n-k}=\dfrac{\lambda^k}{k!}e^{-\lambda}, k=0, 1, 2\cdots\)
(6)负二项分布:独立连续射击,每次射击击中概率为 \(P\in (0, 1)\),则击中 \(r\) 次所需射击次数 \(X\) 的概率分布。\(P(X=k)=\dbinom{k-1}{n-1}p^rq^{k-r}\)
\(2.3\) · 连续性随机变量
定义:对 \(r.v.x\) 若存在非负可积函数 \(P:\mathbf{R}\to \mathbf{R}^+, s.t.\forall a<b\) 有 \(P(a<x<b)=\int_{a}^bp(x)dx\),则称 \(x\) 是连续性随机变量,\(P\) 称为 \(X\) 的概率密度函数。
性质:\(\int_{-\infty}^{+\infty}P(x)dx=1, P(X=a)=0\)
(1)均匀分布:给定任意常数 \(a<b\),若 \(r.v.x\) 有概率密度 $$P(x)=\begin{equation}\left{\begin{array}{lr}\lambda, x\in [a, b] & \0, otherwise\end{array}\right.\end{equation}$$
记为 \(x\sim U[a, b]\)
(2)指数分布:若 \(r.v.x\) 有概率密度 \(P(x)=\lambda e^{-\lambda x}(x\ge 0)\),则称 \(X\) 服从参数为 \(\lambda\) 的指数分布,记为 \(x\sim \epsilon(x)\)(充要条件是:\(\forall s, t\ge 0, P(x>s+t|x>s)=P(x>t)\)(无记忆性))
(3)正态分布:设 \(r.v.x\) 有概率密度 \(P(x)=\dfrac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\),则称 \(X\) 服从参数为 \((\mu, \sigma^2)\) 的正态分布,记为 \(X\sim N(\mu, \sigma^2)\)。\(N(0, 1)\) 称为标准正态分布,概率密度为:\(P(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\),则称 \(X\) 服从参数为 \((\mu, \sigma^2)\)。
性质:\(p\) 关于 \(x=\mu\) 对称,在 \(x=\mu\) 处取得最大值。设 \(\phi(x)=\int_{-\infty}^x\dfrac{1}{\sqrt{2\pi}}e^{\frac{u^2}{2}}du\) 为 \(N(0, 1)\) 的分布函数,则 \(\phi(x)+\phi(-x)=1\)
令 \(u=\dfrac{x-\mu}{\sigma}\),则正态分布概率密度可以转化成标准正态分布概率密度:\(\int P(x)=\int\dfrac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}du\),可以用平方之后重积分计算出结果。
(4)伽玛分布:若随机变量有概率密度 $ p(x)=\begin{cases}\dfrac{\beta{\alpha}}{\Gamma(\alpha)}x^{-\beta x},&x>0\0,&x\le 0\end{cases}(\alpha>0,\beta>0) $, 其中 $ \Gamma(\alpha)=\int_0{\infty}x^{-x}{\rm d}x $, 则称 \(X\) 服从参数为 \((\alpha,\beta)\) 的伽玛分布, 记为 $ \Gamma(\alpha,\beta) $.
- $ \alpha=1,\Gamma(1,\beta)=\mathcal E(\beta) $.
- $ \Gamma(\dfrac n2,\dfrac 12) $ 称为自由度为 \(n\) 的卡方分布 $ \chi^2(n) $.
- $ \Gamma(1)=1,\ \Gamma(\dfrac 12)=\sqrt{\pi},\ \Gamma(\alpha+1)=\alpha T(\alpha) $.
- $ B(\alpha, \beta)=\dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}=\int_{0}1x(1-x)^{\beta-1}dx$
\(2.4\) · 随机变量的分布函数
1. 分布函数
定义:
对随机变量 \(X\), 函数 $ F(X)=P(X\le x)=P({{\omega\in\Omega:X(\Omega)\le x} }),x\in\R $ 称为 \(X\) 的(概率)分布函数.
定理(分布函数 \(F\) 的性质):
- 非降. $ \forall x_1<x_2,F(x_1)\le F(x_2) $.
- 右连续. $ \forall x\in\R, F(x+0):=\lim\limits_{\delta\to0+0}F(x+\delta)=F(x) $.
- $ F(-\infty)=0, F(\infty)=1 $.
- $ \forall x\in\R, P(X=x)=F(x)-F(x-0) $, 从而若 \(F\) 在 $ x=x_0 $ 处连续, 则 $ P(X=x_0)=0 $.
证2. 由下单调性, $$ F(x+0)=\lim\limits_{n\to\infty}F(x+\dfrac 1n), $$ 由概率上连续性, $$ F(x+0)=\lim\limits_{n\to\infty}F(x+\dfrac 1n)=\lim\limits_{n\to\infty}P(X\le x+\dfrac 1n)=P(X\le x)=F(x). $$
证毕.
注: 满足 1 \(\sim\) 3 的函数 $ F:\R\to[0,1] $ 称为分布函数.
$ P(a<x<b)=F(b-0)-F(a) \( \) P(a\le x<b)=F(b-0)-F(a-0) \( \) P(a\le x\le b)=F(b)-F(a-0) $
2. 离散型
设 \(X\) 有概率分布列 $ P(X=x_i)=p_i,\ i=1,2,\cdots $, 则 $$ F(x)=P(X\le x)=P(\bigcap\limits_{i:\ x_i\le x}{x=x_i })=\sum\limits_{i:\ x_i\le x}P(x=x_i)=\sum\limits_{i:\ x_i\le x}p_i $$
是阶梯函数.
$ P(X=x)=F(x)-F(x-0) $.
3. 连续型
若随机变量 \(X\) 有概率密度 \(p(x)\), 则 \(X\) 的分布函数 $ F(x)=\int_{-\infty}^xp(u){\rm d}u \(. \)F$ 连续, \(p(x)\) 在 \(x=x_0\) 处连续, 则 $ F'(x_0)=p(x_0) $.
定理:
若 \(F'\) 存在且连续, 则 \(X\) 是连续型随机变量, 且 \(F'\) 是 \(X\) 的概率密度.
定理:
设随机变量 \(X\) 分布函数 \(F\) 连续, 且除有限个点 \(c_1,c_2,\cdots,c_k\) 外, \(F'(x)\) 存在且连续, 则 \(X\) 是连续型随机变量. 令 $ p(x)=\begin{cases}F'(x),&x\notin{c_1,c_2,\cdots,c_k }\ a_i(a_i\ge 0),&x=c_i,\ i=1,2,\cdots,k \end{cases} $, 则 \(p\) 是 \(X\) 的概率密度.
注: 存在既非离散型, 也非连续型的随机变量.
2.5 随机变量函数的分布
设 \(X\) 是随机变量, $ f:\R\to\R $ 是Borel可测函数( $ {x:f(x)\le y}\in\mathcal B $ ), 则 $ Y=f(X) $ 是随机变量, 即 $ \forall y\in\R, {Y\le y}\in\mathscr F $.
1. \(X\) 离散型
设 \(X\) 有概率分布列 $ P(X=x_i)=p_i,\ i=1,2,\cdots $, 记 $ y_i=f(x_i),\ i=1,2,\cdots $.
若 $ f(x_1),f(x_2),\cdots,f(x_i),\cdots $ 有相等情形, 合并相应值为 $ y_1,y_2,\cdots,y_k,\cdots $, 则 $$ P(Y=y_k)=P(f(x)=y_k)=P(\bigcap\limits_{i:\ f(x_i)=y_k}{X=x_i})=\sum\limits_{i:\ f(x_i)=y_k}p_i $$
2. \(X\) 连续型
例. 设 $ X\sim N(\mu,\sigma^2) $, 则 $ Y=\dfrac{X-\mu}{\sigma} $ 的概率分布为 $ Y\sim N(0,1) $.
例. 设 $ X\sim N(0,1) $, 求 $ Y=X^2 $ 的概率分布.
解: $ \forall y<0, F_Y(y)=0 \(.
\) \forall y\ge 0,F_Y(y)=P(-\sqrt{y}\le x\le\sqrt{y})=2\int_0^{\sqrt{y}}\dfrac 1{\sqrt{y}}{\rm e}{-\dfrac{x2}2}{\rm d}x $,
则 \(F_Y\) 连续, 除 $ y=0 $ 外有导数, 故 \(Y\) 连续型随机变量.
对 \(F_Y\) 求导得概率密度. $ Y\sim\Gamma(\dfrac 12,\dfrac 12)=\chi^2(1) $.
一般地, $$ F_Y(y)=P(Y\le y)=P(f(x)\le y)=P(X\in f{-1}(-\infty,y])=\int_{f(-\infty,y]}p_X(X){\rm d}x. $$.
例. 设 $ Y\sim N(\mu,\sigma^2),X={\rm e}^Y $, 则 \(X\) 的概率密度为 $$ p_X(x)=\dfrac 1{\sqrt{2\pi}\sigma x}{\rm exp}\left{-\dfrac 1{2\sigma^2}(\ln x-\mu)^2\right} $$
3.分布函数的广义反函数
定义:设 \(F\) 为分布函数,令 \(F^{-1}(p):=min\{x:F(x)\ge p\}(0<p<1)\),则称 \(F^{-1}(p)\) 是 \(F(x)\) 的广义反函数。
易得:\(F^{-1}(p)\) 是关于 \(p\) 的增函数。\(F^{-1}(p)\le x\) 的充分必要条件是 \(p\le F(x)\)。\(F(F^{-1}(p))\ge p\),取等号的条件当且仅当 \(F(x)\) 在 \(x=F^{-1}(p)\) 处连续。(本质上是 \(F(x)\) 不严格递增,所以 \(F^{-1}(p)\) 不一定是一个严格意义上的函数,也就是 \(F^{-1}(p)\) 可能不连续)
设随机变量 \(x\) 的分布函数 \(F(x)\) 是连续函数,\(Y=F(x)\),则 \(Y\) 服从区间 \([0, 1]\) 上的均匀分布。
设 \(F(x)\) 是任何分布函数,若 \(U\) 是服从区间 \([0, 1]\) 上均匀分布的随机变量,且 \(X=F^{-1}(U)\),则 \(X\) 的分布函数恰好是 \(F(x)\)。
\(2.6\) · 随机变量的数学期望
一般形随机变量的数学期望
定义:\(X_\epsilon^*=\begin{cases}-\epsilon,&x\in [-\epsilon,0)\\ 0,&x\in [0, \epsilon)\\k\epsilon,&x\in [k\epsilon,(k+1)\epsilon) \end{cases}\)
对 \(r.v.x.\),若 \(\forall \epsilon>0, E(X^*_\epsilon)\) 存在且 \(lim_{\epsilon\to 0}E(X^*_\epsilon)\) 存在,则称 \(X\) 的期望存在,并定义 \(EX=lim_{\epsilon\to 0}E(X^*_\epsilon)\)。
若 \(r.v.x\) 有概率密度 \(p(x)\),且 \(\int^{+\infty}_{-\infty}|x|p(x)dx<+\infty\) 则 \(EX\) 存在,且 \(EX=\int^{+\infty}_{-\infty}xp(x)dx\)
常用分布的期望:
离散型:
泊松分布:\(E(X)=\lambda\)
几何分布:\(E(X)=\dfrac{1}{p}\)(\(P(X=k)=(1-p)^{k-1}p\))
超几何分布:\(E(X)=\dfrac{nD}{N}\) (\(P(X=k)=\dfrac{\binom{D}{k}\binom{N-D}{n-k}}{\binom{N}{n}}\))
连续型:
正态分布:\(E(X)=\mu\)
伽马分布:\(E(X)=\dfrac{\alpha}{\beta}\)
马尔可夫不等式:设 \(X=X(w)\) 是任何非负随机变量,且 \(E(X)\) 存在,则对于任何 \(C>0\),有 \(P(X\ge C)\le \dfrac{1}{C}E(X)\)
证明:\(C\times [X\ge C]\le X(w)\),故 \(E(C\times [X\ge C])\le E(X(w))\),即:\(E([X\ge C])=P(X\ge C)\le \dfrac{1}{C}E(X)\)
推论:若 \(E(|X|)=0\),则 \(P(X=0)=1\)
均值公式:\(E(f(x))=\sum_kf(x_k)p_k\),\(E(f(x))=\int_{-\infty}^{+\infty}f(x)p(x)dx\)
\(2.7\) · 方差及其他数字特征
定义:设 \(r.v.x\) 期望 \(E(X)\) 存在且有限,则称 \(E(X-E(X))^2\) 为 \(X\) 的方差,记为 \(Var(X)\) 或 \(D(X)\)。若 \(D(X)\) 存在,则称标准差 \(\sigma(X)=\sqrt{D(X)}\)
方差计算方法:(1)若 \(EX^2\) 存在,则 \(Var(X)=E(X^2)-E(X)^2\)
(2)对于离散型 \(r.v.\),有概率分布列 \(P(X=X_k)=P_k\),有 \(Var(X)=\sum_{k}(X_k-E(X))^2p_k=\sum_{k}X_K^2P_k-(EX)^2\)
(3)对于连续型 \(r.v.\),有概率密度 \(p(x)\),则 \(Var(X)=\int_{-\infin}^{+\infty}(x-EX)^2p(x)dx=\int_{-\infin}^{+\infty}x^2p(x)dx-(EX)^2\)
常见分布方差:
(1)两点分布:\(X\sim B(1, p)\),则 \(X=X^2\),\(Var(X)=EX^2-(EX)^2=p-p^2=pq\)
(2)二项分布:\(X\sim B(n, p)\),则 \(EX=np\),\(EX^2=\sum_{k=0}^nk^2\dbinom{n}{k}p^kq^{n-k}=\sum_{k=1}^n[(k-1)+1]\dfrac{n!}{(k-1)!(n-k)!}p^kq^{n-k}=\sum_{k=2}^n\dfrac{n!}{(k-2)!(n-k)!}p^kq^{n-k}+\sum_{k=1}^n\dfrac{n!}{(k-1)!(n-k)!}p^kq^{n-k}=n(n-1)p^2\sum_{l=0}^{n-2}\dbinom{n-2}{l}p^lq^{n-2-l}+EX=n(n-1)p^2+np\),故 \(Var(X)=EX^2-(EX)^2=n(n-1)p^2+np-(np)^2=npq\)
(3)泊松分布:\(X\sim P(\lambda)\), 则 \(Var(X)=\lambda\)
(4)几何分布:\(X\sim G(p)\),即 \(P(X=k)=(1-p)^{k-1}p\),则 \(Var(X)=\dfrac{q}{p^2}\)
(5)均匀分布:\(X\sim V[a, b]\),\(Var(X)=\dfrac{(b-a)^2}{12}\)
(6)正态分布:\(X\sim N(\mu, \sigma^2)\),\(Var(X)=\int_{-\infin}^{+\infin}(X-\mu)^2\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\)
令 \(t=\dfrac{x-\mu}{\sigma}\),\(Var(X)=\sigma^2\int_{-\infty}^{+\infty}t^2\dfrac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=\dfrac{\sigma^2}{\sqrt{2\pi}}[-te^{-\frac{t^2}{2}}|^{+\infin}_{-\infty}+\int_{-\infty}^{+\infty}e^{-\frac{t^2}{2}}dt]=\dfrac{\sigma^2}{\sqrt{2\pi}}(0+\sqrt{2\pi})=\sigma^2\)
(7)伽马分布:\(X\sim T(\alpha, \beta)\),则 \(Var(X)=\dfrac{\alpha}{\beta^2}\)
方差的性质:
(1)\(Var(aX+b)=a^2Var(X)\)
(2)\(Var(X+Y)=Var(X)+Vat(Y)+2E(X-EX)(Y-EY)\)
一般的,设 \(C_0, C_1, \cdots, C_n\in R\),\(Var(c_0+\sum_{1}^nC_iX_i)=\sum_{1}^nC_i^2Var(X_i)+2\sum_{i<j}c_ic_jE(X_i-EX_i)(X_j-EX_j)\)
(3)切比雪夫不等式:设 \(EX\) 存在有限,则 \(\forall \epsilon>0, P(|X-EX|\ge \epsilon)\le \dfrac{Var(X)}{\epsilon^2}\)
证明:令 \(t=(X_EX)^2\),则 \(P(|X-EX|\ge \epsilon)=P(t\ge \epsilon^2)\le \dfrac{Et}{\epsilon^2}=\dfrac{E(X-EX)^2}{\epsilon^2}=\dfrac{Var(X)}{\epsilon^2}\)(第二步是马尔可夫不等式得到)
其他数字特征:
对 \(r.v.x, k\in N\),若 \(E(X^k)\) 存在,则称其为 \(X\) 的 \(k\) 阶原点矩,记为 \(\nu_k=Ex^k\)
若 \(EX\) 存在,且 \(E(X-EX)^k\) 存在,则称\(E(X-EX)^k\) 为 \(X\) 的 \(k\) 阶中心矩,记为 \(\mu_k=E(X-EX)^k\)
\(EX=\nu_1, VarX=\mu_2\)
注意 \(\sigma\) 表示标准差(\(\sqrt{varX}\))
偏度系数:\(\alpha:=\dfrac{\mu_3}{\sigma^3}=E(\dfrac{X-EX}{\sigma})^3\),用来刻画关于均值的对称程度,当 \(X\) 关于 \(EX\) 对称时 \(\alpha=0\)
峰度系数:\(\gamma:=\dfrac{\mu_4}{\sigma^4}=E(\dfrac{X-EX}{\sigma})^4\),用来刻画分布曲线的陡峭程度,当 \(X\) 为正太分布的时候, \(\gamma=3\)
分位数:对 \(r.v.x\),\(p\in (0, 1)\),若 \(a\in R\),\(s.t.P(X\le a)\ge p\ge P(X>a)\),则称 \(a\) 为 \(X\) 的 \(p\) 分位数。注意:\(p\) 分位数一定存在,但不一定唯一。
特殊的, \(\dfrac{1}{2}\) 分位数又称中位数,记为 \(med(X)\)。
众数(\(mode(X)\))
设 \(EX^2<+\infty, EY^2<+\infty\),则 \(E|XY|\le \sqrt{EX^2\times EY^2}\)
\(3.1\) · 随机向量的概率分布
定义:设 \(X_1, X_2\cdots, X_n\) 是 \((\Omega, \mathscr F, P)\) 上的随机变量,称 \(\vec{X}=(X_1, X_2, \cdots, X_n)\) 为 \((\Omega, \mathscr F, P)\) 上的 \(n\) 维随机向量。
二维离散型随机变量:若 \(X, Y\) 都是离散型 \(r.v.\),则称 \((X, Y)\) 是一个二维离散型随机变量。称 \(P(X, Y)=(x_i, y_j)=P_{i, j}\) 为 \((X, Y)\) 的联合概率分布列,称 \(X\)(\(Y\)) 的概率分布为 \((X, Y)\) 关于 \(Y\)(\(X\)) 的边缘概率分布。
\(r\) 项分布:设 \(A_1, A_2, \cdots, A_r\in \mathscr F\) 是实验 \(S\) 的完备事件组(\(A_i\cap A_j= \phi, \cup_{1}^r=\Omega\)),设在 \(S\) 中独立重复进行 \(n\) 次试验,\(A_i\) 发生次数为 \(X_i\),则 \(P(X_1=k_1, X_2=k_2, \cdots, X_r=k_r)=\dfrac{n!}{k_1!k_2!\cdots k_r!}p_1^{k_1}p_2^{k_2}\cdots p_r^{k_r}\)
二维连续性随机向量:定义 \(r.v.(X, Y)\),若存在非负可积函数 \(p(x, y)\),使得 \(P((X, Y)\in A)=\int\int_Ap(X, Y)dxdy\) ,则称 \(P(x, y)\) 为 \(X, Y\) 的联合分布密度。
设 \(\mu_1, \mu_2\in R, \sigma_1>0,\sigma_2>0, \rho\in (-1, 1)\),为常数,若 \((X, Y)\) 由概率密度:\(p(x, y)=\dfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\{-\dfrac{1}{2(1-\rho^2)}[(\dfrac{(x-\mu_1)}{\sigma_1})^2-2\rho\dfrac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+(\dfrac{(x-\mu_2)}{\sigma_2})^2]\}\),则称 \((X, Y)\) 服从二维正态分布,记为 \((X, Y)\sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)\)
正态分布的每一个边缘分布都是正态分布。特殊的,\(N(0, 0, 1, 1, 0)\) 为:\(p(x, y)=\dfrac{1}{2\pi}e^{-\frac{x^2+y^2}{2}}\)
对于二元联合分布函数 \(F(X, Y)=P(X\le x, Y\le y)\),满足 \(F(X, Y)\) 是 \(x/y\) 的非降右连续函数。\(F(-\infty, y)=F(x, -\infty)=0, F(x, +\infty)=P(X\le x), F(+\infin, y)=P(Y\le y), F(+\infty, +\infin)=1\)
若 \(x, y\) 联合分布函数 \(F(x, y)\) 连续,且除有限条平行于坐标轴的直线外(有限个 \(x, y\) 外),\(\dfrac{\partial^2F}{\partial x\partial y}\) 存在且连续,则 \(x, y\) 是连续型的,\(\dfrac{\partial^2F}{\partial x\partial y}\)是 \((x, y)\) 的一个概率密度
命题:\(x, y\) 相互独立 \(\Leftrightarrow\) \(\forall a<b, c < d\), \(P(a<x\le b, c<Y\le d)=P(a<x\le b)P(c<x\le d)\)(联合分布函数等于边缘分布函数的乘积)
二维正态分布是独立的当且仅当 \(\rho=0\)
定理:若 \(x_1, x_2\cdots, x_n\) 相互独立,给定 \(1\le m\le n - 1\),\(g_1:R^m\to R, g_2:R^{n-m}\to R\)
\(Y_1=g_1(x_1, x_2, \cdots, x_m), Y_2=g_2(x_{m+1}, x_{m+2}, \cdots, x_n)\),则 \(Y_1, Y_2\) 独立。
定义:对随机变量序列,\(\{x_n:n\ge 1\}\),若 \(\forall n \ge 2, x_1, x_2, \cdots, x_n\),相互独立,则称 \(\{x_n:n\ge 1\}\) 相互独立,称\(\{x_n:n\ge 1\}\) 为独立随机变量序列。若对 \(x_i\) 还有相同的分布函数,则称 \(\{x_n:n\ge 1\}\) 为独立同分布随机变量序列(\(i.i.d.r.v.s\))
\(3.2\) 随机向量函数
若 \(X, Y\ r.v., f:R^2\to R\),令 \(Z=f(X, Y)\)是 \((\Omega, \mathscr{F})\) 上 \(r.v.\)
1.\((X, Y)\) 是离散型,\(P(X=x_i, Y=y_i)=P_{i, j}, f(x, y)\) 合并相同值后记为 \(\{z_k:k\ge 1\}\),\(P(Z=z_k)=P(f(X, Y)=z_k)=\sum_{f(x_i, y_j)=z_k}P_{i, j}\)
2.\((X, Y)\) 是连续型,\(F_z(z)=P(Z\le z)=P(f(X, Y)\le z)-P((X, Y)\in f^{-1}(-\infty, z]=\int\int_{f^{-1}(-\infty, z]} P(x, y)dxdy\)
特别的,\(z=x+y\),且 \(x, y\) 独立的时候,\(P(z)\) 的概率密度为 \(P(x)\) 与 \(P(y)\) 概率的卷积,即:\(P_Z(z)=\int_{-\infin}^{+\infty}P_X(x)P_Y(z-x)dx\)
\(z=x/y\),有概率密度:\(P_Z(z)=\int_{-\infty}^{+\infty}|y|p(zy, y)dy\)
\(z=x*y\),有概率密度:\(P_Z(z)=\int_{-\infty}^{+\infty}|y|^{-1}p(y^{-1}z, y)dy\)
\(z=max(x, y)\),有概率密度:\(P_Z(z)=2F(x)p(x), P(Z\le z)=P(X\le z)P(Y\le z)=(F(z))^2\)
设 \(f(x, y)=u, g(x, y)=v\),反解出 \(x=F(u, v), y=G(u, v)\),则 \(q(u, v)=p(F(u, v), G(u, v))|\dfrac{\partial(F,G)}{\partial(u, v)}|\)
设 变量 \(X, Y\) 独立,则 \(E(XY)=E(X)E(Y), var(X+Y)=var(X)+var(Y)\)
协方差:设 \(X, Y\) 均有期望与方差,则记 \(\sigma_{XY}=cov(X, Y)=E((X-E(X))(Y-E(Y)))=EXY-EX\times EY\),称当 \(\sigma_{XY}=0\) 时,称 \(X\) 与 \(Y\) 不相关。
相关系数:记录 \(\rho_{XY}=\dfrac{cov(X, Y)}{\sqrt{var(X)}\sqrt{var(Y)}}\),其中 \(|\rho_{XY}|\le 1\)
\(\rho_{XY}=1\) 当且仅当存在常数 \(a, b\) 使得 \(P(Y=aX+b)=1\)。
若 \(X, Y\) 相互独立,则 \(\rho_{XY}=0\)
注意:不相关不代表独立。
定理:\(Cov(X, Y)^2\le Var(X)Var(Y)\)。\(min_{a, b\in R}E(Y-(aX+b))=Var(Y)(1-\rho_{XY}^2)\)
命题:\(c_i\) 为常数,\(x_i\) 方差有限,则有 \(Var(c_0+\sum_{i=1}^nc_ix_i)=\sum_{i=1}^nc_i^2Var(x_i)+2\sum_{i<j}c_ic_jcov(x_i, x_j)\),可以把 \(n\) 维问题转化为 \(2\) 维问题
可以将 \(cov(X, Y)\) 写成矩阵形式,记为协差阵,也可以将 \(\rho(X, Y)\) 写成矩阵形式,记为相关阵。
显然协差阵是对称的(正定的),矩阵退化当且仅当存在非零常数 \(a_i\),使得 \(P(\sum_{i=1}^na_i(X_i-EX_i)=0)=1\)