Probability and Statistics: Review

Published:

随机事件和概率

随机事件

  • 随机试验:对随机现象进行观察或试验称为随机试验,简称试验,记作\(E\):
    1. 可以在相同条件下重复进行;
    2. 所得的可能结果不止一个,且所有可能结果都能事前已知;
    3. 每次具体试验之前无法预知会岀现哪个结果.
  • 样本空间:随机试验的每一可能结果称为样本点,由所有样本点全体组成的集合称为样本空间。
  • 随机事件:样本空间的子集称为随机事件,简称事件。
    • 必然事件:\(S\)。
    • 不可能事件:\(\varnothing\)。
  • 事件间的关系和运算:用集合的关系和运算来表示事件的关系和运算(注意集合表示对应的事件含义)。
    • 事件的包含、相等、交、并、补、差:\(A \subset B, A = B, A\cap B, A\cup B, A^{c}, A - B = A \cap B^{c} \)。
    • 事件的互斥:\(A\cap B = \varnothing\)。
    • 划分:\(A_1, A_2,\ldots, A_n\) 满足 \(A_i \cap A_j = \varnothing, i\neq j,i,j = 1,2,\ldots, n\),且\(\bigcup\limits_{i=1}^{n} A_i = S\)。
    • 事件的运算性质(维恩图):交换律、结合律、分配律等。

概率

  • 概率公理:设试验的样本空间为\(S\),称实值函数\(\Pr\)为概率,如果\(\Pr\)满足如下三条件:对每个事件指定一个唯一的实数,满足三条公理——非负性、规范性、可加性。
    1. \(\Pr(A) \geq 0\);
    2. \(\Pr(S) = 1\);
    3. 对于两两互斥的可数无穷事件\(A_1, A_2,\ldots\),有\(\Pr\left(\bigcup_{i=1}^{n} A_i\right) = \sum\limits_{i=1}^{n} \Pr(A_i)\)。
  • 确定概率的方法:古典型概率、几何型概率。
    • 计数方法:加法原理、乘法原理、排列数、组合数与用排列组合计算古典概率。
      • 排列数:\(P_{n,k} = n(n-1)\cdots (n-k+1) = \dfrac{n!}{(n-k)!}\)
      • 组合数:\(\displaystyle C_{n,k} = \binom{n}{k} = \frac{P_{n,k}}{k!} = \frac{n!}{k!(n-k)!}\)
  • 概率的性质
    • \(\Pr(\varnothing) = 0\)。
    • 对于两两互斥的有限事件,有\(\Pr\left(\bigcup_{i=1}^{n} A_i\right) = \sum\limits_{i=1}^{n} \Pr(A_i)\)。
    • \(\Pr(A^{c})= 1 - \Pr(A)\)。
    • \(A \subset B\),则 \(\Pr(A)\leq \Pr(B)\)。
    • \(0 \leq \Pr(A)\leq 1\)。
    • \(\Pr(A\cup B) = \Pr(A) + \Pr(B) - \Pr(A\cap B)\)
      • \(\Pr(A\cup B\cup C) = \cdots\)。

条件概率

  • 条件概率的定义:\(\Pr(A \mid B) = \dfrac{\Pr(A\cap B)}{\Pr(A)}\)

  • 乘法法则
    • \(\Pr(A\cap B) = \Pr(A)\Pr(B\mid A)\)
    • \(\Pr(A_1\cap \cdots A_n)= \Pr(A_1)\Pr(A_2\mid A_1)\cdots \Pr(A_n \mid A_1\cap\cdots A_{n-1})\)
  • 全概率公式: \(\Pr(A) = \sum\limits_{i=1}^{n} \Pr(B_i)\Pr(A\mid B_i)\)
  • 贝叶斯公式(先验概率和后验概率):\(\Pr(B_j \mid A) = \dfrac{\Pr{B_j}\Pr(A \mid B_j)}{\sum\limits_{i=1}^{n} \Pr(B_i)\Pr(A\mid B_i)}\)

  • 事件独立性:\(\Pr(A\cap B) = \Pr(A)\cap \Pr(B)\)
    • \(\Pr(A\mid B) =\Pr(A)\)
    • 相互独立与两两独立
    • 条件独立

随机变量及其分布

随机变量

  • 随机变量的定义:在样本空间C上的实值函数\(X = X(s)\), \(s \in S\) 称为随机变量,简记为\(X\)。

分布函数(c.d.f)

  • 分布函数的定义:\(F(x) = \Pr(X\leq x)\)。分布函数\(F(x)\)是定义在区间\((-\infty,\infty)\)上的一个实值函数,\(F(x)\)的值等于随机变量\(X\)在区间\((-\infty,x]\) 上取值的概率,即事件“\(X\leq x\)”的概率。
  • 分布函数的性质
    • \(0\leq F(x) \leq 1\);
    • 单调不减
    • 右连续
    • \(F(-\infty) = 0, F(\infty) = 1\);
    • \(\Pr(x_1 < X \leq x_2) = F(x_2) - F(x_1)\);
    • \(\Pr(X = x) = F(x) - F(x-0)\)。
  • Quantiles(分位数)的定义,以及如何求分位数。

离散型随机变量

  • 定义:随机变量的可能取值是有限多个或可数无穷多个
  • 离散型随机变量\(X\)的概率函数(p.f):\(f(x) = \Pr(X = x)\)
    • 常用列表方式给出
| \\(X\\) | \\(x_1\quad x_2 \quad \cdots\quad x_n\quad \cdots \\)| |--------|:------------------------------------------------:| | \\(\Pr\\) | \\(p_1\quad p_2 \quad \cdots\quad p_n\quad \cdots \\) |
  • 概率函数的性质
    • \(f(x) \geq 0\)
    • \(\sum\limits_k f(x_k) = 1\)
    • \(F(x) = \Pr(X\leq x) = \sum\limits_{x_k\leq x} p_k\) (分段函数)
  • 典型的离散型分布:伯努利(0-1)分布、离散型均匀分布、二项分布、泊松分布、几何分布、超几何分布、负二项分布。

连续型随机变量

  • 定义:如果对随机变量\(X\)的分布函数\(F(x)\),存在一个非负可积函数\(f(x)\),使得对任意实数\(x\),都有\(\displaystyle F(x) = \int_{-\infty}^{x} f(x)\,dx\)。
    • 概率密度函数(p.d.f):函数\(f(x)\)称为连续随机变量\(X\)的概率密度函数。
    • \(F(x)\)连续。
    • \(\Pr(x) = 0, \forall x\)。
  • 概率密度函数的性质
    • \(f(x) \geq 0\);
    • \(\int_{-\infty}^{\infty}f(x)\,dx = 1\);
    • \(\Pr(x_1 < X \leq x_2) = \int_{x_1}^{x_2}f(t)\,dt\);
    • 在\(f(x)\)的连续点处有\(F’(x)= f(x)\)。
  • 典型的连续型分布:均匀分布、指数分布、正态分布、伽马分布、贝塔分布。
  • 正态分布\(X \sim N(\mu,\sigma^2)\)
    • \(F(x) = \Phi \left(\frac{x-\mu}{\sigma}\right)\)
    • \(\Pr(x_1 < X \leq x_2) = \Phi \left(\frac{x_2-\mu}{\sigma}\right) - \Phi \left(\frac{x_1-\mu}{\sigma}\right)\)
    • \(f(x)\)是偶函数,\(\Phi(-x) = 1 - \Phi(x)\),\(\Phi(x) = \frac{1}{2}\)。
    • 当\(X \sim N(0,1)\)时,\(\Pr(\lvert X \rvert \leq a) = 2\Phi(a) - 1\)。

随机变量的函数\(Y = r(X)\)

  • 分布函数\(F(y) = \Pr(Y \leq y) = \Pr(r(x)\leq y)\)
  • 离散型随机变量
  • 连续型随机变量

多维随机变量及其分布

二维随机变量\((X,Y)\)的分布

  • 联合分布函数(joint c.d.f):\(F(x,y) = \Pr(X\leq x, Y\leq y)\)。
  • 性质:
    • \(0\leq F(x,y)\leq 1\)
    • \(F(-\infty,y)= F(x,-\infty) = F(-\infty,-\infty) =0, F(\infty,\infty) =1\)
  • 边缘分布:二维随机变量\((X,Y)\)的分布函数为\(F(x,y)\),则关于\(X, Y\)的边缘分布函数\(F_1(x) = \Pr(X\leq x) = \Pr(X\leq x, Y < \infty) =F(x,\infty)\),\(F_2(y) = \Pr(Y\leq y) = \Pr(X < \infty, Y \leq y) =F(\infty,y)\)。

二维离散型随机变量

  • 定义:随机变量\((X,Y)\)可能取值为有限个或可数无穷个。
  • 联合概率函数(joint p.f.):\(f(x,y) = \Pr(X =x,Y=y)\)。
    • 常用表格形式给出
    • 性质:
      • \(f(x,y) \geq 0\)
      • \(\sum\limits_i \sum\limits_j f(x_i,y_j) = 1\)
  • 边缘密度函数
    • \(f_1(x) = \sum\limits_{y}f(x,y)\),\(f_2(y) = \sum\limits_{x}f(x,y)\)

二维连续型随机变量

  • 定义:如果对随机变量\((X,Y)\)的分布\(F(x,y)\),存在非负可积函数使得对于任意实数\(x\)和\(y\),都有\(\displaystyle F(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y} f(u,v)\,du dv\)。
  • 联合概率密度函数(joint p.d.f):函数\(f(x,y)\)。
  • 边缘密度函数
    • \(f_1(x) = \int_{-\infty}^{\infty}f(x,y)\,dy\),\(f_2(y) = \int_{-\infty}^{\infty}f(x,y)\,dx\)

二维混合型随机变量

二维随机变量的条件分布

  • 条件分布:根据极限来定义
    • \(F_{X\mid Y}(x \mid y)\),\(F_{Y\mid X}(y \mid x)\)。
    • \(g_1(x\mid y) = \dfrac{f(x,y)}{f_2(y)}\),\(g_2(y\mid x) = \dfrac{f(x,y)}{f_1(x)}\)。
  • 随机变量的独立性
    • \(\Pr(X\in A, Y\in B) = \Pr(X \in A)\Pr(Y \in B)\)
    • \(F(x,y) = F_1(x)F_2(y)\)
    • \(f(x,y) = f_1(x)f_2(y)\)
    • \(g_1(x\mid y) = f_1(x)\),\(g_2(y\mid x) = f_2(y)\)
  • 乘法法则:\(f(x, y) = g_1(x\mid y)f_2(y)\),\(f(x, y) = g_2(y\mid x)f_1(x)\)
  • 全概率公式
    • 离散型:\(f_1(x) = \sum\limits_y g_1 (x \mid y) f_2 (y)\)
    • 连续型:\(f_1(x) = \int_{-\infty}^\infty g_1 (x \mid y) f_2 (y)\,dy\)
  • 贝叶斯定理
    • \(g_2(y\mid x) = \dfrac{g_1 (x \mid y) f_2 (y)}{f_1(x)}\),\(g_1(x \mid y) = \dfrac{g_2 (y \mid x) f_1 (y)}{f_2(x)} \)。

二维随机变量的函数\(Z = r(X,Y)\)

  • 离散型:与一维时候类似
  • 连续型\(Y = a_1 X_1 + a_2 X_2 + b\):
    • \(\displaystyle g(y)=\int_{-\infty}^{\infty} f\left(\frac{y-b-a_2x_2}{a_1},x_2\right) \frac{1}{\lvert a_1\rvert}\, dx\)
    • 卷积公式(相互独立):\(\displaystyle g(y) = \int_{-\infty}^{\infty} f_1(y-z)f_2(z)dz\)
  • 分布的可加性(二项分布、泊松分布、正态分布)

随机变量的数字特征

数学期望

  • 定义
    • 离散型:\( E(X) = \sum_{x} xf(x) \)
    • 连续型:\( E(X) = \int_{-\infty}^\infty xf(x)\, dx\)
  • 数学期望的性质
    • 线性性质:
      • \(E(aX + b) = aE(X) + b\)
      • \(E(a_1X_1 + \cdots + a_nX_n + b) = a_1E(X_1) + \cdots + a_nE(X_n) + b\)
    • 乘积(独立时):\(E\left(\prod_{i=1}^{n} X_i\right) = \prod_{i=1}^n E\left(X_i\right)\)
  • 随机变量函数的期望
    • \(E[r(X)] = \sum_{x} r(x) f(x)\),\(E[r(X)] = \int_{-\infty}^{\infty} r(x) f(x)\, dx\)
    • \(E[r(X_1,X_2)] = \sum\limits_{x_1,x_2} r(x_1,x_2) f(x_1,x_2)\),\(E[r(X_1,X_2)] = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} r(x_1,x_2) r(x_1,x_2)f(x_1,x_2)\, dx_1 dx_2\)
  • 常见分布的数学期望:伯努利(0-1)分布、离散型均匀分布、几何分布、二项分布、泊松分布、泊松定理、连续型均匀分布、指数分布、正态分布。
  • 中位数\(m\): \(\Pr(X \leq m) \geq 1/2\)且\(\Pr(X \geq m) \geq 1/2\)。
  • 条件数学期望
    • \(E(E(Y\mid X)) = E(Y)\)

方差

  • 方差的定义:\(\text{Var}(X) = E[(X −μ)^2]\)
    • 标准差:\(\sigma_X = \sqrt{\text{Var}(X)}\)
  • 方差的性质
    • 计算:\(\text{Var}(X) = E(X^2) − [E(X)]^2 \)
    • \(\text{Var}(aX +b) = a^2 \text{Var}(X)\)
    • 和(独立时):\(\text{Var}(a_1X_1 +\cdots+a_nX_n)=a_1^{2}\text{Var}(X_1)+\cdots+a_n^{2}\text{Var}(X_n)\)
  • 常见分布的方差:伯努利(0-1)分布、离散型均匀分布、几何分布、二项分布、泊松分布、泊松定理、连续型均匀分布、指数分布、正态分布。 n个独立同分布变量算术平均的期望和方差
  • IQR(内四分位范围):\( F^{−1}(0.75) − F^{−1}(0.25)\)

  • 矩的定义
    • 原点矩:\(E(X^{k})\)
    • 中心矩:\(E[(X − μ)^{k}]\)
    • 偏度、峰度
  • 矩母函数 \( \Psi(t) = E(e^{tX})\)
    • \(E(X^{k}) = \Psi^{(k)}(0)\)

协方差和相关系数

  • 协方差:\(\text{Cov}(X, Y) = E[(X − \mu_X)(Y − \mu_Y )]\)
    • \(\text{Cov}(X, Y) = E(XY) − E(X)E(Y)\)
  • 相关系数:\(\rho(X,Y) = \dfrac{\text{Cov}(X, Y)}{\sigma_X\sigma_Y}\)
    • 不相关:\(\rho(X,Y) = 0\)
    • \(\lvert \rho(X,Y)\rvert \leq 1\)
    • \(\lvert \rho(X,Y)\rvert = 1\)等价于\(a X + bY + c = 0\)
    • 独立则必不相关,反之不一定
  • 协方差的性质
    • Schwarz Inequality:\([E(UV )]^{2} ≤ E(U^{2})E(V^{2})\)
    • \(\text{Var}(aX + bY + c) = a^{2} \text{Var}(X) + b^{2} \text{Var}(Y ) + 2ab \text{Cov}(X, Y )\)
    • \(\text{Cov}(aX,by)=ab\text{Cov}(X,Y)\)

大数定律和中心极限定理

大数定律

  • 马尔可夫不等式
  • 切比雪夫不等式:\(\Pr(\lvert X - E(X)\rvert \geq t)\leq \dfrac{\text{Var}(X)}{t^{2}}\)
    • 用切比雪夫不等式估算概率
  • 随机变量序列依概率收敛:
    • 设\(X_1, X_2, \cdots\)是一个随机变量序列, \(b\)是一个常数,如果对任意\(\varepsilon>0\),有\(\lim\limits_{n\rightarrow}\Pr(\lvert X_n - b \rvert < \varepsilon) = 1\),则称随机变量序列依概率收敛于常数\(b\),记作\(X_n \overset{p}\longrightarrow b\).
  • 大数定律:设随机变量\(X_1, X_2, \cdots, X_n\)独立同分布,分布期望为\(\mu\), \(\overline{X}_n \overset{p}\longrightarrow \mu\)
    • 伯努利大数定律(大数定律的特例)
    • 切比雪夫大数定律
  • 随机变量序列以概率\(1\)收敛
    • \(\Pr(\lim\limits_{n\rightarrow} X_n = b) = 1\)
    • 强大数定律:\(\Pr\left(\lim\limits_{n\rightarrow \infty}\overline{X}_n = \mu\right) = 1\)

中心极限定理

  • 中心极限定理(Lindeberg and Lévy),林德伯格—列维定理
    • 设随机变量\(X_1, X_2, \cdots, X_n\)独立同分布,分布期望为\(\mu\),方差为\(\sigma^{2}\),则\(\lim\limits_{n\rightarrow \infty}\Pr\left[\dfrac{\overline{X}_n -\mu}{\sigma/n^{1/2}}\leq x\right] = \Phi(x)\)
    • \(\lim\limits_{n\rightarrow \infty}\Pr\left[\dfrac{\sum\limits_{i=1}^n {X}_i - n\mu}{\sigma n^{1/2}}\leq x\right] = \Phi(x)\)
  • 棣莫佛—拉普拉斯中心极限定理(de Moivre - Laplace Theorem)
    • 设随机变量\(X_n \sim B(n, p)\),则\(\lim\limits_{n\rightarrow \infty}\Pr\left[\dfrac{X_n -np}{\sqrt{n p(1-p)}}\leq x\right] = \Phi(x)\)

参数估计

总体和样本

  • 总体的定义:所研究对象的某项数量指标\(X\)的全体称为总体。总体中的每个元素称为个体.
  • 样本的定义:\(X_1, X_2,\ldots,X_n\)相互独立且都与总体\(X\)同分布,则称其为来自总体\(X\)的样本,\(n\)为样本容量,样本的具体观测值\(x_1,x_2,\ldots,x_n\)称为样本值.
  • 统计量的定义:样本\(X_1, X_2,\ldots,X_n\)的不含未知参数的函数\(T = T(X_1, \cdots,X_n)\)称为统计量
  • 常见的统计量
    • 样本均值\(\overline{X} = \dfrac{1}{n}\sum\limits_{i=1}^{n} X_i\)
    • 样本方差\(S^2 = \dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i - \overline{X})^2\)
      • 样本标准差\(S\)
    • 样本矩

点估计

  • 点估计:用一个定(即一个数)去估计未知参数
  • 估计量和估计值
    • 用样本\(X_1, X_2,\ldots,X_n\)构造的统计量\(\hat{\theta}(X_1, X_2,\ldots,X_n)\)来估计未知参数\(\theta\)称为点估计。统计量\(\hat{\theta}(X_1, X_2,\ldots,X_n)\)称为估计量.
    • 估计量是随机变量,它所取得的观测值\(\hat{\theta}(x_1, x_2,\ldots,x_n)\)称为估计值。有时将\(\theta\)的估计量和估计值统称为\(\theta\)的估计。
    • 点估计的优良性准则
      • 无偏性:\(E(\hat{\theta}) = \theta\)。没有系统偏差(时而偏低、时而偏高,平均起来其值为0);
      • 有效性:方差更小。
      • 相合性:随着样本大小的增加,被估计的量与估计量逐渐“合”在一起。这就是说,只要样本大小足够大,误差可以任意小。

矩估计

  • 矩估计法:用样本矩估计相应的总体矩,用样本矩的函数估计总体矩相应的函数,然后求出要估计的参数,称这种估计法为矩估计法。
    • 在一般情况下,能用低阶矩处理的就不用高阶矩
  • 矩估计法的步骤
    • 设总体\(X\)的分布含有未知参数\(\theta_1,\ldots,\theta_k\),其\(\ell\)阶矩为\(E(X^{\ell})\),样本矩\(\dfrac{1}{n}\sum\limits_{i=1}^{n} X_i^{\ell}\)。
    • 令分布矩等于样本矩(\(k\)个方程),求解\(\theta_1,\ldots,\theta_k\)

最大似然估计

  • 似然函数:
    • 设总体\(X\)的概率函数/概率密度函数为\(f(x; \theta)\),则称函数\(L(\theta) = L(x_1,x_2,\cdots,x_n; \theta)= \prod\limits_{i=1}^{n}f(x_i;\theta)\)为参数\(\theta\)的似然函数。
    • 这个函数对不同的\(\theta\)的取值,反映了在观测结果\(X_1,\ldots,X_n\)已知的条件下,\(\theta\)的各种值的“似然程度”。这里有些像贝叶斯公式中的推理:把观察值看成结果,而把参数值看成是导致这个结果的原因。现已有结果,要反过了推算各种原因的概率。
  • 极大似然估计法
    • 对于给定的样本值\(x_1,x_2,\ldots,x_n\),使似然函数\(L(x_1,x_2,\cdots,x_n; \theta)\)达到最大值的参数值\(\hat{\theta} = \hat{\theta}(x_1, x_2,\ldots,x_n)\)称为未知参数\(\theta\)的极大似然估计值,相应的\(\hat{\theta}(X_1, X_2,\ldots,X_n)\)称为\(\theta\)的极大似然估计量。一般统称为\(\theta\)的极大似然估计。称这种估计法为极大似然估计法。
  • 极大似然估计法的步骤
    • 如果\(L(\theta)\)或\(\ln L(\theta)\)关于\(\theta\)可微,值\(\hat{\theta}\)往往可以从方程\(\dfrac{d L(\theta)}{d\theta}=0\)或\(\dfrac{d \ln L(\theta)}{d\theta} = 0\)中求解,称这两个方程为似然方程。
    • 注意\(\hat{\theta}\)不一定是\(L(\theta)\)或者\(\ln L(\theta)\)的驻点。

贝叶斯估计

  • 经典学派:矩估计、极大似然估计等,未知参数\(\theta\)就简单地是一个数,在抽取样本之前,我们对\(\theta\)没有任何了解,所有信息全来自样本。
  • 贝叶斯学派:在进行抽样之前,我们已对\(\theta\)有一定的知识,叫做先验知识。贝叶斯学派进一步要求,这种先验知识必须用\(\theta\)的某种概率分布表达处理,这个概率分布就叫做\(\theta\)的先验分布。在给定\(X_1,\ldots,X_n\)的条件下,得到\(\theta\)的条件密度(后验密度)
    • 贝叶斯公式的“连续化”

抽样分布与置信区间

常用抽样分布

  • 正态分布
  • \(\chi^{2}\)分布
    • 设\(X_1, X_2,\ldots, X_n\)相互独立且均服从标准正态分布\(N(0,1)\),则称随机变量\(\chi^{2} = X_1^{2} + \cdots X_n^{2}\)服从自由度(或参数)为\(n\)的\(\chi^{2}\)分布,记作\(\chi^{2} \sim \chi^{2}(n)\)。
    • 卡方分布的可加性
  • \(t\)分布
    • 设随机变量\(X\)和\(Y\)相互独立,且\(X \sim N(0,1)\),\(Y \sim \chi^{2}(n)\),则称随机变量\(T = \dfrac{X}{\sqrt{Y/n}}\)服从自由度为\(n\)的\(t\)分布,记作\(T \sim t(n)\)。
  • \(F\)分布
    • 设随机变量\(X\)和\(Y\)相互独立,且\(X \sim \chi^{2}(n_1)\),\(Y\sim \chi^{2}(n_2)\),则称随机变量\(F = \dfrac{X/n_1}{Y/n_2}\)服从自由度为\(n_1,n_2\)的\(F\)分布,记作\(F\sim F(n_1,n_2)\),其中\(n_1\)和\(n_2\)分别称为第一自由度和第二自服从自由度。
  • 一个正态总体的抽样分布
    • 设总体\(X \sim N(\mu,\sigma^{2})\),\(X_1,X_2,\ldots,X_n\)是来自总体的样本,样本均值为\(\overline{X}\),样本方差为\(S^{2}\),则有
      • \(\overline{X} \sim N(\mu, \sigma^{2}/n)\),\(U = \dfrac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)\)
      • \(\overline{X}\)与\(S^{2}\)相互独立,且\(\chi^{2} = \dfrac{(n-1)S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)\)
      • \(T = \dfrac{\overline{X} -\mu}{S/\sqrt{n}}\sim t(n-1)\)
      • \(\chi^{2} = \dfrac{1}{\sigma^{2}}\sum\limits_{i=1}^{n}(X_i - \mu)^{2} \sim \chi^{2}(n)\)
  • 两个正态总体的抽样分布
    • 设总体\(X \sim N(\mu_1,\sigma_1^{2})\)和\(Y \sim N(\mu_2,\sigma_2^{2})\),\(X_1,X_2,\ldots,X_n\)和\(Y_1,Y_2,\ldots,Y_n\)是分别来自总体的样本且相互独立,样本均值为\(\overline{X}\)和\(\overline{Y}\),样本方差分别为\(S_1^{2}\)和\(S_2^{2}\),则有
      • \(\displaystyle \overline{X} - \overline{Y} \sim N\left( \mu_1 - \mu_2, \frac{\sigma_1^{2}}{n_1} + \frac{\sigma_2^{2}}{n_2} \right) \implies U = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^{2}}{n_1} + \frac{\sigma_2^{2}}{n_2}}} \sim N(0,1);\)
      • \(\sigma_1^{2} = \sigma_2^{2}\),则 \(\displaystyle T = \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2), \) 其中 \(S_w = \sqrt{\frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}}\)
      • \(\displaystyle F = \frac{S_1^{2} / \sigma_1^{2}}{S_2^{2} / \sigma_2^{2}} \sim F(n_1 - 1, n_2 - 1)\)

置信区间

  • 置信区间的定义
    • 设\(\theta\)是总体\(X\)的未知参数,\(X_1, X_2,\ldots, X_n\)是来自总体\(X\)的样本,对于给定的\(\gamma (0 < \gamma <1)\),如果两个统计量满足\(\Pr(\theta_1 < \theta < \theta_2) \geq \gamma\),则称随机区间\((\theta_1,\theta_2)\)为参数\(\theta\)的置信水平(或置信度)为\(\gamma\)的置信区间(或区间估计)
  • 求置信区间的枢轴变量法
    • 构造枢轴变量,即样本和\(\theta\)的函数\(G = G(X_1,\ldots,X_n,\theta)\)
      • 形式上包含代估参数和样本,且不包含任何其他未知的参数
      • 分布完全已知
    • 根据置信水平,得常数\(c,d\)(如果是单侧则只有一个常数)
      • \(\Pr(c < G < d) \geq \gamma\)
    • 等价改写概率得区间估计
      • 将\(c < G < d\)等价变形为\(\theta_1 < \theta < \theta_2\)
  • 区间估计的枢轴变量法
    1. 找一个与要估计参数\(\theta\)有关的统计量\(T\),一般是其一个良好的点估计
    2. 设法找出\(T\)和\(\theta\)的某一函数\(S(T,\theta)\),其分布要与\(\theta\)无关,称为“枢轴变量”。
    3. 对任何常数\(a < b\),不等式\(a < S(T,\theta) < b\)要能改写为等价形式的\(A < \theta < B\) (与\(\theta\)无关)
    4. 根据\(S\)分布函数的分位数进行计算。
  • 例:设\(X_1,\ldots,X_n\)为抽自正态总体\(N(\mu,\sigma^{2})\)的样本,\(\sigma^{2}\)已知,要求\(\mu\)的区间估计。
    • \(\mu\)的一个良好点估计为\(\overline{X}\)。
    • \(S = \sqrt{n}(\overline{X}-\mu)/\sigma \sim N(0,1)\)
    • \(\Pr(a < S < b) = \gamma\)
  • 一个正态总体参数的区间估计
    • 期望\(\mu\):
      • \(\sigma^{2}\)已知:正态分布
      • \(\sigma^{2}\)未知:\(t\)分布
    • 方差\(\sigma^{2}\):\(\chi^{2}\)分布
  • 两个正态总体参数的区间估计

假设检验

  • 实际推断隐理:小概率事件在一次试验中实际上是不会发生的,实际推断原理又称小概率原理。

假设检验

  • 假设
    • 假设是指关于总体的论断或命题,常用字母“\(H\)”表示。假设分为基本假设(又称原 假设,零假设)和备选假设(又称备择假设,对立假设)
    • 还可将假设分为参数假设和非参数假设,参数假设是指已知总体分布函数形式,对其中未知参数的假设,其他的假设就是非参数假设。
    • 也可将假设分为简单假设和复合假设,完全决定总体分布的假设为简单假设,否则为复合 假设.
  • 假设检验:根据样本,按照一定规则判断所做假设\(H_0\)的真伪,并作出接受还是拒绝接受\(H_0\)的决定。

  • 两类错误
    • 拒绝实际真的假设(弃真)称为第一类错误。
    • 接受实际不真的假设(纳伪)称为第二类错误。

显著性检验

  • 显著性水平:在假设检验中允许犯第一类错误的概率,记为\(\alpha\,(0 < \alpha < 1)\),则\(\alpha\)称为检验的显著水平或检验水平,它表现了对\(H_0\)弃真的控制程度,一般\(\alpha\)取\( 0.1, 0.05, 0.01, 0.001 \)等值。
  • 显著性检验:只控制第一类错误概率\(\alpha\)的统计检验,称为显著性检验。
  • 显著性检验的一般步骤
    1. 根据问题要求提出原假设\(H_0\);
    2. 给岀显著性水平\(\alpha\);
    3. 确定检验统计量及拒绝域形式;
    4. 按犯第一类错误的概率等于\(\alpha\)求岀拒绝域\(W\);
    5. 据样本值计算检验统计量\(T\)的观测值\(t\)当\(t \in W\)时,拒绝原假设\(H_0\);否则,接受原假设\(H_0\)
  • 临界域(拒绝域)、检验统计量、功效函数
  • 单侧假设检验、双侧假设检验

  • 在一定的显著性水平下进行假设检验,以单正态总体均值的双侧假设检验(总体方差已知)为例
  • 假设检验的\(p\)值
    • \(p\)值是用来衡量在原假设为真的情况下,观察到的样本结果或更极端结果出现的概率。是用来判定假设检验结果的一个参数,是根据实际统计量计算出的显著性水平。
      • 如果\(\alpha \geq p\),在显著性水平\(\alpha\)下拒绝\(H_0\);
      • 如果\(\alpha < p\),在显著性水平\(\alpha\)下接受\(H_0\);

\(U\) 检验

  • 单正态总体均值的\(U\)检验法(双侧、单侧)(方差已知)

\(t\) 检验

  • 单正态总体均值的\(t\)检验法(双侧、单侧)(方差未知)、\(t\)检验的性质、\(p\)值
  • 双正态总体均值的\(t\)检验法(双侧、单侧)(方差未知)、\(t\)检验的性质、\(p\)值

\(F\) 检验

  • 双正态总体方差的\(F\)检验法(双侧、单侧,均值未知)、\(F\)检验的性质、\(p\)值