$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Bin{\text{Bin}} \def\Unif{\text{Unif}} \def\E{\mathbb{E}} \def\iid{\stackrel{iid}{\sim}} \def\is{:=} \def\Gaus{\mathcal{N}} \def\fone#1{\mathbb{1}\{#1\}} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poi{\text{Poi}} \def\R{\mathbb{R}} \def\V{\mathbb{V}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

6 Kiểm định

Hypothesis testing

Định nghĩa giả thuyết không và giả thuyết đối.
Thiết kế kiểm định thống kê
Phân loại lỗi Loại 1 và Loại 2
Tính hàm công suất của kiểm định
Định mức đối với kiểm định
Tính toán và giải thích giá trị p

6.1 Giả thuyết không và đối

Với mô hình thống kê $\left(E,(\P_\theta)_{\theta\in\Theta}\right),$ sử dụng bộ mẫu dữ liệu iid $X_1,\ldots,X_n,$ ta xem xét hai giả thuyết về tham số $\theta$ như sau:

\[ \begin{cases} H_0:&\theta\in\Theta_0\\ H_1:&\theta\in\Theta_1 \end{cases} \]

với $\Theta_0,\Theta_1$ là phân mảnh (không giao nhau) của $\Theta,$ $\Theta_0$ là “thường thức” (status quo), còn $\Theta_1$ là “phát hiện” (discovery) mới. Ta gọi $H_0$ là giả thuyết không, còn $H_1$ là giả thuyết đối (thay thế).

6.2 Kiểm định

Ta sẽ kiểm định $H_0$ đối với $H_1$ bằng cách chọn và sử dụng một định lượng thống kê $\psi(X_1,\ldots,X_n)\in\{0,1\}.$

	$\psi=0:$ chấp nhận $H_0$	$\psi=1:$ phủ nhận $H_0$
$\theta\in\Theta_0$	Kiểm định đúng	Lỗi loại 1
$\theta\in\Theta_1$	Lỗi loại 2	Kiểm định đúng

Có thể viết $\psi=\fone{R_\psi}$ với sự kiện $R_\psi$ là vùng phủ nhận, còn $R_\psi^c$ là vùng chấp nhận .

Ta thiết kế kiểm định sao cho hàm công suất sau đây có giá trị nhỏ khi $\theta\in\Theta_0$ và lớn khi $\theta\in\Theta_1:$

\[ \beta_\psi(\theta) \is \P_\theta(\psi=1) \equiv \P_\theta(R_\psi)\in[0,1] \]

Vùng phủ nhận thường có dạng \[ R_\psi = \{X_i: T(X_i)\geq c\} \] với $T$ là một lượng thống kê còn $c$ là một giá trị biên.

6.3 Mức độ lỗi

Kiểm định $\psi$ là ở mức (significance level) $\alpha\in(0,1)$ nếu có xác suất lỗi loại 1 không vượt quá $\alpha:$ \[ \sup_{\theta\in\Theta_0} \beta_\psi(\theta) \leq\alpha . \]

Chuỗi kiểm định $(\psi_n)_{n=1,2,\ldots}$ được gọi là tiệm cận về mức $\alpha$ nếu \[ \lim_{n\to\infty} \sup_{\theta\in\Theta_0} \beta_{\psi_n}(\theta) \leq\alpha . \]

Phương thức Neyman-Pearson chọn một mức $\alpha$, đảm bảo xác suất lỗi loại 1 không vượt quá $\alpha$ rồi tối thiểu hóa xác suất lỗi loại 2. Nói cách khác là giữ cho công suất $\beta_\psi(\theta)$ đủ nhỏ khi $\psi\in\Theta_0,$ rồi tối đại hóa công suất khi $\psi\in\Theta_1.$

6.3.1 p-value

Từ quan sát $X_1, \ldots, X_n$ ta tính giá trị mức $\alpha$ (tiệm cận) nhỏ nhất tại đó kiểm định $\psi$ phủ nhận $H_0,$ gọi nó là p-value (tiệm cận) của $\psi.$ Nếu p-value càng nhỏ thì ta càng tự tin phủ nhận $H_0.$

\[ \textrm{p-value} \is \inf_{X_1, \ldots, X_n; \theta\in H_0}\beta_\psi(\theta) \]

p-value	chứng cứ phủ nhận $H_0$
$<0.1\%$	vô cùng mạnh
$0.1\%\textemdash 1\%$	rất mạnh
$1\%\textemdash 5\%$	mạnh
$5\%\textemdash 10\%$	yếu
$>10\%$	không có

6.4 Khoảng tin cậy

Thông thường ta có thể xây dựng được kiểm định từ khoảng tin cậy. Ví dụ, ta muốn kiếm định tham số $\theta$, $H_0: \theta=\theta_0,$ đối $H_1: \theta\neq\theta_0.$ Giả sử ta có khoảng tin cậy $\mathcal{I}$ ở mức $1-\alpha$, tức là \[\P_\theta(I\ni \theta)\geq 1-\alpha.\] Khi đó, $\psi=\fone{\theta_0\notin\mathcal{I}}$ là kiểm định mức $\alpha$

\[ \beta_\psi(\theta_0) = \P_{\theta_0}(\theta_0\notin I) \leq \alpha. \]

6.5 Wald Test

Giả sử $\hat{\theta}$ là ước lượng của tham số $\theta$, và $\hat{\V}[\hat{\theta}]$ là ước lượng phương sai của $\hat{\theta}$, sao cho \[ \frac{\hat{\theta}-\theta} {\sqrt{\hat{\V}[\hat{\theta}]}} \todist \Gaus(0,1). \]

Đặt

\[ W \is \frac{\hat{\theta}-\theta_0} {\sqrt{\hat{\V}[\hat{\theta}]}} , \]

ta có thể xây dựng các kiểm định Wald có mức tiệm cận là $\alpha,$ tức là $\P_{H_0}(\psi_\alpha) \xrightarrow[n\to\infty]{} \alpha.$

Giả thuyết	Kiểm định Wald	asymp. p-value
$H_0: \theta=\theta_0, H_1: \theta\neq\theta_0$	$\psi_\alpha=\fone{\|W\|>q_{\alpha/2}}$	$\P(\|Z\|>\|W^{obs}\|)$
$H_0: \theta\leq\theta_0, H_1: \theta>\theta_0$	$\psi_\alpha=\fone{W>q_\alpha}$	$\P(Z>W^{obs})$
$H_0: \theta\geq\theta_0, H_1: \theta<\theta_0$	$\psi_\alpha=\fone{W<-q_\alpha}$	$\P(Z<W^{obs})$

Trong bảng trên, p-value được tính từ $W^{obs}$ là một quan sát đối với $W.$

6.6 Định lý Cochran

Định lý 6.1 Giả sử $X_1,\ldots,X_n\iid\Gaus(\mu,\sigma^2).$ Đặt \[ S_n^2:=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X}_n)^2. \]

Khi đó $\E[S_n^2] \equiv \sigma^2,$ \[ \frac{S_n^2}{\sigma^2} \sim \frac{\chi_{n-1}^2}{n-1} , \]

và $\bar{X}_n, S_n^2$ độc lập với nhau.

6.7 Student’s T test

Giả sử $X_1,\ldots,X_n\iid\Gaus(\mu,\sigma^2),$ $\mu,\sigma$ chưa biết, và ta muốn kiểm định $\mu.$ Theo ĐL 6.1, \[ T:= \frac{\bar{X}_n-\mu}{\sqrt{S_n^2/n}} \equiv \frac{\sqrt{n}{(\bar{X}_n-\mu)}{/\sigma}} {\sqrt{{S_n^2}{/\sigma^2}}} \sim t_{n-1} \] tuân theo phân phối Student’s T. Ta có thể xây dựng các kiểm định Student có mức $\alpha,$ tức là $\P_{H_0}(\psi_\alpha) \equiv \alpha.$

Giả thuyết	Kiểm định Student	p-value
$H_0: \mu=\mu_0, H_1: \mu\neq\mu_0$	$\psi_\alpha=\fone{\|T\| >q_{\alpha/2}^{t_{n-1}}}$	$\P_{t_{n-1}}(\|Z\|>\|T^{obs}\|)$
$H_0: \mu\leq\mu_0, H_1: \mu>\mu_0$	$\psi_\alpha=\fone{T>q_\alpha^{t_{n-1}}}$	$\P_{t_{n-1}}(Z>T^{obs})$
$H_0: \mu\geq\mu_0, H_1: \mu<\mu_0$	$\psi_\alpha=\fone{T<-q_\alpha^{t_{n-1}}}$	$\P_{t_{n-1}}(Z<T^{obs})$

Trong bảng trên, p-value được tính từ $T^{obs}$ là một quan sát đối với $T.$

6.8 Two-sample T-test

Giả sử $X_1,\ldots,X_n\iid\Gaus(\mu_x,\sigma_x^2),$ $Y_1,\ldots,Y_m\iid\Gaus(\mu_y,\sigma_y^2),$ với $\mu_x,\sigma_x, \mu_y,\sigma_y$ chưa biết, và ta muốn kiểm định $\mu_x-\mu_y.$ Đặt \[ \hat{\mu}_n\is\frac{1}{n}\sum_{i=1}^{n}X_i,\quad \hat{\sigma}_n^2\is\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\hat{\mu}_n)^2 , \] \[ \hat{\mu}_m\is\frac{1}{m}\sum_{i=1}^{m}Y_i,\quad \hat{\sigma}_m^2\is\frac{1}{m-1}\sum_{i=1}^{m}(Y_i-\hat{\mu}_m)^2 .\] Ta có gần đúng \[ \frac{(\hat{\mu}_n-\hat{\mu}_m)-(\mu_x-\mu_y)} {\sqrt{\hat{\sigma}_n^2/n + \hat{\sigma}_m^2/m}} \sim t_N \] là phân phối Student’s T với độ tự do tuân theo công thức WS (Welch-Satterthwaite): \[ N = \frac{(\hat{\sigma}_n^2/n + \hat{\sigma}_m^2/m)^2} {{{\hat{\sigma}_n^4}/{\left(n^2(n-1)\right)} + {\hat{\sigma}_m^4}/{\left(m^2(m-1)\right)}}} \geq \min(n, m) \] Đặt \[ T = \frac{\hat{\mu}_n-\hat{\mu}_m} {\sqrt{\hat{\sigma}_n^2/n + \hat{\sigma}_m^2/m}} .\]

Giả thuyết	Kiểm định 2 mẫu	p-value
$H_0: \mu_x=\mu_y, H_1: \mu_x\neq\mu_y$	$\psi_\alpha=\fone{\|T\| >q_{\alpha/2}^{t_{N}}}$	$\P_{t_{N}}(\|Z\|>\|T^{obs}\|)$
$H_0: \mu_x\leq\mu_y, H_1: \mu_x>\mu_y$	$\psi_\alpha=\fone{T>q_\alpha^{t_{N}}}$	$\P_{t_{N}}(Z>T^{obs})$
$H_0: \mu_x\geq\mu_y, H_1: \mu_x<\mu_y$	$\psi_\alpha=\fone{T<-q_\alpha^{t_{N}}}$	$\P_{t_{N}}(Z<T^{obs})$

6.9 Kiểm định tỷ lệ hợp lý

Likelihood ratio test

Với dữ liệu $X_1,\ldots,X_n\iid \P_\theta,$ để kiểm định $H_0: \theta \in \Theta_0,$ $H_1: \theta \notin \Theta_0,$ định lượng tỷ lệ hợp lý là \[ T_n = 2\ln\frac{{L_n}(\hat{\theta})}{{L_n}(\hat{\theta}_0)} \] với $L(\hat{\theta})$ là hợp lý cực đại tổng quát, còn $L(\hat{\theta}_0)$ là hợp lý cực đại khi $H_0$ đúng.

6.9.1 Định lý Wilks

Giả sử $\theta=\left(\theta_1,\ldots,\theta_{q+r}\right) \in\Theta\subset\R^{q+r},$ \[ \Theta_0=\left\{\theta\in\Theta: \left(\theta_{q+1},\ldots,\theta_{q+r}\right) = \left(\theta_{q+1}^{(0)},\ldots,\theta_{q+r}^{(0)}\right) \right\} \] với $\left(\theta_{q+1}^{(0)},\ldots,\theta_r^{(0)}\right)\in\R^r$ là cố định. Nếu $H_0$ đúng và các điều kiện hội tụ của MLE (ĐL 5.2) được thỏa mãn thì: \[ T_n\todist\chi_{r}^2. \]

6.10 Kiểm định nhiều lần

Gọi số lần thực hiện và quan sát kết quả kiểm định là $t,$ mức độ lỗi loại 1 cho phép là $\alpha.$ Nếu $H_0$ là đúng thì lỗi loại 1 sẽ xuất hiện khoảng $\alpha t$ lần, số lần này sẽ càng lớn nếu $t$ càng lớn.

Gọi tỷ lệ p-value không vượt quá ngưỡng $\alpha$ là $F(\alpha)\is\P(\textrm{p-value}\leq \alpha).$ Ta có $F(\alpha)\leq \alpha$ với mọi loại kiểm định. Hơn nữa, $F(\alpha)=\alpha$ với kiểm định Student’s T.

6.11 Kiểm định $\chi^2$

6.11.1 Kiểm định $\chi^2$

Gọi $\hat{\p}$ là MLE (ĐN 5.5), $\p^{*}$ là tham số thật của mô hình phân loại \[ \left( \left\{a_1,\ldots,a_K\right\}, \{\P_{\p}\}_{\p\in\Delta_K} \right) . \] Khi đó $\sqrt{n}(\hat{\p}-\p^*)$ tiến về phân phối chuẩn (ĐN 3.4), còn \[ n\sum_{i=1}^K\frac{(\hat{p}_i-p^*_i)^2}{p^*_i} \todist \chi_{K-1}^2 \] tiến về phân phối $\chi^2$ (ĐN 2.8).

Giả thuyết	Kiểm định Wald	asymp. p-value
\(H_0: \theta=\theta_0, H_1: \theta\neq\theta_0\)	\(\psi_\alpha=\fone{\|W\|>q_{\alpha/2}}\)	\(\P(\|Z\|>\|W^{obs}\|)\)
\(H_0: \theta\leq\theta_0, H_1: \theta>\theta_0\)	\(\psi_\alpha=\fone{W>q_\alpha}\)	\(\P(Z>W^{obs})\)
\(H_0: \theta\geq\theta_0, H_1: \theta<\theta_0\)	\(\psi_\alpha=\fone{W<-q_\alpha}\)	\(\P(Z<W^{obs})\)

Giả thuyết	Kiểm định Student	p-value
\(H_0: \mu=\mu_0, H_1: \mu\neq\mu_0\)	\(\psi_\alpha=\fone{\|T\| >q_{\alpha/2}^{t_{n-1}}}\)	\(\P_{t_{n-1}}(\|Z\|>\|T^{obs}\|)\)
\(H_0: \mu\leq\mu_0, H_1: \mu>\mu_0\)	\(\psi_\alpha=\fone{T>q_\alpha^{t_{n-1}}}\)	\(\P_{t_{n-1}}(Z>T^{obs})\)
\(H_0: \mu\geq\mu_0, H_1: \mu<\mu_0\)	\(\psi_\alpha=\fone{T<-q_\alpha^{t_{n-1}}}\)	\(\P_{t_{n-1}}(Z<T^{obs})\)

Giả thuyết	Kiểm định 2 mẫu	p-value
\(H_0: \mu_x=\mu_y, H_1: \mu_x\neq\mu_y\)	\(\psi_\alpha=\fone{\|T\| >q_{\alpha/2}^{t_{N}}}\)	\(\P_{t_{N}}(\|Z\|>\|T^{obs}\|)\)
\(H_0: \mu_x\leq\mu_y, H_1: \mu_x>\mu_y\)	\(\psi_\alpha=\fone{T>q_\alpha^{t_{N}}}\)	\(\P_{t_{N}}(Z>T^{obs})\)
\(H_0: \mu_x\geq\mu_y, H_1: \mu_x<\mu_y\)	\(\psi_\alpha=\fone{T<-q_\alpha^{t_{N}}}\)	\(\P_{t_{N}}(Z<T^{obs})\)