$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Bin{\text{Bin}} \def\Unif{\text{Unif}} \def\E{\mathbb{E}} \def\iid{\stackrel{iid}{\sim}} \def\is{:=} \def\Gaus{\mathcal{N}} \def\fone#1{\mathbb{1}\{#1\}} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poi{\text{Poi}} \def\R{\mathbb{R}} \def\V{\mathbb{V}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

6  Kiểm định

Hypothesis testing

6.1 Giả thuyết không và đối

Với mô hình thống kê \(\left(E,(\P_\theta)_{\theta\in\Theta}\right),\) sử dụng bộ mẫu dữ liệu iid \(X_1,\ldots,X_n,\) ta xem xét hai giả thuyết về tham số \(\theta\) như sau:

\[ \begin{cases} H_0:&\theta\in\Theta_0\\ H_1:&\theta\in\Theta_1 \end{cases} \]

với \(\Theta_0,\Theta_1\) là phân mảnh (không giao nhau) của \(\Theta,\) \(\Theta_0\) là “thường thức” (status quo), còn \(\Theta_1\) là “phát hiện” (discovery) mới. Ta gọi \(H_0\) là giả thuyết không, còn \(H_1\) là giả thuyết đối (thay thế).

6.2 Kiểm định

Ta sẽ kiểm định \(H_0\) đối với \(H_1\) bằng cách chọn và sử dụng một định lượng thống kê \(\psi(X_1,\ldots,X_n)\in\{0,1\}.\)

\(\psi=0:\) chấp nhận \(H_0\) \(\psi=1:\) phủ nhận \(H_0\)
\(\theta\in\Theta_0\) Kiểm định đúng Lỗi loại 1
\(\theta\in\Theta_1\) Lỗi loại 2 Kiểm định đúng

Có thể viết \(\psi=\fone{R_\psi}\) với sự kiện \(R_\psi\)vùng phủ nhận, còn \(R_\psi^c\)vùng chấp nhận .

Ta thiết kế kiểm định sao cho hàm công suất sau đây có giá trị nhỏ khi \(\theta\in\Theta_0\) và lớn khi \(\theta\in\Theta_1:\)

\[ \beta_\psi(\theta) \is \P_\theta(\psi=1) \equiv \P_\theta(R_\psi)\in[0,1] \]

Vùng phủ nhận thường có dạng \[ R_\psi = \{X_i: T(X_i)\geq c\} \] với \(T\) là một lượng thống kê còn \(c\) là một giá trị biên.

6.3 Mức độ lỗi

Kiểm định \(\psi\) là ở mức (significance level) \(\alpha\in(0,1)\) nếu có xác suất lỗi loại 1 không vượt quá \(\alpha:\) \[ \sup_{\theta\in\Theta_0} \beta_\psi(\theta) \leq\alpha . \]

Chuỗi kiểm định \((\psi_n)_{n=1,2,\ldots}\) được gọi là tiệm cận về mức \(\alpha\) nếu \[ \lim_{n\to\infty} \sup_{\theta\in\Theta_0} \beta_{\psi_n}(\theta) \leq\alpha . \]

Phương thức Neyman-Pearson chọn một mức \(\alpha\), đảm bảo xác suất lỗi loại 1 không vượt quá \(\alpha\) rồi tối thiểu hóa xác suất lỗi loại 2. Nói cách khác là giữ cho công suất \(\beta_\psi(\theta)\) đủ nhỏ khi \(\psi\in\Theta_0,\) rồi tối đại hóa công suất khi \(\psi\in\Theta_1.\)

6.3.1 p-value

Từ quan sát \(X_1, \ldots, X_n\) ta tính giá trị mức \(\alpha\) (tiệm cận) nhỏ nhất tại đó kiểm định \(\psi\) phủ nhận \(H_0,\) gọi nó là p-value (tiệm cận) của \(\psi.\) Nếu p-value càng nhỏ thì ta càng tự tin phủ nhận \(H_0.\)

\[ \textrm{p-value} \is \inf_{X_1, \ldots, X_n; \theta\in H_0}\beta_\psi(\theta) \]

p-value chứng cứ phủ nhận \(H_0\)
\(<0.1\%\) vô cùng mạnh
\(0.1\%\textemdash 1\%\) rất mạnh
\(1\%\textemdash 5\%\) mạnh
\(5\%\textemdash 10\%\) yếu
\(>10\%\) không có

6.4 Khoảng tin cậy

Thông thường ta có thể xây dựng được kiểm định từ khoảng tin cậy. Ví dụ, ta muốn kiếm định tham số \(\theta\), \(H_0: \theta=\theta_0,\) đối \(H_1: \theta\neq\theta_0.\) Giả sử ta có khoảng tin cậy \(\mathcal{I}\) ở mức \(1-\alpha\), tức là \[\P_\theta(I\ni \theta)\geq 1-\alpha.\] Khi đó, \(\psi=\fone{\theta_0\notin\mathcal{I}}\) là kiểm định mức \(\alpha\)

\[ \beta_\psi(\theta_0) = \P_{\theta_0}(\theta_0\notin I) \leq \alpha. \]

6.5 Wald Test

Giả sử \(\hat{\theta}\) là ước lượng của tham số \(\theta\), và \(\hat{\V}[\hat{\theta}]\) là ước lượng phương sai của \(\hat{\theta}\), sao cho \[ \frac{\hat{\theta}-\theta} {\sqrt{\hat{\V}[\hat{\theta}]}} \todist \Gaus(0,1). \]

Đặt

\[ W \is \frac{\hat{\theta}-\theta_0} {\sqrt{\hat{\V}[\hat{\theta}]}} , \]

ta có thể xây dựng các kiểm định Wald có mức tiệm cận là \(\alpha,\) tức là \(\P_{H_0}(\psi_\alpha) \xrightarrow[n\to\infty]{} \alpha.\)

Giả thuyết Kiểm định Wald asymp. p-value
\(H_0: \theta=\theta_0, H_1: \theta\neq\theta_0\) \(\psi_\alpha=\fone{|W|>q_{\alpha/2}}\) \(\P(|Z|>|W^{obs}|)\)
\(H_0: \theta\leq\theta_0, H_1: \theta>\theta_0\) \(\psi_\alpha=\fone{W>q_\alpha}\) \(\P(Z>W^{obs})\)
\(H_0: \theta\geq\theta_0, H_1: \theta<\theta_0\) \(\psi_\alpha=\fone{W<-q_\alpha}\) \(\P(Z<W^{obs})\)

Trong bảng trên, p-value được tính từ \(W^{obs}\) là một quan sát đối với \(W.\)

6.6 Định lý Cochran

Định lý 6.1 Giả sử \(X_1,\ldots,X_n\iid\Gaus(\mu,\sigma^2).\) Đặt \[ S_n^2:=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X}_n)^2. \]

Khi đó \(\E[S_n^2] \equiv \sigma^2,\) \[ \frac{S_n^2}{\sigma^2} \sim \frac{\chi_{n-1}^2}{n-1} , \]

\(\bar{X}_n, S_n^2\) độc lập với nhau.

6.7 Student’s T test

Giả sử \(X_1,\ldots,X_n\iid\Gaus(\mu,\sigma^2),\) \(\mu,\sigma\) chưa biết, và ta muốn kiểm định \(\mu.\) Theo ĐL 6.1, \[ T:= \frac{\bar{X}_n-\mu}{\sqrt{S_n^2/n}} \equiv \frac{\sqrt{n}{(\bar{X}_n-\mu)}{/\sigma}} {\sqrt{{S_n^2}{/\sigma^2}}} \sim t_{n-1} \] tuân theo phân phối Student’s T. Ta có thể xây dựng các kiểm định Student có mức \(\alpha,\) tức là \(\P_{H_0}(\psi_\alpha) \equiv \alpha.\)

Giả thuyết Kiểm định Student p-value
\(H_0: \mu=\mu_0, H_1: \mu\neq\mu_0\) \(\psi_\alpha=\fone{|T| >q_{\alpha/2}^{t_{n-1}}}\) \(\P_{t_{n-1}}(|Z|>|T^{obs}|)\)
\(H_0: \mu\leq\mu_0, H_1: \mu>\mu_0\) \(\psi_\alpha=\fone{T>q_\alpha^{t_{n-1}}}\) \(\P_{t_{n-1}}(Z>T^{obs})\)
\(H_0: \mu\geq\mu_0, H_1: \mu<\mu_0\) \(\psi_\alpha=\fone{T<-q_\alpha^{t_{n-1}}}\) \(\P_{t_{n-1}}(Z<T^{obs})\)

Trong bảng trên, p-value được tính từ \(T^{obs}\) là một quan sát đối với \(T.\)

6.8 Two-sample T-test

Giả sử \(X_1,\ldots,X_n\iid\Gaus(\mu_x,\sigma_x^2),\) \(Y_1,\ldots,Y_m\iid\Gaus(\mu_y,\sigma_y^2),\) với \(\mu_x,\sigma_x, \mu_y,\sigma_y\) chưa biết, và ta muốn kiểm định \(\mu_x-\mu_y.\) Đặt \[ \hat{\mu}_n\is\frac{1}{n}\sum_{i=1}^{n}X_i,\quad \hat{\sigma}_n^2\is\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\hat{\mu}_n)^2 , \] \[ \hat{\mu}_m\is\frac{1}{m}\sum_{i=1}^{m}Y_i,\quad \hat{\sigma}_m^2\is\frac{1}{m-1}\sum_{i=1}^{m}(Y_i-\hat{\mu}_m)^2 .\] Ta có gần đúng \[ \frac{(\hat{\mu}_n-\hat{\mu}_m)-(\mu_x-\mu_y)} {\sqrt{\hat{\sigma}_n^2/n + \hat{\sigma}_m^2/m}} \sim t_N \] là phân phối Student’s T với độ tự do tuân theo công thức WS (Welch-Satterthwaite): \[ N = \frac{(\hat{\sigma}_n^2/n + \hat{\sigma}_m^2/m)^2} {{{\hat{\sigma}_n^4}/{\left(n^2(n-1)\right)} + {\hat{\sigma}_m^4}/{\left(m^2(m-1)\right)}}} \geq \min(n, m) \] Đặt \[ T = \frac{\hat{\mu}_n-\hat{\mu}_m} {\sqrt{\hat{\sigma}_n^2/n + \hat{\sigma}_m^2/m}} .\]

Giả thuyết Kiểm định 2 mẫu p-value
\(H_0: \mu_x=\mu_y, H_1: \mu_x\neq\mu_y\) \(\psi_\alpha=\fone{|T| >q_{\alpha/2}^{t_{N}}}\) \(\P_{t_{N}}(|Z|>|T^{obs}|)\)
\(H_0: \mu_x\leq\mu_y, H_1: \mu_x>\mu_y\) \(\psi_\alpha=\fone{T>q_\alpha^{t_{N}}}\) \(\P_{t_{N}}(Z>T^{obs})\)
\(H_0: \mu_x\geq\mu_y, H_1: \mu_x<\mu_y\) \(\psi_\alpha=\fone{T<-q_\alpha^{t_{N}}}\) \(\P_{t_{N}}(Z<T^{obs})\)

6.9 Kiểm định tỷ lệ hợp lý

Likelihood ratio test

Với dữ liệu \(X_1,\ldots,X_n\iid \P_\theta,\) để kiểm định \(H_0: \theta \in \Theta_0,\) \(H_1: \theta \notin \Theta_0,\) định lượng tỷ lệ hợp lý là \[ T_n = 2\ln\frac{{L_n}(\hat{\theta})}{{L_n}(\hat{\theta}_0)} \] với \(L(\hat{\theta})\) là hợp lý cực đại tổng quát, còn \(L(\hat{\theta}_0)\) là hợp lý cực đại khi \(H_0\) đúng.

6.9.1 Định lý Wilks

Giả sử \(\theta=\left(\theta_1,\ldots,\theta_{q+r}\right) \in\Theta\subset\R^{q+r},\) \[ \Theta_0=\left\{\theta\in\Theta: \left(\theta_{q+1},\ldots,\theta_{q+r}\right) = \left(\theta_{q+1}^{(0)},\ldots,\theta_{q+r}^{(0)}\right) \right\} \] với \(\left(\theta_{q+1}^{(0)},\ldots,\theta_r^{(0)}\right)\in\R^r\) là cố định. Nếu \(H_0\) đúng và các điều kiện hội tụ của MLE (ĐL 5.2) được thỏa mãn thì: \[ T_n\todist\chi_{r}^2. \]

6.10 Kiểm định nhiều lần

Gọi số lần thực hiện và quan sát kết quả kiểm định là \(t,\) mức độ lỗi loại 1 cho phép là \(\alpha.\) Nếu \(H_0\) là đúng thì lỗi loại 1 sẽ xuất hiện khoảng \(\alpha t\) lần, số lần này sẽ càng lớn nếu \(t\) càng lớn.

Gọi tỷ lệ p-value không vượt quá ngưỡng \(\alpha\)\(F(\alpha)\is\P(\textrm{p-value}\leq \alpha).\) Ta có \(F(\alpha)\leq \alpha\) với mọi loại kiểm định. Hơn nữa, \(F(\alpha)=\alpha\) với kiểm định Student’s T.

6.11 Kiểm định \(\chi^2\)

6.11.1 Kiểm định \(\chi^2\)

Gọi \(\hat{\p}\) là MLE (ĐN 5.5), \(\p^{*}\) là tham số thật của mô hình phân loại \[ \left( \left\{a_1,\ldots,a_K\right\}, \{\P_{\p}\}_{\p\in\Delta_K} \right) . \] Khi đó \(\sqrt{n}(\hat{\p}-\p^*)\) tiến về phân phối chuẩn (ĐN 3.4), còn \[ n\sum_{i=1}^K\frac{(\hat{p}_i-p^*_i)^2}{p^*_i} \todist \chi_{K-1}^2 \] tiến về phân phối \(\chi^2\) (ĐN 2.8).