$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Betad#1{\text{Beta}\left(#1\right)} \def\Binom{\text{Binom}} \def\Geom{\text{Geom}} \def\Unif{\text{Unif}} \def\E#1{\mathbb{E}\left[#1\right]} \def\iid{\stackrel{iid}{\sim}} \def\is{\coloneqq} \def\Gauk#1#2{\mathcal{N}_{#1}\left(#2\right)} \def\Gaus#1{\Gauk{}{#1}} \def\indicator#1{\mathbb{1}\{#1\}} \def\tp{\intercal} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poiss{\text{Poiss}} \def\R{\mathbb{R}} \def\X{\vec{X}} \def\Y{\vec{Y}} \def\XX{\mathbb{X}} \def\V#1{\mathbb{V}\left(#1\right)} \def\Cov#1{\V{#1}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\toapd{\xrightarrow[n\to\infty]{\as/\P/(d)}} \def\toprob{\xrightarrow[n\to\infty]{\P}} \def\tosure{\xrightarrow[n\to\infty]{\as}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

6  Kiểm định

Hypothesis testing

6.1 Giả thuyết

Với mô hình thống kê \(\left(E,(\P_\theta)_{\theta\in\Theta}\right),\) sử dụng bộ mẫu dữ liệu iid \(X_1,\ldots,X_n,\) ta xem xét hai giả thuyết về tham số \(\theta\) như sau:

\[ \begin{cases} H_0:&\theta\in\Theta_0\\ H_1:&\theta\in\Theta_1 \end{cases} \]

với \(\Theta_0,\Theta_1\) là phân mảnh (không giao nhau) của \(\Theta,\) \(\Theta_0\) là “thường thức” (status quo), còn \(\Theta_1\) là “phát hiện” (discovery) mới. Ta gọi \(H_0\) là giả thuyết không, còn \(H_1\) là giả thuyết đối (thay thế).

6.1.1 Kiểm định

Ta sẽ kiểm định \(H_0\) đối với \(H_1\) bằng cách chọn và sử dụng một định lượng thống kê \(\psi(X_1,\ldots,X_n)\in\{0,1\}.\)

\(\psi=0:\) chấp nhận \(H_0\) \(\psi=1:\) phủ nhận \(H_0\)
\(\theta\in\Theta_0\) Kiểm định đúng Lỗi loại 1
\(\theta\in\Theta_1\) Lỗi loại 2 Kiểm định đúng

Có thể viết \(\psi=\indicator{R_\psi}\) với sự kiện \(R_\psi\)vùng phủ nhận, còn \(R_\psi^c\)vùng chấp nhận .

Ta thiết kế kiểm định sao cho hàm công suất sau đây có giá trị nhỏ khi \(\theta\in\Theta_0\) và lớn khi \(\theta\in\Theta_1:\)

\[ \beta_\psi(\theta) \is \P_\theta(\psi=1) \equiv \P_\theta(R_\psi)\in[0,1] \]

Định nghĩa 6.1 (Test statistic) Vùng phủ nhận thường có dạng \[ \begin{split} R_\psi &= \{X: T(X)\geq c\},\\ \psi &= \indicator{T(X)\geq c} \end{split} \] với \(T\)lượng kiểm định thống kê còn \(c\) là giá trị biên.

6.1.2 Mức độ lỗi

Kiểm định \(\psi\) là ở mức (significance level) \(\alpha\in(0,1)\) nếu có xác suất lỗi loại 1 không vượt quá \(\alpha:\) \[ \sup_{\theta\in\Theta_0} \beta_\psi(\theta) \leq\alpha . \]

Chuỗi kiểm định \((\psi_n)_{n=1,2,\ldots}\) được gọi là tiệm cận về mức \(\alpha\) nếu \[ \lim_{n\to\infty} \sup_{\theta\in\Theta_0} \beta_{\psi_n}(\theta) \leq\alpha . \]

Phương thức Neyman-Pearson chọn một mức \(\alpha\), đảm bảo xác suất lỗi loại 1 không vượt quá \(\alpha\) rồi tối thiểu hóa xác suất lỗi loại 2. Nói cách khác là giữ cho công suất \(\beta_\psi(\theta)\) đủ nhỏ khi \(\psi\in\Theta_0,\) rồi tối đại hóa công suất khi \(\psi\in\Theta_1.\)

6.1.3 p-value

Từ quan sát \(X_1, \ldots, X_n\) ta tính giá trị mức \(\alpha\) (tiệm cận) nhỏ nhất tại đó kiểm định \(\psi\) phủ nhận \(H_0,\) gọi nó là p-value (tiệm cận) của \(\psi.\) Nếu p-value càng nhỏ thì ta càng tự tin phủ nhận \(H_0.\)

\[ \textrm{p-value} \is \inf_{X_1, \ldots, X_n; \theta\in H_0}\beta_\psi(\theta) \]

p-value chứng cứ phủ nhận \(H_0\)
\(<0.1\%\) vô cùng mạnh
\(0.1\%\textemdash 1\%\) rất mạnh
\(1\%\textemdash 5\%\) mạnh
\(5\%\textemdash 10\%\) yếu
\(>10\%\) không có

6.1.4 Khoảng tin cậy

Thông thường ta có thể xây dựng được kiểm định từ khoảng tin cậy. Ví dụ, kiếm định tham số \(\theta\), \(H_0: \theta=\theta_0,\) đối \(H_1: \theta\neq\theta_0.\) Giả sử ta có khoảng tin cậy \(\mathcal{I}\) ở mức \(1-\alpha\), tức là \[\P_\theta(I\ni \theta)\geq 1-\alpha.\] Khi đó, \(\psi=\indicator{\theta_0\notin\mathcal{I}}\) là kiểm định mức \(\alpha\)

\[ \beta_\psi(\theta_0) = \P_{\theta_0}(\theta_0\notin I) \leq \alpha. \]

6.2 Kiểm định tham số

6.2.1 Wald Test

\(\hat{\theta}=\widehat{\theta_n^{MLE}}\) hội tụ về tham số thật \(\theta\in\R^d\) (ĐL 5.2):

\[ W \is \sqrt{n{I}(\hat{\theta})} \left(\hat{\theta}-\theta\right) \xrightarrow[n\to\infty]{(d)} Z\sim\Gaus{0,1}. \]

Giả thuyết Kiểm định Wald asymp. p-value
\(H_0: \theta=\theta_0, H_1: \theta\neq\theta_0\) \(\psi_\alpha=\indicator{|W|>q_{\alpha/2}}\) \(\P(|Z|>|W^{obs}|)\)
\(H_0: \theta\leq\theta_0, H_1: \theta>\theta_0\) \(\psi_\alpha=\indicator{W>q_\alpha}\) \(\P(Z>W^{obs})\)
\(H_0: \theta\geq\theta_0, H_1: \theta<\theta_0\) \(\psi_\alpha=\indicator{W<-q_\alpha}\) \(\P(Z<W^{obs})\)

Các kiểm định Wald trên có mức tiệm cận là \(\alpha,\) tức là \(\P_{H_0}(\psi_\alpha) \xrightarrow[n\to\infty]{} \alpha.\) Các p-value được tính từ \(W^{obs}\) là một quan sát đối với \(W.\)

6.2.2 Định lý Cochran

Định lý 6.1 Giả sử \(X_1,\ldots,X_n\iid\Gaus{\mu, \sigma^2}\) có phương sai mẫu không lệch (ĐN 1.22) là \(S_n^2.\) Khi đó \[ \frac{S_n^2}{\sigma^2} \sim \frac{\chi_{n-1}^2}{n-1} , \]

\(\bar{X}_n, S_n^2\) độc lập với nhau.

6.2.3 Student’s \(t\)-test

Giả sử \(X_1,\ldots,X_n\iid\Gaus{\mu, \sigma^2}\) theo phân phối chuẩn (ĐN 2.7), \(\mu,\sigma\) chưa biết, và cần kiểm định \(\mu.\) Theo ĐL 6.1, \[ T\is \frac{\bar{X}_n-\mu}{\sqrt{S_n^2/n}} \equiv \frac{\sqrt{n}{(\bar{X}_n-\mu)}{/\sigma}} {\sqrt{{S_n^2}{/\sigma^2}}} \sim t_{n-1} \] tuân theo phân phối Student’s T. Ta có thể xây dựng các kiểm định Student có mức \(\alpha,\) tức là \(\P_{H_0}(\psi_\alpha) \equiv \alpha.\)

Giả thuyết Kiểm định Student p-value
\(H_0: \mu=\mu_0, H_1: \mu\neq\mu_0\) \(\psi_\alpha=\indicator{|T| >q_{\alpha/2}^{t_{n-1}}}\) \(\P_{t_{n-1}}(|Z|>|T^{obs}|)\)
\(H_0: \mu\leq\mu_0, H_1: \mu>\mu_0\) \(\psi_\alpha=\indicator{T>q_\alpha^{t_{n-1}}}\) \(\P_{t_{n-1}}(Z>T^{obs})\)
\(H_0: \mu\geq\mu_0, H_1: \mu<\mu_0\) \(\psi_\alpha=\indicator{T<-q_\alpha^{t_{n-1}}}\) \(\P_{t_{n-1}}(Z<T^{obs})\)

Trong bảng trên, p-value được tính từ \(T^{obs}\) là một quan sát đối với \(T.\)

6.2.4 Two-sample \(t\)-test

Giả sử \(X_1,\ldots,X_n\iid\Gaus{\mu_x, \sigma_x^2},\) \(Y_1,\ldots,Y_m\iid\Gaus{\mu_y, \sigma_y^2},\) với \(\mu_x,\sigma_x, \mu_y,\sigma_y\) chưa biết, và cần kiểm định \(\mu_x-\mu_y.\) Đặt \[ \bar{X}_n\is\frac{\sum_{i=1}^{n}X_i}{n},\quad \widehat{\sigma_x^2}\is\frac{\sum_{i=1}^{n}(X_i-\bar{X}_n)^2}{n-1} , \] \[ \bar{Y}_m\is\frac{\sum_{i=1}^{m}Y_i}{m},\quad \widehat{\sigma_y^2}\is\frac{\sum_{i=1}^{m}(Y_i-\bar{Y}_m)^2}{m-1} .\] Ta có Student’s T (ĐN 2.11) với độ tự do \(N\) tuân theo công thức Welch-Satterthwaite: \[ \begin{split} &\frac{(\bar{X}_n-\bar{Y}_m)-(\mu_x-\mu_y)} {\sqrt{\widehat{\sigma_x^2}/n + \widehat{\sigma_y^2}/m}} \sim t_N,\\ N &= \frac{(\widehat{\sigma_x^2}/n + \widehat{\sigma_y^2}/m)^2} {{{\hat{\sigma}_x^4}/{\left(n^2(n-1)\right)} + {\hat{\sigma}_y^4}/{\left(m^2(m-1)\right)}}}\\ &\geq \min(n, m) \end{split} \] Đặt \(t\)-statistic \[ T_{n,m} \is \frac{\bar{X}_n-\bar{Y}_m} {\sqrt{\widehat{\sigma_x^2}/n + \widehat{\sigma_y^2}/m}} .\]

Giả thuyết Kiểm định 2 mẫu p-value
\(H_0: \mu_x=\mu_y, H_1: \mu_x\neq\mu_y\) \(\psi_\alpha=\indicator{|T| >q_{\alpha/2}^{t_{N}}}\) \(\P_{t_{N}}(|Z|>|T^{obs}|)\)
\(H_0: \mu_x\leq\mu_y, H_1: \mu_x>\mu_y\) \(\psi_\alpha=\indicator{T>q_\alpha^{t_{N}}}\) \(\P_{t_{N}}(Z>T^{obs})\)
\(H_0: \mu_x\geq\mu_y, H_1: \mu_x<\mu_y\) \(\psi_\alpha=\indicator{T<-q_\alpha^{t_{N}}}\) \(\P_{t_{N}}(Z<T^{obs})\)

6.2.5 Tỷ lệ hợp lý

Likelihood ratio test

Với dữ liệu \(X_1,\ldots,X_n\iid \P_\theta,\) để kiểm định \(H_0: \theta \in \Theta_0,\) \(H_1: \theta \notin \Theta_0,\) định lượng tỷ lệ hợp lý là \[ T_n \is 2\ln\frac{{L_n}(\hat{\theta})}{{L_n}(\hat{\theta}_0)} = 2({\ell_n}(\hat{\theta})-{\ell_n}(\hat{\theta}_0)) \geq 0 \] với \(L(\hat{\theta})\) là hợp lý cực đại tổng quát, còn \(L(\hat{\theta}_0)\) là hợp lý cực đại khi \(H_0\) đúng.

Định lý 6.2 (Định lý Wilks) Giả sử \(\theta=\left(\theta_1,\ldots,\theta_{q+r}\right) \in\Theta\subset\R^{q+r},\)

\[ \Theta_0=\left\{\theta\in\Theta: \left(\theta_{q+1},\ldots,\theta_{q+r}\right) = \left(\theta_{q+1}^{(0)},\ldots,\theta_{q+r}^{(0)}\right) \right\} \] với \(\left(\theta_{q+1}^{(0)},\ldots,\theta_r^{(0)}\right)\in\R^r\) là cố định. Nếu \(H_0\) đúng và các điều kiện hội tụ của MLE (ĐL 5.2) được thỏa mãn thì: \[ T_n\todist\chi_{r}^2. \]

6.2.6 Kiểm định nhiều lần

Gọi số lần thực hiện và quan sát kết quả kiểm định là \(t,\) mức độ lỗi loại 1 cho phép là \(\alpha.\) Nếu \(H_0\) là đúng thì lỗi loại 1 sẽ xuất hiện khoảng \(\alpha t\) lần, số lần này sẽ càng lớn nếu \(t\) càng lớn.

Gọi tỷ lệ p-value không vượt quá ngưỡng \(\alpha\)\(F(\alpha)\is\P(\textrm{p-value}\leq \alpha).\) Ta có \(F(\alpha)\leq \alpha\) với mọi loại kiểm định. Hơn nữa, \(F(\alpha)=\alpha\) với kiểm định Student’s T.

6.3 Kiểm định mô hình

6.3.1 Kiểm định \(\chi^2\)

Định lý 6.3 (Kiểm định \(\chi^2\)) Cho mô hình phân loại \[ \left( \left\{a_1,\ldots,a_K\right\}, \{\P_{\p}\}_{\p\in\Delta_K} \right) , \] với \(\Delta_K\is\left\{\p\in\R_+^K: \sum_{i=1}^K p_i=1\right\}.\) Đặt \(N_k = \sum_{i=1}^n \indicator{X_i=a_k}.\) Cố định \(\p^0\in\Delta_K\), kiểm định \(H_0: \p=\p^0\) vs \(H_1: \p\neq\p^0.\) Nếu \(H_0\) là đúng thì \[ T_n\is n\sum_{i=1}^K\frac{\left(\frac{N_i}{n}-p^0_i\right)^2}{p^0_i} \todist \chi_{K-1}^2 . \]

Định lý 6.4 (Kiểm định \(\chi^2\) cho hệ phân phối) Xem xét hệ phân phối rời rạc \(\P_\theta\) có pmf \(f_{\theta}\) với \(\theta\in\Theta\subset\R^d.\) Với dữ liệu \(X_1,\ldots,X_n\), gọi MLE của \(\theta\)\(\hat{\theta},\) ước lượng \(\hat{p}_i\is f_{\hat{\theta}}(a_i),\,i=1,\ldots,K.\) Kiểm định \(H_0: \theta\in\Theta\) vs \(H_1: \theta\notin\Theta.\) Nếu \(H_0\) là đúng thì

\[ T_n\is n\sum_{i=1}^K\frac{\left(\frac{N_i}{n}-\hat{p}_i\right)^2}{\hat{p}_i} \todist \chi_{K-d-1}^2 . \]

\(T_n\) không phải pivotal.

Hệ quả 6.1 (Kiểm định \(\chi^2\) cho phân phối liên tục) Đối với phân phối liên tục, ta có thể phân hoạch tập giá trị biến thành các khoảng (quantile) để chuyển thành phân phối rời rạc rồi áp dụng kiểm định \(\chi^2.\)

6.3.2 Kiểm định KS

Định nghĩa 6.2 (Kiểm định Kolmogorov-Smirnov) Gọi \(F_n\) là cdf thực nghiệm (ĐN 4.7), \(F\) là cdf thật (ĐN 1.2) của \(X_1,\ldots,X_n\iid X.\) Cho cdf liên tục \(F^0,\) kiểm định giả thuyết \(H_0: F=F^0\) v.s. \(H_1: F\neq F^0.\) Định lượng kiểm định \[ T_n\is\sup_{t\in\R}\sqrt{n}\left|F_n(t)-F^0(t)\right| \] là pivotal.

Theo định lý Donsker (ĐL 4.2), nếu \(H_0\) là đúng thì \(T_n\todist Z,\) với \(Z\) là phân bố của đỉnh tuyệt đối của Brownian bridge.

Vì các cdf đều tăng đơn điệu, cdf thực nghiệm có dạng bậc thang, ta có thể xếp \(X_1\leq\ldots\leq X_n\) từ nhỏ đến lớn để tính \(T_n\) dễ dàng hơn. \[ T_n\equiv \sqrt{n} \max_{i=1,\ldots,n} \left\{ \max \left\{ \left| \frac{i-1}{n} - F^0(X_i) \right|, \left| \frac{i}{n} - F^0(X_i) \right| \right\} \right\} . \]

6.3.3 Kiểm định KL

Định nghĩa 6.3 (Kolmogorov-Lilliefors test) Trong tiền đề của ĐN 6.2, nếu bỏ điều kiện \(F_0\) cố định, thay vào đó là kiểm chứng phân phối \(\P\) thuộc hệ phân phối chuẩn \(\{\Gaus{\mu, \sigma^2}.\) Gọi MLE là \(\hat{\mu},\hat{\sigma}^2\), định lượng kiểm định \[ T_n\is\sup_{t\in\R}\sqrt{n}\left|F_n(t)-\Phi_{\hat{\mu},\hat{\sigma}^2}(t)\right| \] là pivotal.