4 Thống kê
4.1 Mô hình
Trên không gian đo được \(E\subseteq\R\) ta quan sát các mẫu \(X_1,\ldots,X_n\iid\P\). Với tập tham số \(\Theta\) ta xây dựng bộ độ đo xác suất \((\P_\theta)_{\theta\in\Theta}\) để mô phỏng \(\P\) .
Định nghĩa 4.1 (well specified) Nếu tồn tại \(\theta\in\Theta\) để \(\P_\theta\equiv\P\) thì ta nói mô hình hợp lệ.
Định nghĩa 4.2 (identifiable parameter) Nếu từ tập \(\Theta\), ánh xạ \(\theta\mapsto\P_{\theta}\) là đơn ánh thì ta nói \(\theta\) (hoặc \(\P_\theta\)) là có thể xác định.
Định nghĩa 4.3 (parametric model) Nếu \(\Theta\subseteq\R^d\) thì mô hình được nói có số biến hữu hạn.
4.2 Ước lượng
Thống kê lượng (statistic) \(\theta\) là bất cứ hàm số nào có thể đo được (measurable function) trên tập dữ liệu đối tượng \(X_i\).
Đánh giá (estimator) \(\theta_n\) đối với mục tiêu thống kê \(\theta\) là một thống kê khác không phụ thuộc vào \(\theta\).
Đánh giá được gọi là nhất quán (consistent) nếu nó hội tụ về mục tiêu (ĐN 3.2).
Định nghĩa 4.4 (Pivotal statistic) Một phân phối hay một ước lượng được gọi là pivotal nếu nó không phụ thuộc vào phân phối chưa biết và giá trị cụ thể của dữ liệu.
4.3 Sai số
Định nghĩa 4.5 (Độ lệch, bias) giữa đánh giá \(\theta_n\) với mục tiêu \(\theta\) là \[\textrm{bias}_{\theta}({\theta}_n) \is \E{\theta_n} - \theta.\] Nếu độ lệch bằng \(0\) ta nói đánh giá không lệch (unbiased).
Định nghĩa 4.6 (Sai số bậc 2, quadratic risk, mean squared error) giữa đánh giá \(\theta_n\) với mục tiêu \(\theta\) là \[ \textrm{MSE}(\theta_n)\is\E{(\theta_n-\theta)^2} \equiv \textrm{bias}_{\theta}(\theta_n)^2 + \V{\theta_n} \] bao hàm cả độ lệch và độ nhiễu của đánh giá.
4.4 Khoảng tin cậy
Với mô hình thống kê \((E,(\P_\theta)_{\theta\in\Theta})\) xây dựng dựa trên quan sát \(X_1,\ldots,X_n\), giả sử số \(\alpha\in(0,1).\) Khoảng tin cậy (confidence interval) cấp \(1-\alpha\) đối với \(\theta\) là một khoảng ngẫu nhiên \(\mathcal{I}\) (phụ thuộc vào \(X_1,\ldots,X_n\), không phụ thuộc vào \(\theta\)), mà xác suất \(\mathcal{I}\) có chứa \(\theta\) là đủ cao: \[\P_\theta[\mathcal{I}\ni\theta]\geq 1-\alpha,\quad\forall\theta\in\Theta.\]
Nếu \[\lim_{n\to\infty}\P_\theta[\mathcal{I}\ni\theta]\geq 1-\alpha,\quad\forall\theta\in\Theta\] thì ta gọi \(\mathcal{I}\) là khoảng tin cậy tiệm cận cấp \(1-\alpha\) đối với \(\theta\).
4.5 Định lý cơ bản
Định nghĩa 4.7 (Empirical cdf) Với \(X_1,\ldots,X_n\iid X,\) ước lượng phân phối tích lũy (ĐN 1.2) của \(X\) là hàm tăng đơn điệu và liên tục bên phải \[ F_n:\R\to[0,1], F_n(t)\is \frac{1}{n} \sum_{i=1}^n\indicator{X_i\leq t}, \] tức là tỷ lệ số biến \(X_i\leq t.\)
Nếu xếp \(X_1\leq\ldots\leq X_n<X_{n+1}=\infty\) từ nhỏ đến lớn thì ta có \[ F(t) = \frac{i}{n} \, \textrm{ for } t\in[X_{i}, X_{i+1}) \quad\forall i=1,\ldots,n .\]
Áp dụng LLN lên biến \(\indicator{X<t}\) ta có \(F_n(t)\tosure F(t)\,\forall t\in\R.\)
Định lý 4.1 (Glivenko-Cantelli, Fundamental Theorem of Statistics) \(F_n\) hội tụ đồng đều (converge uniformly) lên \(F.\) \[ \sup_{t\in\R}|F_n(t)-F(t)| \tosure 0 .\] Nói cách khác \(\forall\delta>0,\forall\epsilon>0:\exists N:\) \[ n>N \implies \P\left( \sup_{t\in\R}|F_n(t)-F(t)| < \delta \right) \geq 1-\epsilon . \]
Định lý 4.2 (Donsker’s theorem) Nếu cdf \(F\) thật là liên tục thì
\[ \sqrt{n}\sup_{t\in\R} |F_n(t)-F(t)| \todist Z\sim \sup_{0\leq x \leq 1}|B(x)| ,\] với \(Z\) là phân phối của đỉnh giá trị tuyệt đối của Brownian bridge, và là phân phối pivotal(ĐN 4.4).