5 Ước lượng
Chiến lược ước lượng phân phối thật (true distribution)
- Định nghĩa khoảng cách giữa các phân phối (TV distance)
- Ước lượng khoảng cách nêu trên (KL divergence)
- Tìm điểm cực tiểu của ước lượng nêu trên (minimization).
Với mô hình thống kê \((E,(\P_\theta)_{\theta\in\Theta})\) xây dựng dựa trên quan sát iid rv \(X_1,\ldots,X_n\) trên tập mẫu \(E\) và bộ tham số \(\Theta\) . Ngầm định tồn tại tham số thật \(\theta^*\in\Theta\) để \(X_1\sim\P_{\theta^*}\) .
5.1 Tổng biến động
5.1.1 Khoảng cách
Định nghĩa 5.1 tổng biến động (total variation distance) giữa hai độ đo xác suất \(\P_\theta\) và \(\P_\eta\) là
\[ \TV(\P_\theta,\P_{\eta}) = \max_{A\subset E}{\mid\P_\theta(A)-\P_\eta(A)\mid}. \]
Định lý 5.1 (Công thức tính) Nếu tập mẫu \(E\) là rời rạc (discrete: countable or finite), xác suất \(\P_\theta,\P_{\eta}\) có hàm khối lần lượt là \(p_\theta,p_{\eta}\) thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \sum_{x\in E}\mid p_\theta(x) - p_\eta(x)\mid. \]
Nếu tập mẫu \(E\) là liên tục (continuous), xác suất \(\P_\theta, \P_{\eta}\) có mật độ lần lượt là \(f_{\theta}, f_{\eta}\) thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \int_{E}\mid f_{\theta}(x) - f_{\eta}(x)\mid dx. \]
5.2 Phân kỳ KL
5.2.1 Phân kỳ KL
Định nghĩa 5.2 (KL divergence) Ký hiệu \(f\) là mật độ hoặc hàm khối xác suất:
\[ \KL(\P_\theta, \P_\eta) \is \mathbb{E}_{\theta}\left[ \ln\frac{f_{\theta}(x)}{f_{\eta}(x)} \right] = \mathbb{E}_{\theta}\left[ \ln{f_{\theta}(x)} \right] - \mathbb{E}_{\theta}\left[ \ln{f_{\eta}(x)} \right] . \]
5.2.2 Đặc điểm
Proposition 5.1 Phân kỳ KL thỏa mãn 2/4 đặc điểm của “khoảng cách”:
- \(\KL(\P_\theta, \P_\eta) \geq 0\)
- \(\KL(\P_\theta, \P_\eta) \equiv 0 \iff \P_\theta \equiv \P_\eta\).
5.3 Hợp lý cực đại
Định nghĩa 5.3 (Likelihood) Độ hợp lý của tham số \(\theta\) là \[L_n(x_1,\ldots,x_n; \theta)\is \P_\theta(X_1=x_1,\ldots,X_n=x_n) .\]
Định nghĩa 5.4 (Log likelihood) \[ \ell_n(x_1,\ldots,x_n)\is \ln L_\theta(x_1,\ldots,x_n; \theta) . \]
Định nghĩa 5.5 (Maximum Likelihood Estimator, MLE) Điểm hợp lý cực đại là \[ \begin{split} \hat{\theta}_n \is\, &\argmax_\theta L_n(x_1,\ldots,x_n; \theta)\\ \equiv\, &\argmax_\theta \ell_n(x_1,\ldots,x_n; \theta) . \end{split} \]
5.3.1 MLE hội tụ
Định nghĩa 5.6 (Fisher information) Giả sử với \(n=1\) quan sát \(X\) có \(\ell(\theta)\is\ln L_1(X;\theta), \theta\in\R.\) Giả sử \(\ell(\theta)\) có đạo hàm bậc hai. Dưới một số điều kiện chuẩn, thông tin Fisher của mô hình là
\[ I(\theta) \is \V{\frac{\partial\ell}{\partial\theta}} = \E{\left(\frac{\partial\ell}{\partial\theta}\right)^2} = -\E{\frac{\partial^2\ell}{\partial\theta^2}} . \]
Với \(\theta\is(\theta_1,\ldots,\theta_k)\in\R^k,\) đặt \(H_{ij} \is \frac{\partial^2\ell}{\partial\theta_i\partial\theta_j}:\) \[ \vec{I}(\theta) \is -\E{ \begin{pmatrix} H_{11} & \cdots & H_{1k} \\ \vdots & \ddots & \vdots \\ H_{k1} & \cdots & H_{kk} \\ \end{pmatrix} }. \]
Định lý 5.2 (MLE hội tụ) Gọi \(\theta^*\in\Theta\) là tham số thật cần tìm. Giả sử
- Các tham số là identifiable (ĐN 4.2)
- Support của \(\P_\theta\) không phụ thuộc vào \(\theta\) với mọi \(\theta\in\Theta\)
- \(\theta^*\) không nằm trên biên giới của \(\Theta\)
- Thông tin Fisher khả nghịch lân cận \(\theta^*\)
- Một số điều kiện kỹ thuật khác
Khi đó, chuỗi \(\hat{\theta}_n^{MLE}\) thỏa mãn:
\[\hat{\theta}_n^{MLE} \xrightarrow[n\to\infty]{\P_{\theta^*}}\theta^*\] \[\sqrt{n I(\theta^*)}\left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \Gaus{0,1}.\]
Trường hợp mô hình đa biến, \(\theta\in\R^k:\) \[{n \left(\hat{\theta}_n^{MLE}-\theta^*\right)^\tp \vec{I}(\theta^*)} \left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \chi_k^2.\]
Chú ý là điều kiện số 2 dễ bị vi phạm, ví dụ \(X_i\iid\Unif[0, \theta]\) mà lại cần tìm tham số \(\theta.\)
5.4 Mix model
Định nghĩa 5.7 Cho các mô hình gốc \(X^{(k)}, k= 1,\ldots,K,\) lấy biến tiềm ẩn \(Z\) trên \(\{1,\ldots,K\}\) làm trọng số, ta có mô hình hỗn hợp \[ X = \sum_{k=1}^K \P(Z=k) X^{(k)} . \]
5.4.1 Giải thuật EM
Định nghĩa 5.8 (Estimation Maximization) có thể tìm được tham số \(\theta\) của mô hình hỗn hợp ĐN 5.7.
Giả sử ta quan sát được \(X_1=x_1, \ldots, X_n=x_n\). Gọi các trọng số tiềm ẩn tương ứng là \(Z_1=z_1, \ldots, Z_n=z_n.\)
Sau khi khởi tạo \(\theta = \theta_0\) ngẫu nhiên, ta lặp lại 2 bước E, M như sau để cập nhật \(\theta_k, k=1,2,\ldots\) cho đến khi hội tụ.
- Estimate: Ước lượng \(Z_i\approx\omega_i\is\E{Z|X_i=x_i, \theta=\theta_{k-1}}, i=1,\ldots,n.\)
- Maximize: Thay \(Z_i\) bởi \(\omega_i\) vào công thức likelihood để tối ưu MLE \(\theta = \theta_k\)
5.5 M-estimation
Định nghĩa 5.9 (M-estimatior) Để ước lượng thuộc tính \(\mu^*\) của \(X\sim\P\), ta tìm một “hàm tổn thất” \(\rho(X,\mu)\) có kỳ vọng cực tiểu tại \(\mu^*:\) \[ \begin{split} \mathcal{Q}(\mu) &\is \E{\rho(X,\mu)} ,\\ {\mu}^* &\equiv\argmin_{\mu} \mathcal{Q}(\mu). \end{split} \]
Quan sát \(X_1,\ldots,X_n\iid\P,\) ta ước lượng \[ \mathcal{Q}(\mu) \approx \mathcal{Q}_n(\mu) \is \frac{1}{n} \sum_{i=1}^n{\rho(X_i,\mu)} .\]
Khi đó \(\mu^*\approx\hat{\mu}\) với “M-estimator” \(\hat{\mu}\) là
\[ \hat{\mu} \is\argmin_{\mu} \mathcal{Q}_n(\mu) . \]
Ví dụ 5.1 Với \(\rho(x,\theta) = -\ln p_\theta(x)\) ta có MLE để ước lượng tham số \(\theta^*\) của mô hình \(\P.\)
Ví dụ 5.2 Với \(\vec x,\vec\mu\in\R^d\), dùng \(\rho(\vec x,\vec\mu) = \|\vec x-\vec\mu\|^2\) ta ước lượng được mean \(\vec\mu^*=\E{\vec x}.\)
Ví dụ 5.3 Có thể dùng M-estimation để ước lượng median và quantiles.
5.6 Method of moments
Định nghĩa 5.10 (Method of moments estimator) Để ước lượng \({\theta}\in\Theta\subset\R^d\)
- Từ quan sát \(X_1,\ldots,X_n\) tính tích suất mẫu (ĐN 1.18) \(\hat{m}_1,\ldots,\hat{m}_d\)
- Với \(m_i\) là tích suất bậc \(i\) (ĐN 1.16), tìm \(\hat{\theta}\in\R^d:\) \[ \begin{split} m_1(\hat{\theta}) &= \hat{m}_1, \\ m_2(\hat{\theta}) &= \hat{m}_2, \\ & \vdots \\ m_d(\hat{\theta}) &= \hat{m}_d . \end{split} \]
5.7 Biến đổi tham số
Với mô hình thống kê \((E,(\P_\theta)_{\theta\in\Theta}),\) giả sử MLE, method of moments hoặc M-estimation ước lượng được duy nhất một giá trị tham số tối ưu là \(\theta^*\in\Theta.\) Áp dụng biến đổi tham số \(\eta = \phi(\theta)\) (ĐL 1.2) lên các mô hình đó sẽ dẫn tới nghiệm tối ưu \(\eta^*\) thỏa mãn \(\eta^{*}\equiv\phi(\theta^*).\)