$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Betad#1{\text{Beta}\left(#1\right)} \def\Binom{\text{Binom}} \def\Geom{\text{Geom}} \def\Unif{\text{Unif}} \def\E#1{\mathbb{E}\left[#1\right]} \def\iid{\stackrel{iid}{\sim}} \def\is{\coloneqq} \def\Gauk#1#2{\mathcal{N}_{#1}\left(#2\right)} \def\Gaus#1{\Gauk{}{#1}} \def\indicator#1{\mathbb{1}\{#1\}} \def\tp{\intercal} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poiss{\text{Poiss}} \def\R{\mathbb{R}} \def\X{\vec{X}} \def\Y{\vec{Y}} \def\XX{\mathbb{X}} \def\V#1{\mathbb{V}\left(#1\right)} \def\Cov#1{\V{#1}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\toapd{\xrightarrow[n\to\infty]{\as/\P/(d)}} \def\toprob{\xrightarrow[n\to\infty]{\P}} \def\tosure{\xrightarrow[n\to\infty]{\as}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

5  Ước lượng

Chiến lược ước lượng phân phối thật (true distribution)

Với mô hình thống kê \((E,(\P_\theta)_{\theta\in\Theta})\) xây dựng dựa trên quan sát iid rv \(X_1,\ldots,X_n\) trên tập mẫu \(E\) và bộ tham số \(\Theta\) . Ngầm định tồn tại tham số thật \(\theta^*\in\Theta\) để \(X_1\sim\P_{\theta^*}\) .

5.1 Tổng biến động

5.1.1 Khoảng cách

Định nghĩa 5.1 tổng biến động (total variation distance) giữa hai độ đo xác suất \(\P_\theta\)\(\P_\eta\)

\[ \TV(\P_\theta,\P_{\eta}) = \max_{A\subset E}{\mid\P_\theta(A)-\P_\eta(A)\mid}. \]

Định lý 5.1 (Công thức tính) Nếu tập mẫu \(E\) là rời rạc (discrete: countable or finite), xác suất \(\P_\theta,\P_{\eta}\) có hàm khối lần lượt là \(p_\theta,p_{\eta}\) thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \sum_{x\in E}\mid p_\theta(x) - p_\eta(x)\mid. \]

Nếu tập mẫu \(E\) là liên tục (continuous), xác suất \(\P_\theta, \P_{\eta}\) có mật độ lần lượt là \(f_{\theta}, f_{\eta}\) thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \int_{E}\mid f_{\theta}(x) - f_{\eta}(x)\mid dx. \]

5.2 Phân kỳ KL

5.2.1 Phân kỳ KL

Định nghĩa 5.2 (KL divergence) Ký hiệu \(f\) là mật độ hoặc hàm khối xác suất:

\[ \KL(\P_\theta, \P_\eta) \is \mathbb{E}_{\theta}\left[ \ln\frac{f_{\theta}(x)}{f_{\eta}(x)} \right] = \mathbb{E}_{\theta}\left[ \ln{f_{\theta}(x)} \right] - \mathbb{E}_{\theta}\left[ \ln{f_{\eta}(x)} \right] . \]

5.2.2 Đặc điểm

Proposition 5.1 Phân kỳ KL thỏa mãn 2/4 đặc điểm của “khoảng cách”:

  1. \(\KL(\P_\theta, \P_\eta) \geq 0\)
  2. \(\KL(\P_\theta, \P_\eta) \equiv 0 \iff \P_\theta \equiv \P_\eta\).

5.3 Hợp lý cực đại

Định nghĩa 5.3 (Likelihood) Độ hợp lý của tham số \(\theta\)\[L_n(x_1,\ldots,x_n; \theta)\is \P_\theta(X_1=x_1,\ldots,X_n=x_n) .\]

Định nghĩa 5.4 (Log likelihood) \[ \ell_n(x_1,\ldots,x_n)\is \ln L_\theta(x_1,\ldots,x_n; \theta) . \]

Định nghĩa 5.5 (Maximum Likelihood Estimator, MLE) Điểm hợp lý cực đại\[ \begin{split} \hat{\theta}_n \is\, &\argmax_\theta L_n(x_1,\ldots,x_n; \theta)\\ \equiv\, &\argmax_\theta \ell_n(x_1,\ldots,x_n; \theta) . \end{split} \]

5.3.1 MLE hội tụ

Định nghĩa 5.6 (Fisher information) Giả sử với \(n=1\) quan sát \(X\)\(\ell(\theta)\is\ln L_1(X;\theta), \theta\in\R.\) Giả sử \(\ell(\theta)\) có đạo hàm bậc hai. Dưới một số điều kiện chuẩn, thông tin Fisher của mô hình là

\[ I(\theta) \is \V{\frac{\partial\ell}{\partial\theta}} = \E{\left(\frac{\partial\ell}{\partial\theta}\right)^2} = -\E{\frac{\partial^2\ell}{\partial\theta^2}} . \]

Với \(\theta\is(\theta_1,\ldots,\theta_k)\in\R^k,\) đặt \(H_{ij} \is \frac{\partial^2\ell}{\partial\theta_i\partial\theta_j}:\) \[ \vec{I}(\theta) \is -\E{ \begin{pmatrix} H_{11} & \cdots & H_{1k} \\ \vdots & \ddots & \vdots \\ H_{k1} & \cdots & H_{kk} \\ \end{pmatrix} }. \]

Định lý 5.2 (MLE hội tụ) Gọi \(\theta^*\in\Theta\) là tham số thật cần tìm. Giả sử

  1. Các tham số là identifiable (ĐN 4.2)
  2. Support của \(\P_\theta\) không phụ thuộc vào \(\theta\) với mọi \(\theta\in\Theta\)
  3. \(\theta^*\) không nằm trên biên giới của \(\Theta\)
  4. Thông tin Fisher khả nghịch lân cận \(\theta^*\)
  5. Một số điều kiện kỹ thuật khác

Khi đó, chuỗi \(\hat{\theta}_n^{MLE}\) thỏa mãn:

\[\hat{\theta}_n^{MLE} \xrightarrow[n\to\infty]{\P_{\theta^*}}\theta^*\] \[\sqrt{n I(\theta^*)}\left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \Gaus{0,1}.\]

Trường hợp mô hình đa biến, \(\theta\in\R^k:\) \[{n \left(\hat{\theta}_n^{MLE}-\theta^*\right)^\tp \vec{I}(\theta^*)} \left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \chi_k^2.\]

Chú ý là điều kiện số 2 dễ bị vi phạm, ví dụ \(X_i\iid\Unif[0, \theta]\) mà lại cần tìm tham số \(\theta.\)

5.4 Mix model

Định nghĩa 5.7 Cho các mô hình gốc \(X^{(k)}, k= 1,\ldots,K,\) lấy biến tiềm ẩn \(Z\) trên \(\{1,\ldots,K\}\) làm trọng số, ta có mô hình hỗn hợp \[ X = \sum_{k=1}^K \P(Z=k) X^{(k)} . \]

5.4.1 Giải thuật EM

Định nghĩa 5.8 (Estimation Maximization) có thể tìm được tham số \(\theta\) của mô hình hỗn hợp ĐN 5.7.

Giả sử ta quan sát được \(X_1=x_1, \ldots, X_n=x_n\). Gọi các trọng số tiềm ẩn tương ứng là \(Z_1=z_1, \ldots, Z_n=z_n.\)

Sau khi khởi tạo \(\theta = \theta_0\) ngẫu nhiên, ta lặp lại 2 bước E, M như sau để cập nhật \(\theta_k, k=1,2,\ldots\) cho đến khi hội tụ.

  • Estimate: Ước lượng \(Z_i\approx\omega_i\is\E{Z|X_i=x_i, \theta=\theta_{k-1}}, i=1,\ldots,n.\)
  • Maximize: Thay \(Z_i\) bởi \(\omega_i\) vào công thức likelihood để tối ưu MLE \(\theta = \theta_k\)

5.5 M-estimation

Định nghĩa 5.9 (M-estimatior) Để ước lượng thuộc tính \(\mu^*\) của \(X\sim\P\), ta tìm một “hàm tổn thất” \(\rho(X,\mu)\) có kỳ vọng cực tiểu tại \(\mu^*:\) \[ \begin{split} \mathcal{Q}(\mu) &\is \E{\rho(X,\mu)} ,\\ {\mu}^* &\equiv\argmin_{\mu} \mathcal{Q}(\mu). \end{split} \]

Quan sát \(X_1,\ldots,X_n\iid\P,\) ta ước lượng \[ \mathcal{Q}(\mu) \approx \mathcal{Q}_n(\mu) \is \frac{1}{n} \sum_{i=1}^n{\rho(X_i,\mu)} .\]

Khi đó \(\mu^*\approx\hat{\mu}\) với “M-estimator” \(\hat{\mu}\)

\[ \hat{\mu} \is\argmin_{\mu} \mathcal{Q}_n(\mu) . \]

Ví dụ 5.1 Với \(\rho(x,\theta) = -\ln p_\theta(x)\) ta có MLE để ước lượng tham số \(\theta^*\) của mô hình \(\P.\)

Ví dụ 5.2 Với \(\vec x,\vec\mu\in\R^d\), dùng \(\rho(\vec x,\vec\mu) = \|\vec x-\vec\mu\|^2\) ta ước lượng được mean \(\vec\mu^*=\E{\vec x}.\)

Ví dụ 5.3 Có thể dùng M-estimation để ước lượng median và quantiles.

5.6 Method of moments

Định nghĩa 5.10 (Method of moments estimator) Để ước lượng \({\theta}\in\Theta\subset\R^d\)

  1. Từ quan sát \(X_1,\ldots,X_n\) tính tích suất mẫu (ĐN 1.18) \(\hat{m}_1,\ldots,\hat{m}_d\)
  2. Với \(m_i\) là tích suất bậc \(i\) (ĐN 1.16), tìm \(\hat{\theta}\in\R^d:\) \[ \begin{split} m_1(\hat{\theta}) &= \hat{m}_1, \\ m_2(\hat{\theta}) &= \hat{m}_2, \\ & \vdots \\ m_d(\hat{\theta}) &= \hat{m}_d . \end{split} \]

5.7 Biến đổi tham số

Với mô hình thống kê \((E,(\P_\theta)_{\theta\in\Theta}),\) giả sử MLE, method of moments hoặc M-estimation ước lượng được duy nhất một giá trị tham số tối ưu là \(\theta^*\in\Theta.\) Áp dụng biến đổi tham số \(\eta = \phi(\theta)\) (ĐL 1.2) lên các mô hình đó sẽ dẫn tới nghiệm tối ưu \(\eta^*\) thỏa mãn \(\eta^{*}\equiv\phi(\theta^*).\)