$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Bin{\text{Bin}} \def\Unif{\text{Unif}} \def\E{\mathbb{E}} \def\iid{\stackrel{iid}{\sim}} \def\is{:=} \def\Gaus{\mathcal{N}} \def\fone#1{\mathbb{1}\{#1\}} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poi{\text{Poi}} \def\R{\mathbb{R}} \def\V{\mathbb{V}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

5  Ước lượng

Chiến lược ước lượng phân phối thật (true distribution)

Với mô hình thống kê \((E,(\P_\theta)_{\theta\in\Theta})\) xây dựng dựa trên quan sát iid rv \(X_1,\ldots,X_n\) trên tập mẫu \(E\) và bộ tham số \(\Theta\) . Ngầm định tồn tại tham số thật \(\theta^*\in\Theta\) để \(X_1\sim\P_{\theta^*}\) .

5.1 Pivotal statistic

Một phân phối hay một ước lượng được gọi là pivotal nếu nó không phụ thuộc vào giá trị cụ thể của tham số thật.

5.2 Tổng biến động

5.2.1 Khoảng cách

Định nghĩa 5.1 tổng biến động (total variation distance) giữa hai độ đo xác suất \(\P_\theta\)\(\P_\eta\)

\[ \TV(\P_\theta,\P_{\eta}) = \max_{A\subset E}{\mid\P_\theta(A)-\P_\eta(A)\mid}. \]

Định lý 5.1 (Công thức tính) Nếu tập mẫu \(E\) là rời rạc (discrete: countable or finite), xác suất \(\P_\theta,\P_{\eta}\) có hàm khối lần lượt là \(p_\theta,p_{\eta}\) thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \sum_{x\in E}\mid p_\theta(x) - p_\eta(x)\mid. \]

Nếu tập mẫu \(E\) là liên tục (continuous), xác suất \(\P_\theta, \P_{\eta}\) có mật độ lần lượt là \(f_\theta, f_{\eta}\) thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \int_{E}\mid f_\theta(x) - f_\eta(x)\mid dx. \]

5.3 Phân kỳ KL

5.3.1 Phân kỳ KL

Định nghĩa 5.2 (KL divergence) Ký hiệu \(f\) là mật độ hoặc hàm khối xác suất:

\[ \KL(\P_\theta, \P_\eta) \is \E_\theta\left[ \ln\frac{f_\theta(x)}{f_\eta(x)} \right] = \E_\theta\left[ \ln{f_\theta(x)} \right] - \E_\theta\left[ \ln{f_\eta(x)} \right] . \]

5.3.2 Đặc điểm

Proposition 5.1 Phân kỳ KL thỏa mãn 2/4 đặc điểm của “khoảng cách”:

  1. \(\KL(\P_\theta, \P_\eta) \geq 0\)
  2. \(\KL(\P_\theta, \P_\eta) \equiv 0 \iff \P_\theta \equiv \P_\eta\).

5.4 Hợp lý cực đại

Định nghĩa 5.3 (Hợp lý, Likelihood) \[L_\theta(x_1,\ldots,x_n)\is \P_\theta(X_1=x_1,\ldots,X_n=x_n) = \prod_{i=1}^n p_\theta(X_i=x_i) .\]

Định nghĩa 5.4 (Log likelihood) \[ \ell_\theta(x_1,\ldots,x_n)\is \ln L_\theta(x_1,\ldots,x_n) = \sum_{i=1}^n \ln p_\theta(X_i=x_i) . \]

Định nghĩa 5.5 (Maximum Likelihood Estimator, MLE) \[ \hat{\theta}_n \is \argmax_\theta L_\theta(x_1,\ldots,x_n) \equiv \argmax_\theta \ell_\theta(x_1,\ldots,x_n) . \]

5.5 Mix model

Định nghĩa 5.6 Cho các mô hình gốc \(X^{(k)}, k= 1,\ldots,K,\) lấy biến tiềm ẩn \(Z\) trên \(\{1,\ldots,K\}\) làm trọng số, ta có mô hình hỗn hợp \[ X = \sum_{k=1}^K \P(Z=k) X^{(k)} . \]

5.5.1 Giải thuật EM

Định nghĩa 5.7 (Estimation Maximization) có thể tìm được tham số \(\theta\) của mô hình hỗn hợp ĐN 5.6.

Giả sử ta quan sát được \(X_1=x_1, \ldots, X_n=x_n\). Gọi các trọng số tiềm ẩn tương ứng là \(Z_1=z_1, \ldots, Z_n=z_n.\)

Sau khi khởi tạo \(\theta = \theta_0\) ngẫu nhiên, ta lặp lại 2 bước E, M như sau để cập nhật \(\theta_k, k=1,2,\ldots\) cho đến khi hội tụ.

  • Estimate: Ước lượng \(Z_i\approx\omega_i\is\E[Z|X_i=x_i, \theta=\theta_{k-1}], i=1,\ldots,n.\)
  • Maximize: Thay \(Z_i\) bởi \(\omega_i\) vào công thức likelihood để tối ưu MLE \(\theta = \theta_k\)

5.6 Chuẩn tính của MLE

Định nghĩa 5.8 Giả sử log likelihood đối với một quan sát \(X\) theo mô hình \(\theta\)\(\ell(\theta) = \ln L_1(X,\theta), \theta\in\Theta\subset\R.\) Giả sử \(\ell(\theta)\) có đạo hàm bậc hai. Dưới một số điều kiện chuẩn, thông tin Fisher của mô hình được định nghĩa là

\[ I(\theta) = \V[\ell^{\prime}(\theta)] = \E[(\ell^{\prime}(\theta))^2] = -\E[\ell^{\prime\prime}(\theta)] . \]

Định lý 5.2 Gọi \(\theta^*\in\Theta\) là tham số thật cần tìm. Giả sử

  1. Các tham số là indentifiable
  2. Support của \(\P_\theta\) không phụ thuộc vào \(\theta\) với mọi \(\theta\in\Theta\)
  3. \(\theta^*\) không nằm trên biên giới của \(\Theta\)
  4. Thông tin Fisher \(I(\theta)\neq 0\) xung quanh \(\theta^*\)
  5. Một số điều kiện kỹ thuật khác

Khi đó, chuỗi \(\hat{\theta}_n^{MLE}\) thỏa mãn:

\[\hat{\theta}_n^{MLE} \xrightarrow[n\to\infty]{\P_{\theta^*}}\theta^*\] \[\sqrt{n I(\theta^*)}\left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \Gaus(0, 1).\]

Chú ý là điều kiện số 2 dễ bị vi phạm, ví dụ \(X_i\iid\Unif[0, \theta]\) mà lại cần tìm tham số \(\theta.\)

5.7 M-estimatior

Định nghĩa 5.9 Với mục tiêu ước lượng thuộc tính \(\mu^*\) của xác suất \(\P(X)\), ta tìm một “hàm tổn thất” \(\rho(X,\mu)\) có giá trị kỳ vọng đạt cực tiểu tại \(\mu = \mu^*:\) \[ \mathcal{Q}(\mu) \is \E_{\P}[\rho(X,\mu)] . \]

Nếu quan sát được \(X_1,\ldots,X_n\iid\P(X),\) ta ước lượng \[ \mathcal{Q}(\mu) \approx \mathcal{Q}_n(\mu) \is \frac{1}{n} \sum_{i=1}^n{\rho(X_i,\mu)} .\]

Khi đó \(\mu^*\approx\hat{\mu}\) với “M-estimator” \(\hat{\mu}\)

\[ \hat{\mu} \is\argmin_{\mu} \mathcal{Q}_n(\mu) . \]

Ví dụ,

  • với \(\rho(x,\theta) = -\ln p_\theta(x)\) ta có MLE để ước lượng tham số \(\theta^*\) của mô hình \(\P\)
  • với \(\vec x,\vec\mu\in\R^d\), dùng \(\rho(\vec x,\vec\mu) = \|\vec x-\vec\mu\|^2\) ta ước lượng được \(\vec\mu^*=\E[\vec x].\)