$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Betad#1{\text{Beta}\left(#1\right)} \def\Binom{\text{Binom}} \def\Geom{\text{Geom}} \def\Unif{\text{Unif}} \def\E#1{\mathbb{E}\left[#1\right]} \def\iid{\stackrel{iid}{\sim}} \def\is{\coloneqq} \def\Gauk#1#2{\mathcal{N}_{#1}\left(#2\right)} \def\Gaus#1{\Gauk{}{#1}} \def\indicator#1{\mathbb{1}\{#1\}} \def\tp{\intercal} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poiss{\text{Poiss}} \def\R{\mathbb{R}} \def\X{\vec{X}} \def\Y{\vec{Y}} \def\XX{\mathbb{X}} \def\V#1{\mathbb{V}\left(#1\right)} \def\Cov#1{\V{#1}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\toapd{\xrightarrow[n\to\infty]{\as/\P/(d)}} \def\toprob{\xrightarrow[n\to\infty]{\P}} \def\tosure{\xrightarrow[n\to\infty]{\as}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

5 Ước lượng

Chiến lược ước lượng phân phối thật (true distribution)

Định nghĩa khoảng cách giữa các phân phối (TV distance)
Ước lượng khoảng cách nêu trên (KL divergence)
Tìm điểm cực tiểu của ước lượng nêu trên (minimization).

Với mô hình thống kê $(E,(\P_\theta)_{\theta\in\Theta})$ xây dựng dựa trên quan sát iid rv $X_1,\ldots,X_n$ trên tập mẫu $E$ và bộ tham số $\Theta$ . Ngầm định tồn tại tham số thật $\theta^*\in\Theta$ để $X_1\sim\P_{\theta^*}$ .

5.1 Tổng biến động

5.1.1 Khoảng cách

Định nghĩa 5.1 tổng biến động (total variation distance) giữa hai độ đo xác suất $\P_\theta$ và $\P_\eta$ là

\[ \TV(\P_\theta,\P_{\eta}) = \max_{A\subset E}{\mid\P_\theta(A)-\P_\eta(A)\mid}. \]

Định lý 5.1 (Công thức tính) Nếu tập mẫu $E$ là rời rạc (discrete: countable or finite), xác suất $\P_\theta,\P_{\eta}$ có hàm khối lần lượt là $p_\theta,p_{\eta}$ thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \sum_{x\in E}\mid p_\theta(x) - p_\eta(x)\mid. \]

Nếu tập mẫu $E$ là liên tục (continuous), xác suất $\P_\theta, \P_{\eta}$ có mật độ lần lượt là $f_{\theta}, f_{\eta}$ thì \[ \TV(\P_\theta,\P_{\eta}) = \frac{1}{2} \int_{E}\mid f_{\theta}(x) - f_{\eta}(x)\mid dx. \]

5.2 Phân kỳ KL

5.2.1 Phân kỳ KL

Định nghĩa 5.2 (KL divergence) Ký hiệu $f$ là mật độ hoặc hàm khối xác suất:

\[ \KL(\P_\theta, \P_\eta) \is \mathbb{E}_{\theta}\left[ \ln\frac{f_{\theta}(x)}{f_{\eta}(x)} \right] = \mathbb{E}_{\theta}\left[ \ln{f_{\theta}(x)} \right] - \mathbb{E}_{\theta}\left[ \ln{f_{\eta}(x)} \right] . \]

5.2.2 Đặc điểm

Proposition 5.1 Phân kỳ KL thỏa mãn 2/4 đặc điểm của “khoảng cách”:

$\KL(\P_\theta, \P_\eta) \geq 0$
$\KL(\P_\theta, \P_\eta) \equiv 0 \iff \P_\theta \equiv \P_\eta$.

5.3 Hợp lý cực đại

Định nghĩa 5.3 (Likelihood) Độ hợp lý của tham số $\theta$ là \[L_n(x_1,\ldots,x_n; \theta)\is \P_\theta(X_1=x_1,\ldots,X_n=x_n) .\]

Định nghĩa 5.4 (Log likelihood) \[ \ell_n(x_1,\ldots,x_n)\is \ln L_\theta(x_1,\ldots,x_n; \theta) . \]

Định nghĩa 5.5 (Maximum Likelihood Estimator, MLE) Điểm hợp lý cực đại là \[ \begin{split} \hat{\theta}_n \is\, &\argmax_\theta L_n(x_1,\ldots,x_n; \theta)\\ \equiv\, &\argmax_\theta \ell_n(x_1,\ldots,x_n; \theta) . \end{split} \]

5.3.1 MLE hội tụ

Định nghĩa 5.6 (Fisher information) Giả sử với $n=1$ quan sát $X$ có $\ell(\theta)\is\ln L_1(X;\theta), \theta\in\R.$ Giả sử $\ell(\theta)$ có đạo hàm bậc hai. Dưới một số điều kiện chuẩn, thông tin Fisher của mô hình là

\[ I(\theta) \is \V{\frac{\partial\ell}{\partial\theta}} = \E{\left(\frac{\partial\ell}{\partial\theta}\right)^2} = -\E{\frac{\partial^2\ell}{\partial\theta^2}} . \]

Với $\theta\is(\theta_1,\ldots,\theta_k)\in\R^k,$ đặt $H_{ij} \is \frac{\partial^2\ell}{\partial\theta_i\partial\theta_j}:$ \[ \vec{I}(\theta) \is -\E{ \begin{pmatrix} H_{11} & \cdots & H_{1k} \\ \vdots & \ddots & \vdots \\ H_{k1} & \cdots & H_{kk} \\ \end{pmatrix} }. \]

Định lý 5.2 (MLE hội tụ) Gọi $\theta^*\in\Theta$ là tham số thật cần tìm. Giả sử

Các tham số là identifiable (ĐN 4.2)
Support của $\P_\theta$ không phụ thuộc vào $\theta$ với mọi $\theta\in\Theta$
$\theta^*$ không nằm trên biên giới của $\Theta$
Thông tin Fisher khả nghịch lân cận $\theta^*$
Một số điều kiện kỹ thuật khác

Khi đó, chuỗi $\hat{\theta}_n^{MLE}$ thỏa mãn:

\[\hat{\theta}_n^{MLE} \xrightarrow[n\to\infty]{\P_{\theta^*}}\theta^*\] \[\sqrt{n I(\theta^*)}\left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \Gaus{0,1}.\]

Trường hợp mô hình đa biến, $\theta\in\R^k:$ \[{n \left(\hat{\theta}_n^{MLE}-\theta^*\right)^\tp \vec{I}(\theta^*)} \left(\hat{\theta}_n^{MLE}-\theta^*\right) \xrightarrow[n\to\infty]{(d)\textrm{ w.r.t.}\P_{\theta^*}} \chi_k^2.\]

Chú ý là điều kiện số 2 dễ bị vi phạm, ví dụ $X_i\iid\Unif[0, \theta]$ mà lại cần tìm tham số $\theta.$

5.4 Mix model

Định nghĩa 5.7 Cho các mô hình gốc $X^{(k)}, k= 1,\ldots,K,$ lấy biến tiềm ẩn $Z$ trên $\{1,\ldots,K\}$ làm trọng số, ta có mô hình hỗn hợp \[ X = \sum_{k=1}^K \P(Z=k) X^{(k)} . \]

5.4.1 Giải thuật EM

Định nghĩa 5.8 (Estimation Maximization) có thể tìm được tham số $\theta$ của mô hình hỗn hợp ĐN 5.7.

Giả sử ta quan sát được $X_1=x_1, \ldots, X_n=x_n$. Gọi các trọng số tiềm ẩn tương ứng là $Z_1=z_1, \ldots, Z_n=z_n.$

Sau khi khởi tạo $\theta = \theta_0$ ngẫu nhiên, ta lặp lại 2 bước E, M như sau để cập nhật $\theta_k, k=1,2,\ldots$ cho đến khi hội tụ.

Estimate: Ước lượng $Z_i\approx\omega_i\is\E{Z|X_i=x_i, \theta=\theta_{k-1}}, i=1,\ldots,n.$
Maximize: Thay $Z_i$ bởi $\omega_i$ vào công thức likelihood để tối ưu MLE $\theta = \theta_k$

5.5 M-estimation

Định nghĩa 5.9 (M-estimatior) Để ước lượng thuộc tính $\mu^*$ của $X\sim\P$, ta tìm một “hàm tổn thất” $\rho(X,\mu)$ có kỳ vọng cực tiểu tại $\mu^*:$ \[ \begin{split} \mathcal{Q}(\mu) &\is \E{\rho(X,\mu)} ,\\ {\mu}^* &\equiv\argmin_{\mu} \mathcal{Q}(\mu). \end{split} \]

Quan sát $X_1,\ldots,X_n\iid\P,$ ta ước lượng \[ \mathcal{Q}(\mu) \approx \mathcal{Q}_n(\mu) \is \frac{1}{n} \sum_{i=1}^n{\rho(X_i,\mu)} .\]

Khi đó $\mu^*\approx\hat{\mu}$ với “M-estimator” $\hat{\mu}$ là

\[ \hat{\mu} \is\argmin_{\mu} \mathcal{Q}_n(\mu) . \]

Ví dụ 5.1 Với $\rho(x,\theta) = -\ln p_\theta(x)$ ta có MLE để ước lượng tham số $\theta^*$ của mô hình $\P.$

Ví dụ 5.2 Với $\vec x,\vec\mu\in\R^d$, dùng $\rho(\vec x,\vec\mu) = \|\vec x-\vec\mu\|^2$ ta ước lượng được mean $\vec\mu^*=\E{\vec x}.$

Ví dụ 5.3 Có thể dùng M-estimation để ước lượng median và quantiles.

5.6 Method of moments

Định nghĩa 5.10 (Method of moments estimator) Để ước lượng ${\theta}\in\Theta\subset\R^d$

Từ quan sát $X_1,\ldots,X_n$ tính tích suất mẫu (ĐN 1.18) $\hat{m}_1,\ldots,\hat{m}_d$
Với $m_i$ là tích suất bậc $i$ (ĐN 1.16), tìm $\hat{\theta}\in\R^d:$ \[ \begin{split} m_1(\hat{\theta}) &= \hat{m}_1, \\ m_2(\hat{\theta}) &= \hat{m}_2, \\ & \vdots \\ m_d(\hat{\theta}) &= \hat{m}_d . \end{split} \]

5.7 Biến đổi tham số

Với mô hình thống kê $(E,(\P_\theta)_{\theta\in\Theta}),$ giả sử MLE, method of moments hoặc M-estimation ước lượng được duy nhất một giá trị tham số tối ưu là $\theta^*\in\Theta.$ Áp dụng biến đổi tham số $\eta = \phi(\theta)$ (ĐL 1.2) lên các mô hình đó sẽ dẫn tới nghiệm tối ưu $\eta^*$ thỏa mãn $\eta^{*}\equiv\phi(\theta^*).$