$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Betad#1{\text{Beta}\left(#1\right)} \def\Binom{\text{Binom}} \def\Geom{\text{Geom}} \def\Unif{\text{Unif}} \def\E#1{\mathbb{E}\left[#1\right]} \def\iid{\stackrel{iid}{\sim}} \def\is{\coloneqq} \def\Gauk#1#2{\mathcal{N}_{#1}\left(#2\right)} \def\Gaus#1{\Gauk{}{#1}} \def\indicator#1{\mathbb{1}\{#1\}} \def\tp{\intercal} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poiss{\text{Poiss}} \def\R{\mathbb{R}} \def\X{\vec{X}} \def\Y{\vec{Y}} \def\XX{\mathbb{X}} \def\V#1{\mathbb{V}\left(#1\right)} \def\Cov#1{\V{#1}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\toapd{\xrightarrow[n\to\infty]{\as/\P/(d)}} \def\toprob{\xrightarrow[n\to\infty]{\P}} \def\tosure{\xrightarrow[n\to\infty]{\as}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

8  Hồi quy

Hồi quy là phương pháp tìm quan hệ giữa nhập liệu và kết quả:

Giả sử cặp biến \((X, Y) \sim \P_{X,Y}\) có mật độ xác suất \(f(x,y),\) mật độ xác suất biên \(f(x)\) và mật độ xác suất có điều kiện \(f(y|x).\)

Định nghĩa 8.1 (Regression function) Hàm hồi quy là kỳ vọng về \(Y\) khi biết \(X:\) \[ x\mapsto r(x) \is \E{Y|X=x} = \int y f(y|x) dy .\]

Định nghĩa 8.2 (Conditional quantile) Cho \(\alpha\in[0,1],\) phân vị \(q_{\alpha}\) cho \(Y\) khi biết \(X=x:\) \[ x\mapsto q_{\alpha}(x) \textrm{ such that } \int_{-\infty}^{q_{\alpha}(x)} f(y|x) dy \equiv 1-\alpha .\] Đặt \(\alpha=1/2\) ta có conditional median.

8.1 Hồi quy tuyến tính

Định nghĩa 8.3 (Theoretical linear regression) Đường hồi quy tuyến tính áp \(Y\) lên \(X\)\(\hat{y} = r(x) = \beta_0 + \beta_1 x\) với hệ số (intercept và slope) là \[ (\beta_0, \beta_1) \is \argmin_{(a,b)\in\R^2} \E{(Y-a-b X)^2}. \]

Định nghĩa 8.4 (Noise) Nhiễu \(\epsilon\is Y-(\beta_0+\beta_1 X).\)

Định lý 8.1 Giả sử \(\V{X}>0,\) ta có: \[ \begin{split} \beta_0 &= \E{Y} - \beta_1\E{X},\\ \beta_1 &= \frac{\Cov{X,Y}}{\V{X}},\\ \E{\epsilon}&= 0, \Cov{X,\epsilon} = 0. \end{split} \]

8.1.1 LSE

Định nghĩa 8.5 (Least squares estimator, LSE) Quan sát \((X_i, Y_i)_{i=1,\ldots,n}\iid \P_{(X,Y)}.\) LSE là điểm cực tiểu của tổng bình phương độ lệch (residual sums of squares): \[ \begin{split} (\hat{a}, \hat{b}) &\is \argmin_{(\beta_0,\beta_1)\in\R^2} \sum_{i=1}^{n}\epsilon_i^2,\\ \epsilon_i&\is {(Y_i-\beta_0 X_i-\beta_1)}\quad i=1,\ldots,n. \end{split} \]

Remark. Lấy đạo hàm từng phần và giải hệ phương trình ta có \[ \begin{split} \hat{a} &= \frac{\overline{XY}-\bar{X}\bar{Y}}{\overline{X^2}-\bar{X}^2},\\ \hat{b} &= \bar{Y} - \hat{a}\bar{X}. \end{split} \]

8.2 Hồi quy đa biến

Định nghĩa 8.6 (Multivariate regression) Quan sát \((\X_i, Y_i), i=1,\ldots,n.\)

  • \(\X_i\in\R^p\): nhập liệu (input, features, explanatory variables, covariates, independent variables)
  • \(Y_i\in\R\): kết quả (output, response, explained variable, dependent variable)

Giả sử tọa độ đầu tiên của các \(\X_{i}\) đều là 1. Tìm tham số \(\vec{\beta}\in\R^p\) cho mô hình \[ Y = \X^\tp\vec{\beta} + \epsilon, \] Ta có \(n\) samples, \(p\) covariates: \[ Y_i = \X_i^\tp\vec{\beta} + \epsilon_i, i=1,\ldots,n, \]

trong đó \(\{\epsilon_i\}_{i=1,\ldots,n}\) là nhiễu.

8.2.1 LSE đa biến

Định nghĩa 8.7 (Least squares estimator, LSE in matrix form) Đặt

\[ \begin{split} \XX &\is \begin{pmatrix} \X_1^\tp\\ \vdots\\ \X_n^\tp\\ \end{pmatrix} \in\R^{n\times p},\\ \vec{\epsilon} &\is (\epsilon_1,\ldots,\epsilon_n)^\tp\in\R^n,\\ \vec{Y} &\is\begin{pmatrix} Y_1\\ \vdots\\ Y_n\\ \end{pmatrix} = \begin{pmatrix} \X_1^\tp\\ \vdots\\ \X_n^\tp\\ \end{pmatrix} \vec{\beta} + \vec{\epsilon} = \XX\vec{\beta} + \vec{\epsilon} . \\ \end{split} \]

Gọi \(\XX\)design matrix. Ta có \[ \begin{split} \textrm{LSE}\quad \hat{\vec{\beta}} &\is \argmin_{\vec{\beta}\in\R^p} \|\vec{Y} - \XX \vec{\beta}\|_2^2. \end{split} \]

Định lý 8.2 (Score equation) \[ (\XX^\tp\XX)\hat{\vec{\beta}} \equiv \XX^\tp\vec{Y}. \] Nếu \(\XX\) full rank thì \(\hat{\vec{\beta}} \equiv (\XX^\tp\XX)^{-1}\XX^\tp\vec{Y}.\)

Remark. Đặt \(P\is \XX(\XX^\tp\XX)^{-1}\XX^\tp\) ta có \(\hat{\vec{Y}}\is\XX\hat{\vec{\beta}} = P\vec{Y} \equiv P^2\vec{Y}\) là xạ ảnh của \(\vec{Y}\) lên không gian tuyến tính dựng trên các cột của \(\XX .\)

Remark. Giả định \(\XX\) là hằng số. Khi đó tính ngẫu nhiên của \(\vec{Y}\) tuân theo tính ngẫu nhiên của \(\vec{\epsilon}.\) Để suy luận thống kê ta thường giả định thêm \(\XX\) là full rank; \(\epsilon_1,\ldots\epsilon_n\)homoscedastic (iid).

Ví dụ 8.1 (Homoscedastic gaussian) Giả định \(\XX\) là hằng số, full rank, \(\epsilon_1,\ldots\epsilon_n\iid \Gaus{0,\sigma^2}.\) Khi đó LSE trùng với MLE.