8 Hồi quy
Hồi quy là phương pháp tìm quan hệ giữa nhập liệu và kết quả:
- \(X\): nhập liệu (input, features, explanatory variables, covariates, independent variables)
- \(Y\): kết quả (output, response, explained variable, dependent variable)
Giả sử cặp biến \((X, Y) \sim \P_{X,Y}\) có mật độ xác suất \(f(x,y),\) mật độ xác suất biên \(f(x)\) và mật độ xác suất có điều kiện \(f(y|x).\)
Định nghĩa 8.1 (Regression function) Hàm hồi quy là kỳ vọng về \(Y\) khi biết \(X:\) \[ x\mapsto r(x) \is \E{Y|X=x} = \int y f(y|x) dy .\]
Định nghĩa 8.2 (Conditional quantile) Cho \(\alpha\in[0,1],\) phân vị \(q_{\alpha}\) cho \(Y\) khi biết \(X=x:\) \[ x\mapsto q_{\alpha}(x) \textrm{ such that } \int_{-\infty}^{q_{\alpha}(x)} f(y|x) dy \equiv 1-\alpha .\] Đặt \(\alpha=1/2\) ta có conditional median.
8.1 Hồi quy tuyến tính
Định nghĩa 8.3 (Theoretical linear regression) Đường hồi quy tuyến tính áp \(Y\) lên \(X\) là \(\hat{y} = r(x) = \beta_0 + \beta_1 x\) với hệ số (intercept và slope) là \[ (\beta_0, \beta_1) \is \argmin_{(a,b)\in\R^2} \E{(Y-a-b X)^2}. \]
Định nghĩa 8.4 (Noise) Nhiễu \(\epsilon\is Y-(\beta_0+\beta_1 X).\)
Định lý 8.1 Giả sử \(\V{X}>0,\) ta có: \[ \begin{split} \beta_0 &= \E{Y} - \beta_1\E{X},\\ \beta_1 &= \frac{\Cov{X,Y}}{\V{X}},\\ \E{\epsilon}&= 0, \Cov{X,\epsilon} = 0. \end{split} \]
8.1.1 LSE
Định nghĩa 8.5 (Least squares estimator, LSE) Quan sát \((X_i, Y_i)_{i=1,\ldots,n}\iid \P_{(X,Y)}.\) LSE là điểm cực tiểu của tổng bình phương độ lệch (residual sums of squares): \[ \begin{split} (\hat{a}, \hat{b}) &\is \argmin_{(\beta_0,\beta_1)\in\R^2} \sum_{i=1}^{n}\epsilon_i^2,\\ \epsilon_i&\is {(Y_i-\beta_0 X_i-\beta_1)}\quad i=1,\ldots,n. \end{split} \]
Remark. Lấy đạo hàm từng phần và giải hệ phương trình ta có \[ \begin{split} \hat{a} &= \frac{\overline{XY}-\bar{X}\bar{Y}}{\overline{X^2}-\bar{X}^2},\\ \hat{b} &= \bar{Y} - \hat{a}\bar{X}. \end{split} \]
8.2 Hồi quy đa biến
Định nghĩa 8.6 (Multivariate regression) Quan sát \((\X_i, Y_i), i=1,\ldots,n.\)
- \(\X_i\in\R^p\): nhập liệu (input, features, explanatory variables, covariates, independent variables)
- \(Y_i\in\R\): kết quả (output, response, explained variable, dependent variable)
Giả sử tọa độ đầu tiên của các \(\X_{i}\) đều là 1. Tìm tham số \(\vec{\beta}\in\R^p\) cho mô hình \[ Y = \X^\tp\vec{\beta} + \epsilon, \] Ta có \(n\) samples, \(p\) covariates: \[ Y_i = \X_i^\tp\vec{\beta} + \epsilon_i, i=1,\ldots,n, \]
trong đó \(\{\epsilon_i\}_{i=1,\ldots,n}\) là nhiễu.
8.2.1 LSE đa biến
Định nghĩa 8.7 (Least squares estimator, LSE in matrix form) Đặt
\[ \begin{split} \XX &\is \begin{pmatrix} \X_1^\tp\\ \vdots\\ \X_n^\tp\\ \end{pmatrix} \in\R^{n\times p},\\ \vec{\epsilon} &\is (\epsilon_1,\ldots,\epsilon_n)^\tp\in\R^n,\\ \vec{Y} &\is\begin{pmatrix} Y_1\\ \vdots\\ Y_n\\ \end{pmatrix} = \begin{pmatrix} \X_1^\tp\\ \vdots\\ \X_n^\tp\\ \end{pmatrix} \vec{\beta} + \vec{\epsilon} = \XX\vec{\beta} + \vec{\epsilon} . \\ \end{split} \]
Gọi \(\XX\) là design matrix. Ta có \[ \begin{split} \textrm{LSE}\quad \hat{\vec{\beta}} &\is \argmin_{\vec{\beta}\in\R^p} \|\vec{Y} - \XX \vec{\beta}\|_2^2. \end{split} \]
Định lý 8.2 (Score equation) \[ (\XX^\tp\XX)\hat{\vec{\beta}} \equiv \XX^\tp\vec{Y}. \] Nếu \(\XX\) full rank thì \(\hat{\vec{\beta}} \equiv (\XX^\tp\XX)^{-1}\XX^\tp\vec{Y}.\)
Remark. Đặt \(P\is \XX(\XX^\tp\XX)^{-1}\XX^\tp\) ta có \(\hat{\vec{Y}}\is\XX\hat{\vec{\beta}} = P\vec{Y} \equiv P^2\vec{Y}\) là xạ ảnh của \(\vec{Y}\) lên không gian tuyến tính dựng trên các cột của \(\XX .\)
Remark. Giả định \(\XX\) là hằng số. Khi đó tính ngẫu nhiên của \(\vec{Y}\) tuân theo tính ngẫu nhiên của \(\vec{\epsilon}.\) Để suy luận thống kê ta thường giả định thêm \(\XX\) là full rank; \(\epsilon_1,\ldots\epsilon_n\) là homoscedastic (iid).
Ví dụ 8.1 (Homoscedastic gaussian) Giả định \(\XX\) là hằng số, full rank, \(\epsilon_1,\ldots\epsilon_n\iid \Gaus{0,\sigma^2}.\) Khi đó LSE trùng với MLE.