$$ \def\argmax{\operatorname*{argmax}} \def\argmin{\operatorname*{argmin}} \def\as{\textrm{a.s.}} \def\Ber{\text{Ber}} \def\Betad#1{\text{Beta}\left(#1\right)} \def\Binom{\text{Binom}} \def\Geom{\text{Geom}} \def\Unif{\text{Unif}} \def\E#1{\mathbb{E}\left[#1\right]} \def\iid{\stackrel{iid}{\sim}} \def\is{\coloneqq} \def\Gauk#1#2{\mathcal{N}_{#1}\left(#2\right)} \def\Gaus#1{\Gauk{}{#1}} \def\indicator#1{\mathbb{1}\{#1\}} \def\tp{\intercal} \def\p{\vec{p}} \def\P{\mathbb{P}} \def\Poiss{\text{Poiss}} \def\R{\mathbb{R}} \def\X{\vec{X}} \def\Y{\vec{Y}} \def\XX{\mathbb{X}} \def\V#1{\mathbb{V}\left(#1\right)} \def\Cov#1{\V{#1}} \def\N{\mathbb{Z}_+} \def\TV{\textrm{TV}} \def\KL{\textrm{KL}} \def\vec#1{\boldsymbol{#1}} \def\toapd{\xrightarrow[n\to\infty]{\as/\P/(d)}} \def\toprob{\xrightarrow[n\to\infty]{\P}} \def\tosure{\xrightarrow[n\to\infty]{\as}} \def\todist{\xrightarrow[n\to\infty]{(d)}} $$

1  Xác suất

1.1 Sự kiện

Không gian \(\Omega\) là tập hợp chứa tất cả những hiện tượng \(\omega\) có thể xảy ra từ một thí nghiệm. Các tập con của \(\Omega\) là các sự kiện.

Ví dụ xem xét thí nghiệm tung một đồng xu đúng hai lần, quan sát đồng xu rớt xuống nằm ngửa (\(H\)) hay sấp (\(T\)), ta có \(\Omega = \{HH, HT, TH, TT\}\) bao gồm 4 kết quả có thể xảy ra. Sự kiện lần tung đầu tiên ra mặt ngửa của đồng xu là tập hợp \(\{HH, HT\}.\)

Cho một sự kiện \(A\subseteq\Omega\), ta nói \(A\) xảy ra, hoặc \(A\)đúng, nếu có một hiện tượng \(\omega\in A\) xảy ra. Sự kiện ngược lại với \(A\)\(A^c\is\Omega-A\is \{\omega\in\Omega: \omega\notin A\}\), tức là “không xảy ra \(A\)”. Theo định nghĩa, rõ ràng \(\Omega\) luôn luôn đúng, còn sự kiện rỗng \(\emptyset\equiv\Omega^c\) luôn luôn sai. Cho thêm sự kiện \(B\), ta có \(A\cup B\) là sự kiện “\(A\) hoặc \(B\) ít nhất một việc xảy ra”, còn \(AB\is A\cap B\) là sự kiện “\(A\) \(B\) đồng thời xảy ra”.

Chuỗi sự kiện \(A_1, A_2, \ldots\) được gọi là phân ly nếu \(A_i A_j\equiv\emptyset\) với mọi \(i\neq j\). Khi đó nếu \(A_1\cup A_2\cup\cdots\equiv C\) thì ta nói \(A_1, A_2, \ldots\) là một cách phân hoạch sự kiện \(C\).

1.2 Xác suất

Nếu một xạ ảnh \(\P\) từ không gian các sự kiện \(A\subseteq\Omega\) lên tập hợp số thực \(\R\) thỏa mãn các điều kiện:

  1. \(\P(A)\geq 0\quad\forall A\)
  2. \(\P(\Omega) = 1\)
  3. Nếu chuỗi \(A_1, A_2, \ldots\) phân hoạch \(C\) thì \(\P(A_1) + \P(A_2) + \cdots = \P(C)\)

thì ta gọi \(\P\) là một phân phối xác suất hoặc độ đo xác suất.

Có hai cách cắt nghĩa khái niệm xác suất là tần suất và niềm tin. Theo cách hiểu tần suất thì \(\P(A)\) chính là tỷ lệ số lần sự kiện \(A\) xảy ra nếu ta thực hiện thí nghiệm vô số lần. Còn theo cách hiểu niềm tin thì \(\P(A)\) là thước đo mức độ mà một quan sát viên tin tưởng rằng hiện tượng \(A\) sẽ xảy ra.

1.3 Tham số

Định nghĩa 1.1 (Biến ngẫu nhiên, random variable) là một quy tắc ánh xạ \(X: \Omega\to\R\) gán cho mỗi hiện tượng \(\omega\) trong không gian \(\Omega\) một số thực \(X(\omega).\)

Remark. Biến \(X\) không ngẫu nhiên thì được gọi là hằng số deterministic/constant.

Định nghĩa 1.2 (Hàm phân phối tích lũy, cumulative distribution function) là hàm tăng đơn điệu và liên tục bên phải \(F:\R\to[0,1], F(x)\is\P(X\leq x)\) với biến \(X:\Omega\to \R.\)

Định nghĩa 1.3 (Hàm khối xác suất, probability mass function) Với biến rời rạc \(X:\Omega\to D,\) \(D=\{x_1, x_2, \ldots\}\) đếm được, thì ta có thể gán xác suất \(\P(x_i) = p_i\geq 0,\forall i=1,2,\ldots\) sao cho \(\sum_i p_i \equiv 1.\)

Định nghĩa 1.4 (Hàm mật độ xác suất, probability density function) \(f(x) = F^\prime(x)\) với \(F(x)\is\P(X\leq x)\) là phân phối tích lũy của biến \(X:\Omega\to \R.\) Mật độ xác suất là không âm và có tích phân toàn phần bằng \(1.\)

Định nghĩa 1.5 (PDF of bivariate distributions) Với hai biến liên tục \((X,Y)\in\R^2\) ta gọi hàm không âm \(f(x,y)\) là mật độ xác suất đồng thời nếu:

\[\int\int_A f(x,y) dx dy \equiv \P((X,Y)\in A),\quad\forall A\subset\R^2 .\]

Mật độ xác suất biên và mật độ xác suất có điều kiện tương ứng là:

\[ \begin{split} f(x) &\is \int f(x,y) dy, \\ f(y|x) &\is \frac{f(x,y)}{f(x)}. \end{split} \]

Định lý 1.1 (Chuẩn hóa mật độ xác suất) Nếu có độ đo \(g(x)\geq 0,x\in\R\) khả tích toàn phần thì có mật độ xác suất \[f(x)\is\frac{g(x)}{\int_{\R}{g(x)dx}} \propto g(x).\]

Định lý 1.2 (Biến đổi tham số) Gỉả sử \(X\) là tham số có mật độ xác suất \(f_X\), hàm \(g:\R\to\R\) có vi phân \(>0\). Khi đó tham số \(Y=g(X)\) có mật độ xác suất là

\[f_Y(y) = \frac{f_X(g^{-1}(y))}{g^\prime(g^{-1}(y))} \quad \forall y\in g(\R) .\]

Proof. Xem “4.1.3 Functions of Continuous Random Variables”, Pishro-Nik (2014).

1.4 Xác suất đồng thời

Định nghĩa 1.6 (Xác suất hợp) Ký hiệu \(\P(A, B)\) hoặc \(\P(A\cap B)\) chỉ xác suất sự kiện \(A\) và sự kiện \(B\) đồng thời xảy ra.

Định nghĩa 1.7 (Độc lập) Hai sự kiện \(A\)\(B\) là độc lập nếu \(\P(A,B)\equiv \P(A)\P(B)\).

Hai biến \(X\)\(Y\) là độc lập nếu hai sự kiện \(X\leq x\)\(Y\leq y\) là độc lập đối với mọi \(x,y\).

Định nghĩa 1.8 (IID) Các biến ngẫu nhiên \(X_1, X_2, \ldotp\) được gọi là iid (“independent and identically distributed”, “độc lập và phân phối giống nhau”) nếu chúng cùng tuân theo duy nhất (identical) một phân phối xác suất, và từng cặp biến là độc lập (independent) với nhau. Dùng biến \(X\) để thể hiện phân phối xác suất chung đó, ta viết \[ X_1,\ldots,X_n \iid X. \]

Định nghĩa 1.9 (Xác suất có điều kiện) Ký hiệu \(\P(A|B)\) hoặc \(\P_B(A)\) chỉ xác suất của sự kiện \(A\), khi biết sự kiện \(B\) đã xảy ra,

\[ \P(A|B) = \frac{\P(A,B)}{\P(B)}. \]

Định lý 1.3 (Định lý Bayes) \[ \P(A|B) = \frac{\P(B|A)\P(A)}{\P(B)} = \frac{\P(B|A)\P(A)}{\P(B|A)\P(A) + \P(B|A^c)\P(A^c)} . \]

1.5 Đặc trưng

1.5.1 Phân vị

Định nghĩa 1.10 (Quantile) Biến \(X\) tuân theo phân phối tích lũy \(F\) có phân vị mức \(1-\alpha\)\(q_\alpha\is F^{-1}(1-\alpha).\)

Định nghĩa 1.11 (Quartile, median, mode) Ta gọi \(q_{3/4}, q_{1/2}, q_{1/4}\) là tứ phân vị đầu tiên (first quartile), trung vị (median), và tứ phân vị thứ ba. Gọi mode là giá trị biến số có xác suất cao nhất.

Remark. Nếu \(X\) liên tục thì median cực tiểu \(m\mapsto\E{|X-m|}.\)

1.5.2 Trung bình

Định nghĩa 1.12 (Mean, expected value) Trung bình, hay giá trị kỳ vọng của biến X là

\[ \E{X}\is \begin{cases} \displaystyle \sum_x x p(x) & \textrm{ nếu } X \textrm{ rời rạc}\\ \displaystyle \int x f(x) dx & \textrm{ nếu } X \textrm{ liên tục}. \end{cases} \] Nếu \(\E{|X|} < \infty\) ta nói là \(\E{X}\) “tồn tại” (well-defined).

Remark. \(\E{X+Y} \equiv \E{X} + E[Y].\)

Remark. Nếu \(X\) liên tục thì \(\E{X}\) cực tiểu \(m\mapsto\E{(X-m)^2}.\)

Định lý 1.4 (Iterated Expectations) Với các biến \(X,Y,\) giả sử các giá trị kỳ vọng tồn tại, ta có \[ \E{\E{Y|X}} \equiv \E{Y} .\]

1.5.3 Phương sai

Định nghĩa 1.13 (Hiệp phương sai) \[ \begin{split} \Cov{X,Y} &\is \E{(X-\E{X})(Y-\E{Y})} \\ &\equiv \E{XY} - \E{X}\E{Y} \end{split} \]

Nếu \(X\)\(Y\) độc lập thì \(\Cov{X,Y} = 0\).

Định nghĩa 1.14 (Phương sai) Phương sai, hay phân tán (variance) là \[ \V{X}\is\Cov{X,X}\equiv\E{X^2}-(\E{X})^2. \]

Remark. Nếu \(m\) là hằng số thì \(\V{X-m}\equiv\V{X}.\)

Remark. \(\V{X+Y} \equiv \V{X}+\V{Y} + 2\Cov{X,Y}.\)

Định nghĩa 1.15 (Covariance matrix) Cho \(n\) biến ngẫu nhiên \(X_1,\ldots,X_n\in\R,\) đặt \(\X\is (X_1,\ldots,X_n)^\tp\in\R^n,\) ma trận hiệp phương sai là

\[ \begin{split} \Sigma_{\X}&\is \E{(\X-\E{X})(\X-\E{X})^\tp}\\ &= \begin{pmatrix} \V{X_1} & \Cov{X_1,X_2} & \cdots & \Cov{X_1,X_n}\\ \Cov{X_2,X_1} & \V{X_2} & \cdots & \Cov{X_2,X_n}\\ \vdots &\vdots &\ddots &\vdots \\ \Cov{X_n,X_1} & \Cov{X_n,X_2} & \cdots & \V{X_n}\\ \end{pmatrix}. \end{split} \]

Remark. Nếu \(\Y=M\X\) thì \(\Sigma_{\Y} = M\Sigma_{\X}M^\tp.\)

1.5.4 Tích suất

Định nghĩa 1.16 (Tích suất) Tích suất (moment) thể hiện trọng tâm, độ phân tán, hay độ lệch của phân phối. Tích suất bậc \(n\) của biến \(X\) với mật độ \(f(x)\) là:

\[ \E{X^n}\is \int x^n f(x) dx \]

Định nghĩa 1.17 (Hàm tạo tích suất) “Moment generation function (MGF)” của biến \(X\)\[ \psi_X(t)\is\E{e^{tX}}, t\in\R. \]

Nếu MGF “tồn tại” lân cận \(0\) thì đạo hàm cấp \(k\) của \(\psi\) tại \(0\) chính là: \[ \psi_X^{(k)}(0)\equiv \E{X^k}. \]

1.5.5 Đặc trưng mẫu

Định nghĩa 1.18 (Sample moment) Quan sát \(X_1,\ldots X_n\iid X.\) Để ước lượng \(\E{X^k}\) ta có tích suất mẫu: \[ \hat{m}_k\is \frac{1}{n}\sum_{i=1}^n X_i^k,\quad k=1,2,\ldots. \]

Định nghĩa 1.19 (Sample mean) Trung bình mẫu là tích suất mẫu bậc 1: \[ \bar{X}_n \is\frac{1}{n}\sum_{i=1}^{n} X_i. \]

Định nghĩa 1.20 (Sample squares mean) Trung bình mẫu bình phương là tích suất mẫu bậc 2: \[ \overline{X_n^2} \is \frac{1}{n}{\sum_{i=1}^n X_i^2} .\]

Định nghĩa 1.21 (Sample variance) Phương sai mẫu là: \[ S_n^2 \is\frac{1}{n}{\sum_{i=1}^{n}(X_i-\bar{X}_n)^2} \equiv \overline{X_n^2}-\overline{X_n}^2 . \]

Định nghĩa 1.22 (Unbiased sample variance) Phương sai mẫu không lệch (ĐN 4.5) là \[ \tilde{S}_n^2 \is\frac{n}{n-1}{S_n}. \] Ta có \(\E{\tilde{S}_n^2}\equiv\V{X}.\)

Proof. Chương 1.3 - Unbiased Estimation, “STAT 415 Introduction to Mathematical Statistics” (2022).

Remark. Định lý Cochoran ĐL 6.1.