Xác suất thống kê 1 – Các khái niệm cơ bản

Xác suất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích dữ liệu. Bài viết này là ghi chép của tôi về các kiến thức, khái niệm cơ bản nhất về xác suất thống kê, từ đó có thể giúp người đọc tiếp cận và xem lại các kiến thức cho bộ môn này.

Xác suất, xác suất có điều kiện, công thức Bayes

1. Phép thử, sự kiện, không gian mẫu

Khái niệm

  • Phép thử ngẫu nhiên là một chuỗi các phương thức thực hiện và quan sát một thí nghiệm nào đó cho chúng ta kết quả mà ta không thể dự đoán trước được.

  • Sự kiện sơ cấp là kết quả quan sát được đơn giản nhất không thể tách nhỏ hơn của một phép thử.

  • Không gian mẫu ($S$) là tập hợp tất cả các sự kiện sơ cấp của một phép thử và xung khắc với nhau, ký hiệu S.

  • Tập con bất kỳ của không gian mẫu được gọi là sự kiện.

Tính chất

  • Không gian mẫu $\Omega$ là một tập hợp, sự kiện là tập con của $\Omega$ nên các mỗi quan hệ (tập con, tương đương) và các phép toán (hợp, giao, phần bù, trừ) cũng tương tự như ký thuyết tập hợp.

  • Tính xung khắc: $ A_{1}, \dots , A_{n} $ được gọi là xung khắc nếu $ A_{i} \cap A_{j} = \emptyset, \forall i \ne j$.

  • Tính đầy đủ: $ A_{1}, \dots , A_{n} $ được gọi là đầy đủ nếu $ A_{i} \cup \dots \cup A_{n} = S $.

  • Không gian các sự kiện: $ A_{1}, \dots , A_{n} $ được gọi là một không gian các dự kiện nếu nó vừa xung khắc, vừa đầy đủ.

2. Xác suất

Khái niệm, tính chất

Xác suất của một phép thử là một ánh xạ $ P(.) $ từ không gian mẫu vào tập số thực thoả mãn:

    1. Với mọi sự kiện $A$ thì $P(A) \geq 0$.
    1. $P(\Omega) = 1$.
    1. Cho $ A_{1}, A_{2},\dots $ xung khắc thì:

$$
P(A_{1} \cup A_{2} \dots) = P(A_{1}) + P(A_{2}) + \dots
$$

Từ 3 tiên đề trên, ta có các tính chất:

    1. $P(\emptyset) = 0$
    1. $A, B$ xung khắc thì $P(A \cup B) = P(A) + P(B)$.
    1. $A, B$ bất kỳ $P(A \cup B) = P(A) + P(B) – P(A \cap B) $.

Định nghĩa xác suất cổ điển

Xác suất cổ điển được xây dựng trên các không gian mẫu hữu hạn và đồng khả năng $\Omega = {w_1, w_2, \dots, w_n}$.

Vì các sự kiện có đồng khả năng xảy ra nên $P(w_1) = P(w_2) = \dots = P(w_n)$.

Do $1 = P(\Omega) = P({w_1}) + P({w_2}) + \dots + P({w_n}) = nP({w_1})$ nên $P({w_i}) = \frac{1}{n}, \forall i = \overline{1,n}$.

A là một sự kiện thì $P(A) = \frac{\#A}{\#\Omega}$.

Xác suất có điều kiện

Một phép thử nếu biết sự kiện $B, P(P) \ne 0$ đã xảy ra thì xác suất sự kiện A xảy ra là xác suất có điều kiện $P(A|B)$ được xác định bởi công thức:

$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$

  • Công thức nhân:

$$
P(A \cap B) = P(B).P(A|B) = P(A).P(B|A)
$$

  • Hai sự kiện được gọi là độc lập nếu và chỉ nếu:

$$
P(A \cap B) = P(A).P(B)
$$

3. Công thức Bayes

Xác suất toàn phần

$$
\sum_{i=1}^n(P(A_i.P(B|A_i)))
$$

Công thức Bayes

Công thức Bayes cho 2 sự kiện $A$, $B$

Cho hai sự kiện $A, B$ và $P(A), P(B)$ là hai xác suất được quan sát độc lập với nhau.

  • $P(A)$ được gọi là xác suất tiên nghiệm (Prior).
  • $P(B)$ được gọi là xác suất hậu nghiệm (Evidence).
  • $P(B) = P(B|A) \times P(A) + P(B|\bar{A}) \times P(\bar{A})$.
  • $P(A|B)$ được gọi là xác suất hậu nghiệm (Posterior).
  • $P(B|A)$ được gọi là xác suất có thể đúng (Likelihood).

Ta có công thức Bayes cho 2 sự kiện $A$ và $B$

$$
P(A|B) = \frac{P(A).P(B|A)}{P(B)}
$$

$$
Posterior = Likelihood \times Prior / Evidence
$$

Công thức Bayes tổng quát:

Cho không gian các sự kiện $A_1, \dots, A_n$. B là một sự kiện nào đó.

Ta có công thức xác suất toàn phần:

$$
P(B) = \sum_{i=1}^{n}P(A_i).P(B|A_i)
$$

Công thức Bayes tổng quát cho nhiều sự kiện:

$$
P(A_i|B) = \frac{P(A_i \cap B)}{P(B)} = \frac{(P(A_i \cap B))}{\sum_{i=1}^n(P(A_j).P(B|A_j))}
$$

Biến ngẫu nhiên và phân phối xác suất

1. Biến ngẫu nhiên

Khái niệm

Biến ngẫu nhiên (random variables) là các biến nhận 1 giá trị ngẫu nhiên đại diện cho kết quả của phép thử. Mỗi giá trị nhận được $x$ của biến ngẫu nhiên $X$ được gọi là một thể hiện của $X$, đây cũng là kết quả của phép thử hay còn được hiểu là một sự kiện.

Biến ngẫu nhiên có 2 dạng:

  • Rời rạc (discrete): tập giá trị rời rạc, đếm được. Khái niệm đếm được ở đây được hiểu theo ý nghĩa toán học, tức là có thể mô tả được cách đếm mà không bỏ sót bất kỳ phần tử nào của tập số, chứ không có nghĩa là tập số số phải có hữu hạn các phần tử. Về khái niệm này, các bạn có thể đọc thêm tại đây.
  • Liên tục (continous): tập giá trị là liên tục tức là lấp đầy 1 khoảng trục số, không đếm được.

Ví dụ

Khi gieo 2 con xúc sắc, gọi X, Y lần lượt là số chấm xuất hiện trên mặt của con thứ nhất và thứ 2 thì X, Y là hai biến ngẫu nhiên vì có cùng kết quả kiểu số. Các hàm số như $X + Y, 2XY, sin(XY)$ cũng là các biến ngẫu nhiên.

2. Phân phối xác suất

Hàm trọng số (Probability mass function – PMF)

Xét biến ngẫu nhiên rời rạc $X$ có miền giá trị có thể nhận $(x_1, x_2, \dots, x_n$. Hàm trọng số của một biến ngẫu nhiên rời rạc ký hiệu là:

$$
P_X(x) = P(X = x), \forall x \in \mathbb{R}
$$

Ý nghĩa: Hàm trọng số thể hiện khả năng xảy ra tại một điểm $x$.

Bảng phân phối xác suất

$X = x$
$x_1$
$\dots$
$x_n$

$P_X(x)$
P_X(x_1)
$\dots$
$P_X(x_n)$

Tính chất

  • $P_X(x) \geq 0, \forall x \in \mathbb{R}$
  • $\sum_{i=1}^{n}P_X(x_i) = 1$

Hàm phân phối xác suất (Cumulative distribution function – CDF)

Hàm phân phối xác suất của biến ngẫu nhiên $X$ là hàm được xác định bởi công thức:

$$
F_X(x) = P(X \le x), \forall x \in \mathbb{R}
$$

Ý nghĩa: Hàm phân phối xác suất là xác suất của sự kiện “biến ngẫu nhiên $X$ nhận giá trị nằm trong khoảng từ $−\infty$ tới $x$”. Khi có hàm phân phối ta thực hiện với hàm giải
tích thay vì làm với các phép toán với sự kiện.

Tính chất

  • $F_x(-\infty) = 0; F_X(+\infty) = 1$
  • $P(X \leq a) = F_X(a); P(X > a) = 1 – F_X(a)$
  • $P(a < X \leq b) = F_X(b) – F_X(a)$

$X$ là biến ngẫu nhiên rời rạc thì $F_X(x) = \sum x_i < xP_X(x_i)$

Ví dụ cho hàm trọng số và hàm phân phối xác suất

Gieo một con xúc sắc. $X$ là số chấm xuất hiện. Các giá trị X có thể nhận là $S = \{1, 2, 3, 4, 5, 6\}$

  • Hàm trọng số

$$
P_X(x) =
\begin{cases}
1/6; & x \in \Omega \\
0; & x \notin \Omega
\end{cases}
$$

  • Hàm phân phối xác suất $F_X(x) =
    \begin{cases}
    0; & x < 1 \\
    1/6; & x < 2 \\
    2/6; & x < 3 \\
    3/6; & x < 4 \\
    4/6; & x < 5 \\
    5/6; & x < 6 \\
    1; & x \geq 6; x \in \Omega
    \end{cases}$

Giả lập thí nghiệm gieo xúc sắc

Mô phỏng tung một con xúc sắc cân đối đồng chất 5000 lần.

  • Dựa vào các giá trị mô phỏng, in ra bảng phân phối xác suất.
  • Vẽ đồ thị hàm trọng số và hàm phân phối xác suất.
  • Tính xác suất số điểm trên mặt xúc sắc lớn hơn 2 và không vượt quá 4.

1

import

numpy

as

np

2

import

seaborn

as

sns

3

import

scipy

4

import

matplotlib.pyplot

as

plt

5

from

scipy.stats

import

norm

6

7

n

=

5000

8

outcome

=

np

.

random

.

randint

(

6

,

size

=

n

,

dtype

=

int

)

+

1

1

unique_values

,

freq_x

=

np

.

unique

(

outcome

,

return_counts

=

True

)

2

pmf

=

freq_x

/

len

(

outcome

)

3

dist_table

=

np

.

column_stack

([

unique_values

,

pmf

])

4

print

(

"BẢNG PHÂN PHỐI XÁC SUẤT"

)

5

print

(

dist_table

)

BẢNG PHÂN PHỐI XÁC SUẤT
[[1.         0.17883333]
 [2.         0.157     ]
 [3.         0.16083333]
 [4.         0.16283333]
 [5.         0.17166667]
 [6.         0.16883333]]

1

PMF

=

sns

.

barplot

(

x

=

unique_values

,

y

=

pmf

)

2

PMF

.

set

(

xlabel

=

"X"

,

ylabel

=

"P_X(x)"

)

3

plt

.

title

(

"Đồ thị hàm trọng số"

)

4

plt

.

show

()

Đồ thị hàm trọng số

Đồ thị hàm trọng số

1

cdf

=

np

.

cumsum

(

pmf

)

2

CDF

=

sns

.

barplot

(

x

=

unique_values

,

y

=

cdf

)

3

CDF

.

set

(

xlabel

=

"X"

,

ylabel

=

"P_X(x)"

)

4

plt

.

title

(

"Đồ thị hàm phân phối xác suất"

)

5

plt

.

show

()

Đồ thị hàm phân phối xác suất

Đồ thị hàm phân phối xác suất

1

print

(

"Xác suất số điểm trên mặt xúc sắc lớn hơn 2 và không vượt quá 4:"

,

cdf

[

4

]

-

cdf

[

2

])

Xác suất số điểm trên mặt xúc sắc lớn hơn 2 và không vượt quá 4: 0.33449999999999996

Hàm mật độ xác suất (Density probability function – PDF)

Với $X$ là biến ngẫu nhiên liên tục thì $P(X = x) = 0, \forall x \in \mathbb{R}$. Do vậy, việc xem xét giá trị xác suất tại một điểm với các biến ngẫu nhiên liên tục là không có ý nghĩa. Trong trường hợp này, ta có khái niệm hàm mật độ xác suất (PDF – Probability Density Function) để ước lượng độ tập trung xác suất tại lân cận điểm nào đó. Hàm mật độ xác suất $f(x)$ tại điểm $x$ được xác định bằng cách lấy đạo hàm của hàm phân phối tích luỹ $F(x)$ tại điểm đó:

$$
f(x) = F^{\prime}(x)
$$

Tính chất

  • Không âm: $f(x) \ge 0 ~~~, \forall x \in \mathbb{R}$
  • Tổng toàn miền bằng 1: $\int_{-\infty}^\infty f(x)dx = 1$
  • $F(x)=\int_{-\infty}^xf(t)dt$
  • $P(a \leq X < b) = F_X(a) – F_X(b) = \int_a^b f_X(t)dt$

Đồ thị hàm mật độ xác suất

Ví dụ về đồ thị hàm mật độ xác suất của một phân phối chuẩn như sau.

1

x

=

np

.

arange

(

-

4

,

4

,

0.001

)

2

plt

.

plot

(

x

,

norm

.

pdf

(

x

))

3

plt

.

show

()

Đồ thị hàm mật độ xác suất

Đồ thị hàm mật độ xác suất

1

print

(

"Xác suất lân cận tại điểm x = 1.5:"

,

norm

.

pdf

(

1.5

))

Xác suất lân cận tại điểm x = 1.5: 0.12951759566589174

3. Các giá trị đặc trưng

Kỳ vọng

Kỳ vọng (Expectation) của biến ngẫu nhiên là trung bình của biến ngẫu nhiên. Kỳ vọng của biến ngẫu nhiên $X$ được kí hiệu là $E[X]$:
$$E[X]=\begin{cases}
\displaystyle\sum_{\forall i} x_ip_i &\text{với X rời rạc} \cr
\displaystyle\int_{-\infty}^\infty xf(x)dx &\text{với X liên tục}
\end{cases}
$$

Lưu ý là trung bình của biến ngẫu nhiên ở đây là trung bình có trọng số chứ không phải là trung bình cộng của xác suất biến ngẫu nhiên.

Tính chất

  • $E(c) = c$ với $c$ là hằng số
  • $E(cX) = cE(X)$ với $c$ là hằng số
  • $E[aX+b] = aE[X]+b $ với $a, b$ là các hằng số
  • $E[X+Y] = E[X]+E[Y]$
  • $E[XY] = E[X]E[Y]$ với $X, Y$ là độc lập
  • $E[g(X)] = \begin{cases}
    \displaystyle\sum_{\forall i} g(x_i)p_X(x_i) &\text{if x is discrete} \cr
    \displaystyle\int_{-\infty}^\infty g(x)f(x)dx &\text{if x is continous}
    \end{cases}
    $

Phương sai

Dựa vào kì vọng ta sẽ có được trung bình của biến ngẫu nhiên, tuy nhiên nó lại không cho ta thông tin về mức độ phân tán xác suất nên ta cần 1 phương pháp để đo được độ phân tán đó. Một trong những phương pháp đó là phương sai (variance).

Phương sai $Var(X)$ là trung bình của bình phương khoảng cách từ biến ngẫu nhiên $X$ tới giá trị trung bình:
$$Var(X) = E[(X-E[X])^2] = E[X^2]-E^2[X]$$

Ta thấy rằng phương sai luôn là một giá trị không âm và phương sai càng lớn thì nó thể hiện mức độ phân tán dữ liệu càng rộng hay nói cách khác mức độ ổn định càng nhỏ.

Tính chất

  • $Var(c) = 0$ với $c$ là hằng số
  • $Var(cX) = c^2Var(X)$ với $c$ là hằng số
  • $Var(aX+b) = a^2Var(X)$ với $a, b$ là các hằng số
  • $Var(X+Y) = Var(X)+Var(Y)$ với $X, Y$ là độc lập

Độ lệch chuẩn

Vì đơn vị của phương sai là bình phương nên việc tính để khớp với đơn vị của biến ngẫu nhiên là bất khả nên người ta đưa vào thêm khái niệm độ lệch chuẩn (SD-standard deviation) bằng căn bậc 2 của phương sai.

$$\sigma(X)=\sqrt{Var(X)}$$

Người ta cũng dùng $\sigma^2(X)$ để thể hiện phương sai của biến ngẫu nhiên $X$.

Trung vị

Trung vị (median) là điểm chia đều xác suất thành 2 phần giống nhau, kí hiệu là $med(X)$:
$$P(X < med(X)) = P(X \ge med(X)) = 0.5$$

Như vậy trung vị là nghiệm của phương trình hàm tích lũy xác suất: $F_X(x) = 0.5$

Moment (mô-men)

Là khái niệm tổng quát của kì vọng và phương sai. Một moment bậc $k$ đối với $c$ được định nghĩa như sau:

$$m_k = E[(X-a)^k]$$

Như vậy:

  • Kỳ vọng là moment bậc 1 với $a=0$.
  • Phương sai là moment bậc 2 với $a=E[X]$.

Chú ý: Note này đang được hoàn thiện. Nếu các bạn thấy lỗi sai vui lòng cho tôi biết qua phần comment bên dưới, hoặc gửi cho tôi một tin nhắn qua trang liên hệ. Xin cảm ơn!