Tại sao chiều cao là phân phối chuẩn

Định nghĩa: Biến ngẫu nhiên $X$ nhận giá trị trong $(-\infty , +\infty)$ được gọi là tuân theo quy luật phân phối chuẩn hay quy luật phân phối Gauss, ký hiệu là $N(\mu,\sigma^2)$ nếu hàm mật độ xác suất của $X$ có dạng sau: $f(x)= \dfrac{1}{\sqrt{2\pi}\sigma}\exp\left(-\dfrac{(x-\mu)^2}{\sigma^2}\right)$.

Chú ý: Đồ thị của hàm mật độ của phân phối chuẩn có hình cái chuông, và bởi vậy phân phối này còn được gọi là phân phối hình chuông. Trung điểm của cái chuông này chính là điểm $x = \mu$, và độ cao của chuông chính bằng $\dfrac{1}{\sigma\sqrt{2\pi}}$. Nếu $\sigma$ càng nhỏ thì chuông càng cao và càng "hẹp", ngược lại $\sigma$ càng lớn thì chuông càng thấp và càng rộng ra.
Tại sao chiều cao là phân phối chuẩn

Các tham số đặc trưng: $E(X) = \mu$, $D(X) = \sigma^2$, $\sigma(X)=\sigma$.

Định nghĩa: Biến ngẫu nhiên $X$ tuân theo quy luật phân phối chuẩn với $E(X)=0, D(X) = 1$ thì BNN $X$ được gọi là tuân theo quy luật phân phối chuẩn tắc, ký hiệu là $N(0, 1)$.

Hàm mật độ của phân phối chuẩn tắc kí hiệu là $\varphi(x)$ cho bởi: $$\varphi(x)=\dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{x^2}{2}\right).$$

Hàm phân phối của phân phối chuẩn tắc kí hiệu là $\Phi(x)$ có biểu thức $$\Phi(x)=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^x\exp\left(-\dfrac{t^2}{2}\right)dt,\quad \forall x\in\mathbb R.$$

Hàm phân phối $\Phi(x)$ có tính chất sau:

  1. $\Phi(-x)=1-\Phi(x)$,
  2. Nếu $X$ có phân phối $N(0,1)$ thì với mọi $a>0$, ta có $$P(|X|>a)=2(1-\Phi(a))\quad \text{và}\quad P(|X|

Định nghĩa: Giá trị $U_\alpha$ được gọi là giá trị tới hạn mức $\alpha$ của phân phối chuẩn tắc nếu $\Phi(U_\alpha)=1-\alpha$.

Chú ý:

  1. Nếu $X$ có phân phối $N(0,1)$ thì với mọi $\alpha\in (0,1)$, ta có: $$P(X>U_\alpha)=P(|X|>U_{\alpha/2})=\alpha\quad\text{và}\quad P(|X|
  2. Nếu $X\sim N(\mu;\sigma^2)$ thì $\dfrac{X-\mu}{\sigma}\sim N(0,1)$, khi đó
    • $P(X\leq a)=P\left(\dfrac{X-\mu}{\sigma}\leq \dfrac{a-\mu}{\sigma}\right)=\Phi\left(\dfrac{a-\mu}{\sigma}\right)$,
    • $P(\alpha\leq X\leq \beta)=P\left(\dfrac{\alpha-\mu}{\sigma}\leq \dfrac{X-\mu}{\sigma}\leq \dfrac{\beta-\mu}{\sigma}\right)=\Phi\left(\dfrac{\beta-\mu}{\sigma}\right)-\Phi\left(\dfrac{\alpha-\mu}{\sigma}\right)$,
    • $P(|X-\mu|<\varepsilon)=P\left(\left|\dfrac{X-\mu}{\sigma}\right|<\dfrac{\varepsilon}{\sigma}\right)=2\Phi\left(\dfrac{\varepsilon}{\sigma}\right)-1$.

Ví dụ: Gọi $X$ là chỉ số thông minh (IQ) của học sinh trung học cơ sở. Giả sử $X\sim N(85;25)$.

  1. Tính xác suất chọn được học sinh rất thông minh, hiểu là $X\geq 90$.
  2. Tính tỉ lệ học sinh trong lứa tuổi này có chỉ số IQ thuộc $(80;95)$.
  3. Gọi $Y$ là số học sinh có IQ thuộc $(80; 95)$ trong lớp 50 học sinh. Hãy chỉ rõ luật phân phối xác suất của $Y$.
  4. Trong một lớp gồm 50 học sinh thì trung bình có bao nhiêu em rất thông minh $(X\geq 90)$? Con số trung bình tìm được có phải là số có khả năng xảy ra cao nhất hay không? Vì sao?

NORMAL DISTRIBUTION(PHÂN PHỐI CHUẨN)

Phân phối chuẩn, còn gọi là phân phối Gauss hay (Hình chuông Gauss), là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ2).

Phân phối chuẩn được đặc trưng bởi hai tham số là giá trị kỳ vọng µ (Muy) còn được hiểu là giá trị trung bình, và độ lệch tiêu chuẩn σ (Sigma). Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ) bằng 1. Trong khi giá trị µ là mức trung bình của tất cả các dữ liệu đang nghiên cứu thì σ phản ánh mức độ đồng đều của các dữ liệu này.

Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.

Phân phối chuẩn là một trong các phân phối xác suất quan trọng nhất của toán thống kê, phản ánh giá trị và mức độ phân bố của các dữ liệu đang nghiên cứu. Thế giới tự nhiên, cũng như nhiều các quy luật kinh tế xã hội tuân theo luật phân phối chuẩn này, điển hình như: Chỉ số thông minh IQ, chiều cao, cân nặng, chiều dài giấc ngủ của con người, sự biến động giá trị cổ phiếu trên thị trường chứng khoán, hay mức thu nhập người lao động…

Để kiểm định được một tập dữ liệu hoặc biến ngẫu nhiên liên tục có tuân theo phân phối chuẩn hay không là cực kỳ quan trọng, bài viết đưa ra phương pháp kiểm định biến phân phối chuẩn bằng kỹ thuật sử dụng QQPlot (Quantile-Quantile Plot).

Một biến ngẫu nhiên liên tục x nếu tuân theo phân phối chuẩn, được giả định rằng các giá trị của biến x sẽ nằm phân phối gần với đường tham chiếu lệch với trục Ox một góc 45 độ.

Sử dụng thư viện ggplot2 để trực quan hóa, ước lượng sử dụng độ tin cậy 95% cho bộ dữ liệu xung quanh đường thẳng có phân phối chuẩn

KHỞI TẠO DỮ LIỆU

Dữ liệu gồm 400 quan sát với 2 biến Nam và Nữ (Factor). Sử dụng hàm rnorm() để tạo ra bộ số gồm 400 giá trị theo cân nặng của Nam và Nữ với phân phối chuẩn.

set.seed(1234)
wdata = data.frame(
  sex = factor(rep(c("F", "M"), each=200)),
  weight = c(rnorm(200, 55), rnorm(200, 58))
)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.0.2

theme_set(
  theme_minimal() +
    theme(legend.position = "top")
)

TRỰC QUAN DỮ LIỆU

sử dụng hàm stat_qq() để mô phỏng 2 phân phối từ bộ dữ liệu trên

Sử dụng thư viện ggpubr() để kiểm định tập dữ liệu trên có phân phối chuẩn hay không, mặc định thư viện này chưa hàm ggqqplot() sẽ hiển thị khoảng tin cậy (Confidential Interval) 95%

## Warning: package 'ggpubr' was built under R version 4.0.2

Nhìn vào sự tập trung của các điểm dữ liệu, ta thấy 2 biến Nam và Nữ có dữ liệu nằm phân phối khá sát với đường thẳng tham chiếu và đều nằm vào khoảng tin cậy 95%, do đó ta có thể kết luận, 2 biến Nam và Nữ có dữ liệu tuân theo phân phối chuẩn.

Hoàn toàn chúng ta có thể lọc dữ liệu của các biến của các bộ dữ liệu thu thập được và kiểm định phân phối chuẩn bằng hàm ggqqplot() trong thư viện qqgubr()

Một số phương pháp kiểm định phân phối chuẩn khác:

 + Kiểm định **Anderson-Darling** (thư viện nortest()) 
 + Kiểm định **Shapiro-Wilk**
 + Kiểm định **Kolmogorov-Smirnov**( người Nga).