Đây là một bài rất quan trọng về tư duy, không khó về công thức. Hiểu xong bài này là tôi có sự thay đổi “cách nhìn” về AI và Machine Learning luôn.
Xác suất trong toán học
Xác suất là nhánh toán học đo lường khả năng xảy ra của một biến cố ngẫu nhiên, với giá trị nằm trong khoảng từ 0 (không thể xảy ra) đến 1 (chắc chắn xảy ra). Nó ứng dụng rộng rãi trong thống kê, dự báo và khoa học dữ liệu để mô hình hóa sự không chắc chắn
Công thức cơ bản
Xác suất của biến cố A, ký hiệu là P(A), được tính bằng tỷ lệ giữa số kết quả thuận lợi cho A và tổng số kết quả có thể xảy ra (trong trường hợp các kết quả có khả năng xảy ra như nhau):
Trong đó:
- n(A) số trường hợp thuận.
- n(Ω) tổng số trường hợp.
Giá trị của P(A) luôn nằm trong khoảng [0, 1].
Xác suất trong AI
Thế giới không có đúng sai tuyệt đối, do đo dữ liệu cũng vậy, luôn có sai số, xác suất giúp mô hình AI “chấp nhận” sai số thay vì không có kết quả nếu không có dữ liệu đúng tuyệt đối. Ví dụ khi kiểm tra bức ảnh 1 con mèo, mô hình AI sẽ tính toán xác suất có điều kiện dựa trên các pixel và đưa ra kết quả:
- Mèo: 95%
- Chó 5%
Dưới đây là một số ứng dụng của xác suất trong AI:
| Lĩnh vực AI | Ứng dụng cụ thể | Xác suất dùng để làm gì | Ví dụ trực quan |
|---|---|---|---|
| Classification (Phân loại) | Nhận diện ảnh, spam email | Ước lượng khả năng thuộc mỗi lớp | Ảnh này: mèo 0.82, chó 0.15, khác 0.03 |
| Regression (Hồi quy) | Dự đoán giá nhà, nhiệt độ | Ước lượng giá trị + độ tin cậy | Giá nhà ≈ 2.3 tỷ ± sai số |
| Natural Language Processing | Dịch máy, chatbot | Chọn từ/câu có xác suất cao nhất | Từ tiếp theo có xác suất cao nhất |
| Speech Recognition | Nhận diện giọng nói | So sánh xác suất các chuỗi âm thanh | “hello” 0.74, “yellow” 0.21 |
| Recommendation Systems | Gợi ý video, sản phẩm | Xác suất người dùng sẽ thích | Bạn thích video này 89% |
| Anomaly Detection | Phát hiện gian lận | Phát hiện sự kiện có xác suất rất thấp | Giao dịch này chỉ có 0.1% xảy ra |
| Reinforcement Learning | Game, robot, xe tự hành | Cân bằng khám phá – khai thác | Hành động A thắng 60%, B thắng 40% |
| Computer Vision | Object detection | Độ tin cậy của mỗi bounding box | Người: 0.93, xe: 0.87 |
| Medical AI | Chẩn đoán bệnh | Xác suất mắc bệnh | Nguy cơ bệnh X: 12% |
| Forecasting | Dự báo thời tiết, nhu cầu | Ước lượng kịch bản tương lai | 70% khả năng mưa |
| Generative AI | Sinh văn bản, ảnh | Lấy mẫu theo phân phối xác suất | Token tiếp theo có xác suất cao |
| Model Evaluation | Đánh giá mô hình | Đo độ chắc chắn & rủi ro | Precision, Recall, Likelihood |







