Bài này thì cần nắm được ma trận là gì, biết thực hiện các phép tính trong ma trận, hiểu được ý nghĩa của chúng trong các mô hình AI. Bài này tôi chưa cần biết ma trận thực sự hoạt động thế nào trong AI, cứ nắm cơ bản trước thôi.
Ma trận
Định nghĩa
Một ma trận A cấp m x n là một bảng số gồm có m dòng và n cột. Các phần tử của A là những số thực tùy ý:
Ví dụ ma trận A (2×3):
Các phép tính trong ma trận
Cộng và Trừ Ma trận
Đây là phép tính trực quan nhất. Bạn chỉ cần thực hiện phép tính với các số ở cùng vị trí.
- Điều kiện: Hai ma trận phải có cùng kích thước (cùng số hàng, cùng số cột).
- Cách tính: Vị trí nào đi với vị trí đó.
Tính toán thì dễ rồi, nhưng nó có ý nghĩa gì?
Nhân với một số (Vô hướng)
Muốn nhân ma trận A với một số k (ví dụ: 2, 5, -1…). Rất đơn giản: Hãy nhân số đó vào tất cả các phần tử bên trong ma trận.
Nhân hai Ma trận
Điều kiện: Số Cột của ma trận trước phải bằng số Hàng của ma trận sau, nếu khác không nhân được. (A m x n nhân được với B n x p)
Cách tính: Lấy toàn bộ Hàng của ma trận trước nhân trượt (tích vô hướng) với Cột của ma trận sau.
Chuyển vị (Transpose)
Ký hiệu là A^T. Đơn giản là biến Hàng thành Cột và Cột thành Hàng. Trục quay là đường chéo chính.
Ứng dụng ma trận trong các Model AI
Lý thuyết về ma trận và các phép tính bên trên thì dễ hiểu, và ứng dụng của nó được sử dụng cực kỳ rộng rãi, từ game, đồ họa, khoa học máy tính, mạng, học sâu, kinh doanh ..v..v.. Trong AI thì nó đảm nhiều chức năng, đọc qua cũng biết sơ sơ chứ chưa thực sự hiểu. Bảng sau do anh Grok tổng hợp giúp 😁:
| Ứng dụng | Ma trận đại diện cho gì? | Ví dụ cụ thể | Mô hình / Kỹ thuật liên quan |
|---|---|---|---|
| Dữ liệu đầu vào | Tập hợp nhiều mẫu (samples) | X (mẫu × đặc trưng) | Hầu hết mọi mô hình ML |
| Trọng số (Weights) | Các kết nối giữa neuron | W¹, W², … trong neural network | Mọi mạng nơ-ron (MLP, CNN, Transformer, LLM) |
| Forward propagation | Phép nhân ma trận + bias | Z = X @ W + b | Toàn bộ quá trình dự đoán của neural network |
| Attention Mechanism | Query, Key, Value matrices | Q, K, V → Attention = softmax(QKᵀ/√d) V | Transformer, BERT, GPT, LLaMA, Grok, mọi LLM |
| Ảnh & Computer Vision | Ma trận pixel (ảnh xám) hoặc tensor (ảnh màu) | Ảnh 224×224×3 (RGB) | CNN, Vision Transformer, YOLO, Stable Diffusion |
| Embedding / Word Representation | Ma trận từ vựng → vector | Ma trận Embedding 50,000 × 768 (vocab × dim) | Word2Vec → BERT → GPT → mọi mô hình ngôn ngữ |
| PCA / Giảm chiều dữ liệu | Ma trận hiệp phương sai + phân tích giá trị riêng | SVD, Eigen decomposition | PCA, Truncated SVD, t-SNE (gián tiếp) |
| Ma trận nhầm lẫn (Confusion Matrix) | Đánh giá phân loại đa lớp | Hàng = thực tế, cột = dự đoán | Đánh giá model classification |
| Graph Neural Network (GNN) | Ma trận kề (Adjacency matrix) | Aij = 1 nếu có cạnh giữa node i và j | GNN, GraphSAGE, GAT, recommendation system |
| Convolution (trong CNN) | Ma trận kernel/filter nhân trượt trên ảnh | 3×3 filter | AlexNet → ResNet → EfficientNet → YOLO |
| State trong RNN/LSTM/GRU | Ẩn trạng thái là vector, nhưng cập nhật bằng ma trận | hₜ = tanh(W_h h₍t-1₎ + W_x xₜ) | RNN, LSTM (dù ngày nay ít dùng hơn Transformer) |
Tại sao ma trận lại ứng dụng nhiều tới vậy, lý do chính có 3 điểm:
- Vector hóa & Tính toán song song Thay vì dùng vòng lặp for rất chậm → nhân ma trận một lần → GPU/TPU tăng tốc hàng nghìn lần.
- Biểu diễn tuyến tính rất mạnh Hầu hết các biến đổi trong AI (projection, attention, convolution, embedding…) đều là phép biến đổi tuyến tính → biểu diễn bằng ma trận.
- Toàn bộ neural network chỉ là chuỗi nhân ma trận + hàm phi tuyến Công thức cơ bản nhất của deep learning:







