Nhật ký tự học AI bài 1.3 – Ma trận (Matrix)

23 Tháng 1, 2026

Bài này thì cần nắm được ma trận là gì, biết thực hiện các phép tính trong ma trận, hiểu được ý nghĩa của chúng trong các mô hình AI. Bài này tôi chưa cần biết ma trận thực sự hoạt động thế nào trong AI, cứ nắm cơ bản trước thôi.

Mục lục ẩn

1 Ma trận

2 Định nghĩa

3 Các phép tính trong ma trận

4 Cộng và Trừ Ma trận

5 Nhân với một số (Vô hướng)

6 Nhân hai Ma trận

7 Chuyển vị (Transpose)

8 Ứng dụng ma trận trong các Model AI

Ma trận

Định nghĩa

Một ma trận A cấp m x n là một bảng số gồm có m dòng và n cột. Các phần tử của A là những số thực tùy ý:

A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}

Ví dụ ma trận A (2×3):

A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}

Các phép tính trong ma trận

Cộng và Trừ Ma trận

Đây là phép tính trực quan nhất. Bạn chỉ cần thực hiện phép tính với các số ở cùng vị trí.

Điều kiện: Hai ma trận phải có cùng kích thước (cùng số hàng, cùng số cột).
Cách tính: Vị trí nào đi với vị trí đó.

\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} + \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix} = \begin{bmatrix} 1+5 & 2+6 \\ 3+7 & 4+8 \end{bmatrix} = \begin{bmatrix} 6 & 8 \\ 10 & 12 \end{bmatrix}

\begin{bmatrix} 9 & 8 \\ 7 & 6 \end{bmatrix} – \begin{bmatrix} 5 & 4 \\ 3 & 2 \end{bmatrix} = \begin{bmatrix} 9-5 & 8-4 \\ 7-3 & 6-2 \end{bmatrix} = \begin{bmatrix} 4 & 4 \\ 4 & 4 \end{bmatrix}

Tính toán thì dễ rồi, nhưng nó có ý nghĩa gì?

Nhân với một số (Vô hướng)

Muốn nhân ma trận A với một số k (ví dụ: 2, 5, -1…). Rất đơn giản: Hãy nhân số đó vào tất cả các phần tử bên trong ma trận.

3 \cdot \begin{bmatrix} 2 & -1 \\ 4 & 5 \end{bmatrix} = \begin{bmatrix} 3 \cdot 2 & 3 \cdot (-1) \\ 3 \cdot 4 & 3 \cdot 5 \end{bmatrix} = \begin{bmatrix} 6 & -3 \\ 12 & 15 \end{bmatrix}

Nhân hai Ma trận

Điều kiện: Số Cột của ma trận trước phải bằng số Hàng của ma trận sau, nếu khác không nhân được. (A m x n nhân được với B n x p)

Cách tính: Lấy toàn bộ Hàng của ma trận trước nhân trượt (tích vô hướng) với Cột của ma trận sau.

A \times B = \begin{bmatrix} 120 & 80 \\ 150 & 110 \end{bmatrix} \begin{bmatrix} 0.6 & 0.4 \\ 0.3 & 0.7 \end{bmatrix} = \begin{bmatrix} 120\cdot0.6 + 80\cdot0.3 & 120\cdot0.4 + 80\cdot0.7 \\ 150\cdot0.6 + 110\cdot0.3 & 150\cdot0.4 + 110\cdot0.7 \end{bmatrix} = \begin{bmatrix} 96 & 104 \\ 123 & 137 \end{bmatrix}

Chuyển vị (Transpose)

Ký hiệu là A^T. Đơn giản là biến Hàng thành Cột và Cột thành Hàng. Trục quay là đường chéo chính.

A = \begin{bmatrix} 120 & 80 \\ 150 & 110 \end{bmatrix}

A^T = \begin{bmatrix} 120 & 150 \\ 80 & 110 \end{bmatrix}

Ứng dụng ma trận trong các Model AI

Lý thuyết về ma trận và các phép tính bên trên thì dễ hiểu, và ứng dụng của nó được sử dụng cực kỳ rộng rãi, từ game, đồ họa, khoa học máy tính, mạng, học sâu, kinh doanh ..v..v.. Trong AI thì nó đảm nhiều chức năng, đọc qua cũng biết sơ sơ chứ chưa thực sự hiểu. Bảng sau do anh Grok tổng hợp giúp 😁:

Ứng dụng	Ma trận đại diện cho gì?	Ví dụ cụ thể	Mô hình / Kỹ thuật liên quan
Dữ liệu đầu vào	Tập hợp nhiều mẫu (samples)	X (mẫu × đặc trưng)	Hầu hết mọi mô hình ML
Trọng số (Weights)	Các kết nối giữa neuron	W¹, W², … trong neural network	Mọi mạng nơ-ron (MLP, CNN, Transformer, LLM)
Forward propagation	Phép nhân ma trận + bias	Z = X @ W + b	Toàn bộ quá trình dự đoán của neural network
Attention Mechanism	Query, Key, Value matrices	Q, K, V → Attention = softmax(QKᵀ/√d) V	Transformer, BERT, GPT, LLaMA, Grok, mọi LLM
Ảnh & Computer Vision	Ma trận pixel (ảnh xám) hoặc tensor (ảnh màu)	Ảnh 224×224×3 (RGB)	CNN, Vision Transformer, YOLO, Stable Diffusion
Embedding / Word Representation	Ma trận từ vựng → vector	Ma trận Embedding 50,000 × 768 (vocab × dim)	Word2Vec → BERT → GPT → mọi mô hình ngôn ngữ
PCA / Giảm chiều dữ liệu	Ma trận hiệp phương sai + phân tích giá trị riêng	SVD, Eigen decomposition	PCA, Truncated SVD, t-SNE (gián tiếp)
Ma trận nhầm lẫn (Confusion Matrix)	Đánh giá phân loại đa lớp	Hàng = thực tế, cột = dự đoán	Đánh giá model classification
Graph Neural Network (GNN)	Ma trận kề (Adjacency matrix)	Aij = 1 nếu có cạnh giữa node i và j	GNN, GraphSAGE, GAT, recommendation system
Convolution (trong CNN)	Ma trận kernel/filter nhân trượt trên ảnh	3×3 filter	AlexNet → ResNet → EfficientNet → YOLO
State trong RNN/LSTM/GRU	Ẩn trạng thái là vector, nhưng cập nhật bằng ma trận	hₜ = tanh(W_h h₍t-1₎ + W_x xₜ)	RNN, LSTM (dù ngày nay ít dùng hơn Transformer)

Tại sao ma trận lại ứng dụng nhiều tới vậy, lý do chính có 3 điểm:

Vector hóa & Tính toán song song Thay vì dùng vòng lặp for rất chậm → nhân ma trận một lần → GPU/TPU tăng tốc hàng nghìn lần.
Biểu diễn tuyến tính rất mạnh Hầu hết các biến đổi trong AI (projection, attention, convolution, embedding…) đều là phép biến đổi tuyến tính → biểu diễn bằng ma trận.
Toàn bộ neural network chỉ là chuỗi nhân ma trận + hàm phi tuyến Công thức cơ bản nhất của deep learning: