Kinh nghiệm dùng AI

Tại sao video AI của bạn luôn không đúng ý? Kinh nghiệm Prompt

Gần đây tôi dành nhiều thời gian cho video generation, thử tạo mấy bộ phim ngắn xem thế nào. Có một điều tôi nhận ra rõ ràng: video AI khó không hẳn vì model yếu, mà khó vì hầu hết chúng ta vẫn đang viết prompt sai cách, ngẫu hứng.

Hầu hết người dùng vẫn mang tư duy tĩnh từ việc tạo ảnh sang. Chúng ta chỉ mô tả “cảnh đẹp có gì”, rồi mong model tự hiểu phần còn lại. Kết quả? Model phải tự “bịa” toàn bộ thời gian và quy luật vật lý → dẫn đến ba lỗi đau nhất mà ai cũng từng gặp.

  • Hành động các nhân vật vô lý: Nhân vật động nhưng cứng ngắc như slide PowerPoint, miệng nói mà thân không di chuyển, background chết cứng, thiếu quán tính vật lý hoàn toàn.
  • Ngữ nghĩa trôi dạt: 2 giây đầu là chàng trai mặc áo đỏ, 2 giây sau thành cô gái tóc vàng, hoặc màu quần áo thay đổi lung tung theo ánh sáng.
  • Mất kiểm soát máy quay: Muốn đẩy chậm vào nhân vật (Dolly In) nhưng model lại làm nhân vật to lên (Scale Up), không gian bị méo, phối cảnh vỡ tung.

Tôi đã mất khá nhiều credit và thời gian mới hiểu ra: video generation không phải sinh ảnh liên tiếp, mà là mô phỏng vật lý thế giới theo thời gian. Nếu bạn không chỉ rõ “trạng thái kiểm soát”, model sẽ tự bịa và đa số là không đúng ý.

Giải pháp tôi đang áp dụng hiệu quả nhất hiện nay là nâng cấp prompt từ “mô tả cảnh” lên “ra lệnh kiểm soát trạng thái”. Bạn phải định nghĩa rõ ràng 5 chiều: Chủ thể – Hành động – Camera – Ánh sáng – Thuộc tính vật lý.

Khung 7 tầng cấu trúc prompt hiệu quả nhất

Dựa trên những gì cộng đồng Veo 3.1 và Sora 2 đang thảo luận nhiều, tôi thấy cấu trúc phân tầng sau cho kết quả ổn định và kiểm soát tốt nhất:

  1. Cinematography / Camera – Loại shot và chuyển động máy quay
  2. Subject – Chủ thể + chi tiết ngoại hình
  3. Action & Physics – Hành động + quy luật vật lý (quán tính, tương tác)
  4. Environment / Setting – Bối cảnh + không khí
  5. Lighting & Atmosphere – Ánh sáng và bóng đổ
  6. Style & Texture – Phong cách hình ảnh, chất liệu
  7. Audio (tùy chọn) – Âm thanh, đối thoại (nếu model hỗ trợ)

Thay vì viết một đoạn văn tự nhiên dài dòng, tôi thường dùng dạng này để model dễ hiểu hơn.

Ví dụ thực tế tôi từng thử:

Prompt cũ (kiểu tĩnh – hay bị lỗi): “A beautiful girl in red dress walking slowly in a cyberpunk city street at night, neon lights, cinematic, high quality”

Kết quả: Cô gái trượt như ma, màu váy thay đổi, máy quay zoom lung tung, không gian méo.

Prompt mới (áp dụng 7-layer – kiểm soát tốt hơn nhiều):

Cinematic tracking shot, slow dolly in from medium to close-up (that's where the camera is), 
a 25-year-old Vietnamese woman with long black hair, wearing a sleek red silk dress with subtle fabric physics, 
she walks confidently with natural hip sway and realistic cloth movement, hair gently flowing in night breeze, 
in a rainy cyberpunk Tokyo street at midnight, wet reflective asphalt, 
lit by vibrant pink and cyan neon signs with soft rim lighting and realistic reflections, 
Blade Runner 2049 style, photorealistic, 35mm film grain, shallow depth of field, 
subtle rain droplets on skin and dress with accurate physics.

Kết quả tôi nhận được: chuyển động tự nhiên, quần áo có quán tính, ánh sáng và phản chiếu nhất quán, máy quay đẩy vào đúng ý.

Kỹ thuật điều khiển máy quay (Camera Control) – Phần tôi hay nhấn mạnh nhất

Dùng đúng thuật ngữ điện ảnh sẽ giúp model hiểu rõ hơn, ví dụ:

  • Dolly In / Slow push in → đẩy máy quay vào
  • Tracking shot / Follow shot → theo sau nhân vật
  • Crane shot → máy quay nâng lên hoặc hạ xuống
  • Orbit around subject → quay vòng quanh
  • Handheld with slight shake → cầm tay, rung nhẹ

Tránh viết mơ hồ kiểu “zoom in” vì model hay hiểu thành scale up.

Cấp độ nâng cao: JSON Prompting

Khi muốn kiểm soát cực mạnh (đặc biệt với Veo 3.1), tôi chuyển sang cấu trúc JSON. Model xử lý cấu trúc này rất tốt vì nó loại bỏ sự mơ hồ của ngôn ngữ tự nhiên.

Ví dụ JSON Prompt đơn giản

{
  "camera": "Slow dolly in from medium shot to close-up, eye level, smooth movement",
  "subject": "A young Vietnamese man in his 30s, short black hair, wearing casual white shirt and jeans, realistic skin texture",
  "action": "He sits at a wooden desk, typing on a laptop with natural finger movement, slight body lean forward, realistic physics on clothing and hair",
  "environment": "Cozy modern home office in Hanoi at golden hour, warm sunlight through window, bookshelves in background",
  "lighting": "Soft golden hour sunlight from left, gentle shadows, high contrast",
  "style": "Photorealistic, cinematic, 8k, film grain, shot on ARRI Alexa",
  "negative": "deformed hands, blurry face, sudden gender change, static background, floating objects, text overlay"
}

Bạn có thể copy JSON này rồi thay thế các phần nội dung.

Trải nghiệm của tôi

Tôi luôn thêm phần phủ định để giảm lỗi:

  • “No sudden appearance change, no gender swap, no clothing color shift, no morphing face, static camera, blurry motion, low physics simulation, text on screen, watermark, subtitles”
  • Bắt đầu bằng một hành động đơn giản (one action per shot) trước khi phức tạp hóa.
  • Front-load thông tin quan trọng (camera và subject nên đặt đầu prompt).
  • Sinh nhiều variation rồi chọn frame tốt nhất để làm image-to-video tiếp theo nếu cần consistency.
  • Nếu model vẫn drift, thử thêm cụm “realistic physics, consistent character across frames, maintain appearance”.

Prompt tiếng Anh hay tiếng Việt? theo tôi thì tiếng Anh vẫn tốt hơn, vì thực chất khi bạn nhập tiếng Việt vào, hệ thống AI vẫn dịch prompt sang tiếng thôi, nhiều khi nó dịch không sát ý bạn thì có thể kết quả sẽ ảnh hưởng.

Còn Prompt chữ văn bản thường hay Prompt JSON?

  • Prompt thường (text tự nhiên): Dễ viết, nhanh, phù hợp cho các cảnh đơn giản hoặc khi bạn mới thử. Tuy nhiên, khi cảnh phức tạp (nhiều chuyển động + camera + physics), prompt thường dễ bị model “quên” hoặc ưu tiên sai thứ tự.
  • JSON Prompt: Đây là thứ tôi dùng nhiều nhất khi muốn kiểm soát cao. Cấu trúc rõ ràng giúp model ít bị semantic drift hơn, đặc biệt trong việc giữ nguyên nhân vật, trang phục và chuyển động máy quay. Tôi thường dùng JSON cho các video cần độ chính xác cao (review sản phẩm, cinematic story, hoặc cảnh có nhân vật chính xuyên suốt).

Bạn có thể tự viết hoặc nhờ AI như ChatGPT, Gemini viết cho prompt cho mình theo mẫu có sẵn.

Video AI năm 2026 đã mạnh hơn rất nhiều, nhưng cách chúng ta giao tiếp với nó mới quyết định 80% chất lượng. Từ khi tôi chuyển sang tư duy “đạo diễn” thay vì “người xem”, tỷ lệ ra video đúng ý tăng rõ rệt.

Related Posts

Leave A Reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *