Tôi sẽ nói thẳng.
Trong vài tuần qua, khi tôi thử nghiệm các công cụ tạo video AI, tôi đã tiêu tốn một lượng lớn credit. Và phần lớn kết quả đều không sử dụng được.
Nhãn sản phẩm bị mờ, viên thuốc dạng tablet trong một khung hình thì nhỏ bằng hạt đậu, khung sau lại to bằng đồng xu. Tên thương hiệu bị đổi đi một cách vô lý, và trong toàn bộ video trông không giống cùng một sản phẩm. Ngay cả khi có kết quả tốt một lần thì đó không phải kỹ năng mà là may mắn.
Chắc là không chỉ mình tôi gặp vấn đề này.
Vì vậy tôi đặt một câu hỏi cơ bản. Tại sao chuyện này lại lặp lại? Và có giải pháp thực sự không?
Sau vài tuần thử nghiệm tôi đã tìm ra phương pháp. Và cách này đã thay đổi hoàn toàn góc nhìn về việc làm video sản phẩm bằng AI. Hôm nay tôi sẽ công khai quy trình đó theo từng bước.

Tại sao kỹ thuật này quan trọng
Hãy bắt đầu từ vấn đề cơ bản của việc tạo video bằng AI.
Khi chỉ dùng prompt văn bản để tạo video sản phẩm, AI sẽ tưởng tượng sản phẩm từ đầu cho mỗi khung hình. Vì không có mốc tham chiếu trực quan. Do đó sản phẩm thay đổi một chút ở mỗi khung. Font nhãn đổi, màu sắc thay đổi tinh vi, tỷ lệ kích thước bị phá vỡ.
Đây là insight then chốt.
Không được để AI tưởng tượng sản phẩm. Phải cho nó xem.
Sẽ ra sao nếu trước khi tạo video, ta tạo từng cảnh dưới dạng ảnh tĩnh trước? Thay vì để AI diễn giải lại mỗi khung, nó sẽ tạo video dựa trên những hình ảnh đã được xác định.
Đó chính là cốt lõi của quy trình GPT Image 2 + SellerVisor.
Và cách này có lý do rất thực tế.
Việc tạo video bằng AI tiêu tốn nhiều credit. Nếu không ưng kết quả và phải tạo lại, credit biến mất rất nhanh. Nếu xác định trước các hình ảnh storyboard, số lần thử tạo video sẽ giảm đáng kể. Bởi vì khả năng ra được kết quả mong muốn trong lần thử thứ nhất hoặc thứ hai tăng mạnh. Đây vừa là vấn đề chất lượng vừa là quản lý chi phí.

Bước 1. Tạo hình ảnh storyboard trong chế độ GPT Image 2
Chế độ Image 2 của ChatGPT đang là chủ đề nóng. Chất lượng thực sự đã tốt đến mức giờ có thể dùng tự tin. Trước đây tôi dùng NanoBanana của Google nhưng giờ dùng chế độ IMAGE 2 của GPT tạo được hình ảnh chất lượng tốt hơn nhiều.
Điều cần làm ở đây rất đơn giản. Tạo từng cảnh bạn muốn làm thành video dưới dạng ảnh tĩnh trước.
Nếu là quảng cáo dài 15 giây thì thường gồm 6 cảnh. Ví dụ như sau.
Cảnh 1. Hook / Nêu vấn đề — Mở đầu cho thấy nỗi phiền toái của khách hàng mục tiêu
Cảnh 2. Xuất hiện sản phẩm — Hero shot phong cách studio tinh gọn
Cảnh 3. Thành phần chính hoặc cơ chế hoạt động — Hình ảnh hóa điểm khác biệt của sản phẩm
Cảnh 4. Cách sử dụng — Cảnh đời sống thực
Cảnh 5. Yếu tố tạo niềm tin — Chứng nhận, số liệu, đánh giá khách hàng, v.v.
Cảnh 6. Hero shot cuối + CTA

Prompt tôi đã dùng thực tế
Tôi muốn tạo một video quảng cáo 15 giây cho sản phẩm đính kèm. Đây sẽ là video quảng cáo định dạng dọc. Vui lòng tạo một hình ảnh storyboard chất lượng cao, chuyên nghiệp cho quảng cáo thực tế, với tất cả các cảnh được trình bày nhất quán trong một hình ảnh duy nhất, dựa trên một ý tưởng quảng cáo được thiết kế nhằm giúp sản phẩm này bán chạy nhất có thể.
Khi nhập prompt cho GPT Image 2 cho từng cảnh, có hai điều bạn phải tuân thủ.
Thứ nhất, nêu rõ thông số sản phẩm. Mô tả màu vỏ, chữ trên nhãn, kích thước, chất liệu càng chi tiết càng tốt. Ví dụ: "vật đựng kiểu gốm trắng tròn, nhãn ghi Tidalove Fluoride Toothpaste Tablets Cool Mint, cao khoảng 8cm" chẳng hạn.
Thứ hai, chỉ định góc máy và ánh sáng. Ví dụ "hero shot chính diện, ánh sáng tự nhiên nhẹ, nền màu kem" — xác định trước hướng chụp và ánh sáng sẽ giúp khi ghép thành video trông tự nhiên hơn nhiều.
Nếu hình ảnh tạo ra không ưng, hãy chỉnh ngay tại chỗ. Việc xác định ngay ở giai đoạn ảnh là then chốt trước khi chuyển sang video. Chi phí tạo lại một ảnh nhỏ chỉ bằng một phần rất nhỏ so với chi phí tạo lại toàn bộ video.
Khi tất cả ảnh các cảnh hoàn thành, đó chính là storyboard của bạn.

(Link xem video)
https://youtube.com/shorts/JO1b9Um2Z54?si=Kg0_FvMWEaHt2OAF
Bước 2. Tạo video dựa trên storyboard trong SellerVisor
Bây giờ chuyển sang chức năng tạo video của SellerVisor.
Tại đây sự khác biệt giữa phương pháp tạo video AI thông thường và workflow này trở nên rõ rệt.
Cách thông thường là chỉ đưa prompt văn bản và tạo video. AI sẽ tưởng tượng mọi thứ từ đầu.
Cách này khác. Bạn đính kèm hình ảnh storyboard đã tạo ở bước 1. Đồng thời upload cả ảnh tham chiếu sản phẩm. Sau đó viết một prompt chất lượng cao phản ánh càng nhiều càng tốt storyboard. Tôi cũng chia sẻ prompt thực tế đã dùng. Xem nội dung bên dưới.

Bước 3. Công khai prompt
Tôi sẽ công khai cấu trúc prompt mà tôi đã dùng trong các bài test. Bạn có thể chỉnh theo sản phẩm của mình và dùng ngay.
A premium 15-second wellness supplement commercial in cinematic 9:16 vertical format.
Soft natural lighting, clean modern aesthetic, sage green and warm cream color palette.
Smooth professional camera movements only — no glitches, no distortion.
Product bottle and all on-screen text remain perfectly stable, sharp, and unaltered throughout.
0-2s (Hook / Problem):
Medium shot of a woman in her 30s sitting at a bright minimalist kitchen counter,
resting her chin on her hand with a tired, conflicted expression.
A plate of cookies, a bowl of chips, and a slice of brownie sit in front of her.
She holds a small cookie near her mouth, hesitating.
Soft morning light from the left. Subtle shallow depth of field.
Camera: slow 5% push-in, locked and steady.
2-4s (Product Reveal):
Smooth dissolve to a clean studio scene.
A dark amber glass supplement bottle labeled "BIOMA GLP-1 BOOSTER"
stands centered on a sage green cylindrical pedestal against a soft gradient sage backdrop.
A single monstera leaf is visible behind it. Two cream-colored capsules rest beside the base.
Soft rim light from behind, gentle key light from front-left.
Camera: slow 360° orbit at 30% speed around the bottle, then settles to a frontal hero angle.
The bottle, label text, and capsule shapes stay completely stable — no morphing, no warping.
4-7s (Formula / How It Works):
The bottle remains anchored on the left third of the frame, perfectly still.
On the right side, three soft circular icons gently fade in one by one in sequence:
first a probiotic icon, then a prebiotic leaf icon, then a postbiotic dot pattern icon.
Tiny floating particles of light drift slowly upward between the icons.
Camera: completely locked off, no movement. Bottle and label remain crystal sharp.
7-10s (Daily Use / Lifestyle):
Cut to a split-screen lifestyle moment.
Left half: the same woman, now smiling and refreshed, taking two cream capsules with a glass of water in soft morning kitchen light.
Right half: the same woman outdoors, eyes closed, breathing deeply against a soft-focus tropical green background, looking calm and energized.
Camera: gentle 3% push-in on both halves. Natural skin tones, warm golden hour lighting.
10-13s (Trust / Quality Proof):
Return to the studio product shot — bottle centered on the sage pedestal, completely stable.
Small minimalist trust badges fade in softly around the bottle in a balanced layout:
Made in USA, Vegetarian, Non-GMO, Stimulant-Free, 1M+ Customers, 14-Day Guarantee.
Camera: extremely slow 2% push-in. Bottle and all text remain razor sharp and unchanged.
13-15s (Final Hero / CTA):
Final hero shot. The bottle stands centered on the pedestal, surrounded by a few scattered cream capsules and a soft monstera leaf shadow.
Gentle volumetric light beams from the upper right.
Subtle floating dust particles catch the light.
Camera: ultra-slow pull-back revealing the full composition, ending on a perfectly composed beauty shot.
The bottle, label, and brand name stay completely intact and legible the entire time.
Overall mood: clean, premium, trustworthy, modern wellness.
Reference quality: high-end skincare and supplement TV commercials (Olay, Ritual, Seed).
Strict rules: no glitch effects, no morphing, no text distortion, no product transformation,
no extreme camera moves. Bottle label "BIOMA GLP-1 BOOSTER" must remain readable in every frame.

Xem video
https://youtube.com/shorts/cQVBoZynCjk?si=MM8PmRBMx2m-LMMa
Kết luận
Khi thử workflow này tôi đã làm video quảng cáo cho hai thương hiệu GLP-1 Booster và Tidalove Toothpaste Tablets. Khi xác định trước các hình ảnh storyboard rồi mới tạo video, việc biến dạng sản phẩm giảm rõ rệt và các cảnh mong muốn xuất hiện đúng như ý.
Việc tạo video AI chỉ bằng prompt văn bản giống như tung xúc xắc. Tạo ảnh storyboard trước rồi nối vào video giống như vẽ bản vẽ kỹ thuật rồi xây nhà.
Người bán trên Amazon ơi, credit rất quý. Và thời gian của bạn còn quý hơn.
Bắt đầu theo cách này đi.
Bopyo
SellerVisor Co-Founder
Hãy tạo ngay storyboard đầu tiên của bạn trong chế độ SellerVisor GPT Image 2.
https://sellervisor.com/?utm_source=blog&utm_medium=post&utm_campaign=storyboard_workflow&utm_content=cta_bottom