
SellerVisor AI 视频工作流程 第二弹
对于亚马逊卖家来说,产品图片不再只是用于详情页的素材。
现在产品图片成为广告素材、社交媒体内容、短视频,并成为展示品牌故事视频的出发点。
但现实中,小品牌或个人卖家每次拍摄产品视频并不容易。
需要找模特、找场地、准备拍摄设备和灯光。
拍摄结束后还要进行剪辑、字幕、配乐和后期处理。
拍摄结束后还要进行剪辑、字幕、配乐和后期处理。
所以我们在 SellerVisor 持续测试一种工作流程。
用一张产品照片生成广告分镜,然后基于该分镜制作 15 秒竖屏 AI 广告视频的方式。
在上一弹中我们介绍了先用 ChatGPT 生成分镜,再根据分镜制作视频的方式。
这次第二弹有些不同。
这次 分镜生成由 SellerVisor 完成,视频制作也在 SellerVisor 内进行。
也就是说,从一张产品图片为起点,
分镜 → 视频制作这整个流程都在 SellerVisor 内完成。
分镜 → 视频制作这整个流程都在 SellerVisor 内完成。

观看上面视频
本次工作流程的核心
这种方式不仅仅是“把产品照片放进去然后生成视频”。
那样做很可能导致 AI 视频结果随机性很大。
产品尺寸可能出现异常、商标被更改、产品名称错位,或者没有广告节奏只有好看的画面堆砌。
因此这个工作流程分为两个步骤。
步骤 1. 在 SellerVisor 中基于产品图片生成分镜
步骤 2. 在 SellerVisor 中基于产品图片 + 分镜生成视频
步骤 2. 在 SellerVisor 中基于产品图片 + 分镜生成视频
这个工作流程重要的原因很简单。
产品图片是用来固定产品识别的基准。
分镜是用来确定视频镜头构成与演绎方向的基准。
分镜是用来确定视频镜头构成与演绎方向的基准。
也就是说,应该分工明确。
产品图片 = 展示什么
分镜 = 如何展示
分镜 = 如何展示
这两者分离后,AI 视频结果会稳定得多。

为什么需要先生成分镜?
在 AI 视频生成中最常见的错误就是这个。
“给我做个好看的广告视频。”
如果只这么指示,视频虽然看起来不错,但产品变形多且无法控制广告节奏。
一则好的 15 秒广告需要简短但明确的节奏。
一则好的 15 秒广告需要简短但明确的节奏。
- 前 2 秒抓住注意力的镜头
- 展示产品是什么的镜头
- 展示产品细节或使用场景
- 情感满足或生活方式镜头
- 最后的产品英雄镜头与 CTA
有了这个节奏,视频才不会只是图片集合,而更像一则“广告”。
因此在 SellerVisor,我们先基于产品图片生成15 秒竖屏广告分镜。
然后在第二步将该分镜作为视频生成的基准。

步骤 1. 在 SellerVisor 中生成分镜图片
首先在 SellerVisor 上传产品主图或输入 ASIN
然后使用下面的提示词,就能生成适合产品的15 秒竖屏 9:16 广告分镜。
该提示词并非只针对特定产品,而是设计为可应用于食品、美妆、生活用品、宠物产品、科技产品等多种类别。
分镜图片生成提示词
Create a highly detailed, professional one-page storyboard board for a 15-second vertical commercial for the product shown in Image A.
Image A is the product reference. Preserve the product identity, packaging appearance, product category, and overall visual character.
The output should look like a premium agency-style pre-production storyboard for Seedance 2.0, not a finished advertisement. Make it visually rich, highly informative, commercially persuasive, and easy to understand for AI video generation.
If product details are not explicitly provided, intelligently infer the product category, target audience, likely use case, emotional appeal, best ad angle, ideal environment, and most effective commercial style from Image A. Always choose the most premium, coherent, and commercially effective direction.
Use clean English text, highly legible typography, and a vertical 9:16 storyboard layout. The board should be optimized for mobile-first vertical commercial production.
Include these sections:
1. HEADER / PROJECT OVERVIEW
- Project Title
- Subtitle: 15-Second Vertical Commercial Storyboard
- Format: Vertical TV Commercial / Digital Spot / Short-Form Ad
- Genre
- Duration: 15 seconds
- Aspect Ratio: 9:16
- Creative Constraints
- Color Palette
- General Context
2. PRODUCT + TALENT / STYLING REFERENCE
- Product reference details
- Suitable talent or user persona if needed
- Wardrobe / accessories / props / interaction references
- If a model is not necessary, use product-interaction or hands-only references
- Vertical framing considerations for showing the product clearly in a 9:16 composition
3. ENVIRONMENT & SET DESIGN
- Primary filming environment(s)
- Set styling direction
- Lighting direction
- Category-appropriate context
- Top-down movement / camera plan with numbered positions and arrows
- Vertical-safe composition notes for product placement, talent placement, hands, props, and final hero shot
4. STORYBOARD PANEL SECTION
Create 6 storyboard frames. Each frame should include:
- shot number
- approximate time range
- frame visual
- camera / lens
- shot size
- camera movement
- action description
- optional voiceover or on-screen text
- mood or sound cue
Use a strong 15-second vertical ad sequence such as:
1. strong hero hook / product reveal
2. product introduction or user interaction
3. detail / feature / texture close-up
4. product-in-use moment
5. benefit, lifestyle, or emotional payoff
6. final packshot with tagline / CTA
Recommended 15-second timing:
- Shot 1: 0–2s — strong visual hook or product hero reveal
- Shot 2: 2–5s — product introduction or user interaction
- Shot 3: 5–7.5s — detail / feature / texture / ingredient / material close-up
- Shot 4: 7.5–10s — product-in-use moment
- Shot 5: 10–12.5s — lifestyle benefit or emotional payoff
- Shot 6: 12.5–15s — final hero packshot with tagline / CTA
Adapt the sequence if a different structure is better for the product.
5. SHORT SCRIPT / VOICEOVER SECTION
Include a concise 15-second script that matches the 6 storyboard frames.
The script should be short, natural, and commercially persuasive.
Include:
- voiceover suggestions if appropriate
- short on-screen text suggestions
- final CTA line
Keep the script suitable for a 15-second vertical ad.
6. LIGHTING / MOOD / STYLE NOTES
7. MOOD & KEYWORDS
8. AUDIO / TONE
9. CINEMATOGRAPHY NOTES
Adapt intelligently to the product type, such as food, beverage, beauty, skincare, supplements, wellness, household, fashion, accessories, pet, tech, or luxury products.
Requirements:
- premium creative agency presentation style
- real commercial planning aesthetic
- vertical 9:16 storyboard board
- clear grid structure and section dividers
- high information density
- concise but specific production notes
- highly legible English text
- mobile-first visual planning
- enough detail for Seedance 2.0 to understand visual flow, subject styling, scene design, shot progression, camera direction, pacing, and emotional tone
Vertical 9:16 Requirements:
- All storyboard frames should be composed for vertical video.
- Keep the product, talent, hands, face, key action, and on-screen text inside the vertical safe area.
- Avoid placing important product details too close to the edges.
- Use centered product hero shots, elegant vertical close-ups, clean negative space, and mobile-friendly framing.
- The final packshot should clearly display the product as the visual hero.
Optimization Priority:
1. Preserve product identity
2. Optimize for 15-second short-form commercial clarity
3. Maximize vertical 9:16 composition quality
4. Make the storyboard specific enough for AI video generation
5. Use the most persuasive premium ad logic
6. Keep the board clean, structured, and readable
Generate the strongest possible 15-second vertical 9:16 commercial storyboard for the product in Image A.

(推荐选择信息图并将上述提示输入以生成图像)
此故事板提示的要点
此提示中重要的点主要有四个。
首先, 建立15秒广告的结构。
对于15秒视频来说,6个镜头比8个镜头更合适。
加入太多场景会使画面快速流逝,从而模糊信息。
加入太多场景会使画面快速流逝,从而模糊信息。
因此此提示设计为由6个场景组成。
其次, 明确指定9:16竖向构图。
YouTube Shorts、Instagram Reels、TikTok、Meta广告等以竖向视频为主。
从一开始就以竖向构图设计故事板,后续制作阶段画面才不会被裁切。
从一开始就以竖向构图设计故事板,后续制作阶段画面才不会被裁切。
第三, 自动推断产品类别。
根据产品是食品、美妆、宠物用品还是科技产品,广告流程应有所不同。
此提示设计用于从产品图像中推断类别、目标客户、使用场景和情感要点。
第四, 加入视频生成模型能够理解的制作语言。
包含相机镜头、镜头尺寸、相机移动、灯光、声音、情感基调等内容,会使视频生成模型更可能将其理解为“拍摄分镜”而非单纯图像。

步骤 2. 在 SellerVisor 上基于故事板生成视频
当故事板图像制作完成后,进入下一步。
在 SellerVisor 上生成视频时同时使用两张图片。
Image 1 = 产品主图
Image 2 = 在 SellerVisor 上生成的故事板图像
Image 2 = 在 SellerVisor 上生成的故事板图像
这里重要的是明确分配 Image 1 和 Image 2 的角色。
Image 1 用于保留产品名称、标志、包装颜色、产品形态和实际尺寸作为参考标准。
Image 2 则作为指示视频场景顺序、相机流程、灯光、氛围以及最终产品镜头的标准。
Image 2 则作为指示视频场景顺序、相机流程、灯光、氛围以及最终产品镜头的标准。
也就是说,在 SellerVisor 视频生成阶段应这样指示。
保持产品如 Image 1 所示,视频按 Image 2 的故事板制作。
基于两张上传的参考图片,制作一段高质量的15秒竖版商业视频。
视频格式:
- 时长:15秒
- 纵横比:9:16 竖向
- 风格:高端电视广告 / 高级竖版数字广告
- 平台适配:移动优先的短视频广告
输入图片角色:
- Image 1 是主要产品参考图。
- Image 2 是故事板参考图。
- Image 1 定义确切的产品身份。
- Image 2 定义创意方向、场景流程、镜头顺序、视觉风格、相机移动、氛围、灯光、节奏和制作计划。
不要在视频中以分镜表的形式展示 Image 2。
仅将 Image 2 用作生成最终视频的创意和制作指南。
核心目标:
生成一段精致、电影感、高端的15秒竖版商业视频,遵循 Image 2 的故事板方向,同时尽可能准确地保留 Image 1 中的产品。
如果 Image 2 最初为更长的视频或横向格式设计,请智能地将故事板压缩为尽可能强有力的15秒9:16竖版商业片。
保留核心广告理念、关键产品时刻、情感流程和最终的产品英雄镜头,但为短视频节奏简化序列。
产品准确性 — 最高优先级:
将 Image 1 中的产品视为锁定的视觉参考。
从 Image 1 保留以下内容:
- 产品类型
- 产品形状
- 包装结构
- 包装材料
- 主要颜色
- 标志
- 品牌名称
- 产品名称
- 标签布局
- 可见的图标、徽章、宣称和认证
- 与手部、道具、家具和环境相比的尺寸关系
- 整体产品识别
不要重新设计、重新诠释、重命名或替换产品。
不要创建不同的品牌。
不要发明新的标志。
不要更改产品名称。
不要更改包装格式。
不要改变主要产品颜色。
不要添加虚假的认证、徽章、宣称或无关文字。
不要在产品标签上生成随机不可读的文字。
不要让产品看起来像不同的类别。
产品比例要求:
产品必须根据 Image 1 及其产品类别以真实的物理尺寸出现。
当手持、放在桌上、置于道具旁或在生活方式场景中展示时,产品比例必须保持可信且一致。
不要让产品显得过大。
不要让产品太小。
不要扭曲产品比例。
在所有场景中保持产品尺寸一致。
竖向 9:16 构图要求:
为每个镜头在竖向 9:16 画面内进行构图。
将产品、手部、面部和重要动作保持在竖向安全区域内。
避免将关键产品细节放得过于靠近边缘。
使用感觉有目的性、精致且以移动端为先的竖向构图。
如果 Image 2 中的故事板为横向,请在不丢失关键故事或产品焦点的情况下将构图调整为竖向。
使用居中的产品英雄镜头、竖向特写、干净的留白和移动端友好的构图。
遵循故事板要求:
将 Image 2 作为主要的故事板指南。
请仔细遵循:
- 核心镜头顺序
- 场景推进
- 视觉指引
- 相机角度
- 相机移动
- 镜头大小
- 环境设计
- 演员指导
- 道具
- 灯光氛围
- 色彩方案
- 音频指引
- 屏幕文字建议
- 最终主视觉产品镜头
如果图像2包含超过4–6个镜头,请将分镜压缩为简洁的15秒结构。
优先顺序:
1. 强有力的开场产品吸引点
2. 产品或用户互动
3. 特写功能/细节时刻
4. 产品使用中或情感利益时刻
5. 最终主视觉包装镜头,产品焦点清晰并带有CTA
如果图像2包含书面镜头备注、相机备注、时间码或制作指示,请尽可能遵循它们。
如果图像2中的某些文字无法完全辨认,请根据分镜的视觉、布局和顺序推断预期的商业流程。
15秒节奏:
使用快速但有质感的节奏。
视频不应显得匆忙或混乱。
在15秒内使用大约4到6个清晰镜头。
每个镜头应在视觉上清晰且易于理解。
前2秒必须制造强烈的视觉吸引点。
最后2到3秒必须清晰展示产品主视觉镜头。
推荐节奏:
- 0–2秒:强有力的产品或生活方式吸引点
- 2–5秒:产品介绍或用户互动
- 5–8秒:细节、功能、质地、成分、材质或利益特写
- 8–12秒:产品使用中或情感生活方式回报
- 12–15秒:最终产品主视觉镜头,简洁的CTA
商业风格:
制作高端、逼真、电影感的商业广告。
视频应看起来像专业电视广告或高端数字广告。
使用平滑的相机移动、干净的构图、精致的灯光、逼真的环境以及人物出现时的自然表演。
视觉风格应与产品类别和分镜方向匹配。
除非分镜明确要求,否则不要使用卡通、动漫、玩具风格的CGI、廉价素材视频风格或不真实的奇幻效果。
场景与角色一致性:
如果分镜包含真人模特,保持相同的模特外观在各镜头之间一致。
除非分镜显示场景变化,否则保持服装、发型、灯光和环境的一致性。
人物动作应自然、逼真并具商业化的精致感。
手部和产品互动应看起来自然逼真。
避免畸形的手、不自然的手势、闪烁的人脸或不一致的角色身份。
产品可见性:
产品应在关键产品时刻按分镜清晰出现。
对于产品主视觉镜头,产品应清晰、居中且视觉上准确。
对于生活方式镜头,产品应保持可识别性和一致性。
对于最终包装镜头,优先考虑产品准确性、干净的构图、真实的比例和标签可读性。
文字与标志控制:
仅在分镜建议或确实能清晰支持商业目的时使用屏幕文字。
所有屏幕文字应简洁、干净、短小,并为9:16竖屏视频专业排版。
除非分镜明确需要,否则每个场景不要使用超过1行简短文字。
不要拼写错误产品名称。
不要随意创建营销声明。
不要更改或重写出现在产品包装上的文字。
如果标签文字不能被完美保留,请保持产品在视觉上的准确性,避免长时间的特写暴露出变形的文字。
相机与剪辑:
根据图像2的相机计划,进行9:16竖屏构图的调整。
使用专业的商业摄影语言:
- 缓慢推进
- 平滑的推轨移动
- 干净的跟拍镜头
- 优雅的特写
- 适当时的微距细节镜头
- 竖向生活方式构图
- 最终产品主视觉镜头
转场应感觉平滑、有质感且有意图。
节奏应匹配15秒短片广告。
视频应感觉像一则连贯的商业广告,而不是断裂的随机片段。
灯光与色彩:
遵循图像2的色彩方案和灯光氛围。
同时尊重图像1中产品的原始色彩方案。
使用精致的商业调色。
保持灯光逼真且有质感。
避免过曝、强烈阴影、色偏或使产品看起来不准确的变化。
音频:
如果生成音频,请遵循图像2中的音频/基调指引。
使用适合产品类别和商业风格的音乐与音效设计。
声音应感觉高端、干净并与分镜在情感上保持一致。
如果使用旁白,请使其自然、清晰、简洁并适合15秒商业广告。
除非分镜要求,否则不要添加夸张或激烈的音频。
旁白/脚本时长:
如果视频包含旁白,请保证其时长适合15秒。
只使用1到3句简洁的配音台词。
配音应支持分镜,而不是解释一切。
优先强调情感、产品体验和明确的最终号召性用语。
声明与合规安全:
不要提出没有依据的主张。
除非产品图片或分镜中明确展示并且合规,否则不要添加医疗、法律、财务、安全或性能相关的主张。
除非参考资料中明确包含且合规,否则不要声称产品能治愈、治疗、预防、诊断、保证或永久解决任何问题。
不确定时,应关注生活方式、使用场景、产品体验、质量提示、便利性、情感收益和视觉叙事。
禁止性指示:
不要展示分镜板本身。
不要忽视分镜。
不要创造与图像2无关的新视频概念。
不要更改图像1中的产品身份。
不要更改标志。
不要更改产品名称。
不要更改包装类型。
不要更改产品颜色。
不要在包装上添加虚假文字。
不要使产品比例不真实。
不要创建多个不一致的产品版本。
不要引入无关的产品。
除非分镜明确要求,否则不要使用不现实的CGI。
不要制造畸形的手、扭曲的包装、闪烁的标签、不稳定的产品形状或不一致的产品比例。
不要在竖屏画面内使用横向构图。
不要裁切掉重要的产品细节。
不要让视频看起来像随机的B-roll素材。
最终输出:
生成一段精致、真实、具有高级感的15秒竖屏9:16商业广告视频,遵循图像2中的分镜,并最大限度准确保留图像1中的产品,确保真实比例、一致品牌、干净的电影摄影、移动优先的竖屏构图以及强有力的商业叙事。
这种方式的优点
本次第二弹工作流程的核心优点是整个过程在 SellerVisor 内部连续完成这一点。
上次的流程是在 ChatGPT 中制作分镜,然后转到单独的视频生成工具。
但这次的方式不同。
在 SellerVisor 中上传产品图片
在 SellerVisor 中制作广告分镜
在 SellerVisor 中基于该分镜生成视频。
在 SellerVisor 中制作广告分镜
在 SellerVisor 中基于该分镜生成视频。
这样一来,对于卖家来说工作流程会简单得多。
为什么对亚马逊卖家重要?
亚马逊卖家既是产品的销售者,同时也是需要持续制作内容的人。
需要详情页图片、社交媒体帖子、广告素材和短视频等多种内容。
特别是考虑到外部流量时,视频内容的重要性更高。
但对每个产品都进行拍摄在现实中是困难的。
这时,SellerVisor 的 AI 视频工作流程可以成为卖家的一种试验工具。
与其一次性替代成品电视广告,倒不如说它更像是
一个快速测试广告概念并制作多版本产品视频的工具。
一个快速测试广告概念并制作多版本产品视频的工具。
例如可以进行以下测试。
- 以产品主角镜头为中心的广告
- 以使用场景为中心的广告
- 以成分或材质为中心的广告
- 以生活方式为中心的广告
- 展示前后情境的解决问题型广告
- 强调品牌感性的高端广告
过去要做这些测试需要拍摄费用。
现在可以从一张产品图片开始,快速制作多种视频概念。
实际需要注意的事项
不过 AI 视频生成尚不完美。
尤其在产品广告方面,有一些必须审核的部分。
首先,产品名称是否准确?
AI 视频模型有时无法完全保留产品标签上的文字。
AI 视频模型有时无法完全保留产品标签上的文字。
其次,标志是否被改变?
如果品牌标志有任何改变,就难以作为实际广告素材使用。
如果品牌标志有任何改变,就难以作为实际广告素材使用。
第三,产品尺寸是否与实际一致?
产品在手中显得太大或太小会降低可信度。
产品在手中显得太大或太小会降低可信度。
第四,包装颜色和形状是否保持不变?
AI 有时会把产品变成瓶子、盒子、袋子等其他形式。
AI 有时会把产品变成瓶子、盒子、袋子等其他形式。
第五,广告文案是否夸大或可能违反政策?
尤其是保健品、美妆、补充剂类目,应谨慎表述功效。
尤其是保健品、美妆、补充剂类目,应谨慎表述功效。
因此,不应直接将 AI 生成的视频作为广告投放,必须由人工进行最终审核。
这也是我们在提示词中强烈加入产品名、标志、包装、实际尺寸和防止虚假主张的原因。
SellerVisor 推荐的使用方法
本次工作流程建议按以下顺序进行。
- 准备产品主图。
- 在 SellerVisor 中生成15秒竖屏广告分镜。
- 确认生成的分镜并检查镜头流程是否与产品匹配。
- 在 SellerVisor 中同时上传产品图片和分镜图片并生成视频。
- 在完成的视频中审核产品名称、标志、包装、产品尺寸和广告文案。
- 如有必要,最后的结束画面可用单独的产品图片进行补强。
特别是最后2~3秒的产品主角镜头非常重要。
如果 AI 无法完美保留产品标签,至少可以将最后的结束画面用高质量的产品图片编辑并替换,这是个好方法。
结语
本次第二弹的核心很简单。
在 SellerVisor 制作分镜,在 SellerVisor 制作视频。
上次我们使用 ChatGPT 来制作分镜。
这次我们将这一过程带入了 SellerVisor 内部。
这次我们将这一过程带入了 SellerVisor 内部。
这种差别并不小。
对于亚马逊卖家来说,与其在多个工具间来回操作,不如以一张产品图片为中心,将广告概念和视频串联起来,这样更实用。
AI 视频尚不完美。
但如果以产品图片固定身份,用分镜确定视频流程,最后由人工审核,这种结构的可用性会大幅提升。
SellerVisor 将继续改进此工作流程,帮助亚马逊卖家更快速地制作产品内容并测试更多广告概念。
从一张产品照片开始的广告视频制作。
现在这不仅仅是一个简单的试验,而是成为卖家可以实际测试的内容制作方式。