SellerVisor Blog

Cómo controlar completamente los videos de producto con GPT Image 2 + SellerVisor

Publicado el 1/5/2026 23:02:25

Seré franco.

En las últimas semanas, al probar herramientas de generación de vídeo con IA, quemé una enorme cantidad de créditos. Y la mayoría de los resultados no servían.

Las etiquetas de los productos quedaron borrosas, las pastillas tipo tablet eran del tamaño de un guisante en un fotograma y al siguiente del tamaño de una moneda. Los nombres de las marcas cambiaban de forma extraña y no parecía el mismo producto a lo largo del vídeo. Incluso cuando salía algo decente, no era por habilidad sino por suerte.

No creo que sea el único que haya tenido estos problemas.

Así que me hice una pregunta fundamental. ¿Por qué se repite esto? ¿Y existe una solución real?

Tras semanas de experimentos, encontré un método. Y esta forma de trabajar cambió por completo mi perspectiva sobre los vídeos de productos generados por IA. Hoy comparto ese flujo de trabajo paso a paso.

Por qué esta técnica es importante

Empecemos por el problema básico de la generación de vídeo con IA.

Si intentas crear un vídeo de producto solo con prompts de texto, la IA imagina el producto desde cero en cada fotograma. No hay puntos de referencia visuales. Por eso el producto cambia un poco en cada fotograma: la tipografía de la etiqueta varía, los colores cambian sutilmente y las proporciones se desmoronan.

Aquí está la idea clave.

No dejes que la IA imagine el producto. Muéstraselo.

¿Y si, antes de generar el vídeo, creas cada escena como una imagen fija? En lugar de que la IA vuelva a interpretar cada fotograma, el vídeo se construye sobre imágenes ya definidas.

Eso es precisamente el núcleo del flujo de trabajo GPT Image 2 + SellerVisor.

Y hay una razón muy práctica para esto.

Generar vídeo con IA consume muchos créditos. Si no te gusta el resultado y lo vuelves a generar una y otra vez, los créditos desaparecen en un instante. Si confirmas las imágenes del storyboard por adelantado, reduces el número de intentos de generación de vídeo. Porque aumentan drásticamente las probabilidades de conseguir un buen resultado en el primer o segundo intento. Esto es tanto una cuestión de calidad como de control de costes.

Paso 1. Generar imágenes del storyboard en el modo GPT Image 2

El modo Image 2 de ChatGPT está en boca de todos. La calidad es realmente buena y ahora se puede usar con confianza. Hace poco usábamos NanoBanana de Google, pero ahora el modo IMAGE 2 de GPT genera imágenes de mucha mejor calidad.

Lo que hay que hacer aquí es simple: generar como imágenes fijas cada una de las escenas que quieres convertir en vídeo.

Un anuncio de 15 segundos suele constar de unas 6 escenas. Por ejemplo:

Escena 1. Gancho / Planteamiento del problema — Apertura que muestra la molestia del cliente objetivo

Escena 2. Aparición del producto — Toma heroica en estilo estudio y pulcro

Escena 3. Ingrediente clave o principio de funcionamiento — Visualizar la diferencia del producto

Escena 4. Modo de uso — Escena de estilo de vida real

Escena 5. Elemento de confianza — Certificaciones, cifras, testimonios, etc.

Escena 6. Toma final heroica + CTA

Prompt real utilizado

I would like to create a 15-second advertisement video for the attached product. It will be a vertical-format ad video. Please generate a high-quality, professional storyboard image for the actual advertisement, with all scenes presented consistently within a single image, based on an advertising concept designed to help this product sell as effectively as possible.

Al introducir prompts en GPT Image 2 para cada escena, siga dos reglas imprescindibles.

Primero, especifica las características del producto con detalle. Anota el color del envase, el texto de la etiqueta, el tamaño, el material y todo lo más detallado posible. Por ejemplo: "envase cerámico blanco estilo redondo, etiqueta con Tidalove Fluoride Toothpaste Tablets Cool Mint, altura aprox. 8 cm", algo así.

Segundo, indica el ángulo de cámara y la iluminación. Si defines la dirección de la toma como "toma heroica frontal, luz natural suave, fondo crema", luego será mucho más natural combinar las escenas en vídeo.

Si la imagen generada no te convence, modifícala en el momento. Es crucial confirmar las imágenes antes de pasar al vídeo. El coste de rehacer una imagen es solo una fracción del coste de rehacer un vídeo entero.

Cuando todas las imágenes de las escenas estén listas, eso es tu storyboard.

(Enlace para ver el vídeo)

https://youtube.com/shorts/JO1b9Um2Z54?si=Kg0_FvMWEaHt2OAF

Paso 2. Crear el vídeo en SellerVisor basándote en el storyboard

Ahora pásate a la función de creación de vídeo de SellerVisor.

Aquí se hace evidente la diferencia entre la generación típica de vídeo por IA y este flujo de trabajo.

La forma habitual es introducir solo un prompt de texto y generar el vídeo. La IA imagina todo desde cero.

Este método es distinto. Adjunta las imágenes del storyboard que creaste en el paso 1. Sube también imágenes de referencia del producto. Luego redacta un prompt de alta calidad que refleje lo máximo posible el storyboard. También comparto el prompt que usé. Compruébalo abajo.

Paso 3. Prompt público

Comparto la estructura del prompt que realmente usé en las pruebas. Puedes adaptarlo a tu producto y usarlo de inmediato.

A premium 15-second wellness supplement commercial in cinematic 9:16 vertical format.

Soft natural lighting, clean modern aesthetic, sage green and warm cream color palette.

Smooth professional camera movements only — no glitches, no distortion.

Product bottle and all on-screen text remain perfectly stable, sharp, and unaltered throughout.

0-2s (Hook / Problem):

Medium shot of a woman in her 30s sitting at a bright minimalist kitchen counter,

resting her chin on her hand with a tired, conflicted expression.

A plate of cookies, a bowl of chips, and a slice of brownie sit in front of her.

She holds a small cookie near her mouth, hesitating.

Soft morning light from the left. Subtle shallow depth of field.

Camera: slow 5% push-in, locked and steady.

2-4s (Product Reveal):

Smooth dissolve to a clean studio scene.

A dark amber glass supplement bottle labeled "BIOMA GLP-1 BOOSTER"

stands centered on a sage green cylindrical pedestal against a soft gradient sage backdrop.

A single monstera leaf is visible behind it. Two cream-colored capsules rest beside the base.

Soft rim light from behind, gentle key light from front-left.

Camera: slow 360° orbit at 30% speed around the bottle, then settles to a frontal hero angle.

The bottle, label text, and capsule shapes stay completely stable — no morphing, no warping.

4-7s (Formula / How It Works):

The bottle remains anchored on the left third of the frame, perfectly still.

On the right side, three soft circular icons gently fade in one by one in sequence:

first a probiotic icon, then a prebiotic leaf icon, then a postbiotic dot pattern icon.

Tiny floating particles of light drift slowly upward between the icons.

Camera: completely locked off, no movement. Bottle and label remain crystal sharp.

7-10s (Daily Use / Lifestyle):

Cut to a split-screen lifestyle moment.

Left half: the same woman, now smiling and refreshed, taking two cream capsules with a glass of water in soft morning kitchen light.

Right half: the same woman outdoors, eyes closed, breathing deeply against a soft-focus tropical green background, looking calm and energized.

Camera: gentle 3% push-in on both halves. Natural skin tones, warm golden hour lighting.

10-13s (Trust / Quality Proof):

Return to the studio product shot — bottle centered on the sage pedestal, completely stable.

Small minimalist trust badges fade in softly around the bottle in a balanced layout:

Made in USA, Vegetarian, Non-GMO, Stimulant-Free, 1M+ Customers, 14-Day Guarantee.

Camera: extremely slow 2% push-in. Bottle and all text remain razor sharp and unchanged.

13-15s (Final Hero / CTA):

Final hero shot. The bottle stands centered on the pedestal, surrounded by a few scattered cream capsules and a soft monstera leaf shadow.

Gentle volumetric light beams from the upper right.

Subtle floating dust particles catch the light.

Camera: ultra-slow pull-back revealing the full composition, ending on a perfectly composed beauty shot.

The bottle, label, and brand name stay completely intact and legible the entire time.

Overall mood: clean, premium, trustworthy, modern wellness.

Reference quality: high-end skincare and supplement TV commercials (Olay, Ritual, Seed).

Strict rules: no glitch effects, no morphing, no text distortion, no product transformation,

no extreme camera moves. Bottle label "BIOMA GLP-1 BOOSTER" must remain readable in every frame.

영상 시청하기

https://youtube.com/shorts/cQVBoZynCjk?si=MM8PmRBMx2m-LMMa

Para finalizar

Al probar este flujo de trabajo he creado anuncios para las marcas GLP-1 Booster y Tidalove Toothpaste Tablets. Al confirmar primero las imágenes del storyboard y luego generar el vídeo, las transformaciones del producto se redujeron visiblemente y las escenas salieron como quería.

Crear vídeos con IA solo a partir de prompts de texto es como tirar dados. Crear primero las imágenes del storyboard y luego conectarlas al vídeo es como dibujar un plano y construir la casa a partir de él.

Vendedores de Amazon: los créditos son valiosos. Y vuestro tiempo lo es aún más.

Empieza con este método.

Bopyo SellerVisor Co-Founder

Crea ahora mismo tu primer storyboard en el modo GPT Image 2 de SellerVisor.

https://sellervisor.com/?utm_source=blog&utm_medium=post&utm_campaign=storyboard_workflow&utm_content=cta_bottom

← Volver

Por qué esta técnica es importante

Paso 1. Generar imágenes del storyboard en el modo GPT Image 2

Paso 2. Crear el vídeo en SellerVisor basándote en el storyboard

Paso 3. Prompt público

Para finalizar

Solicitar una demo en vivo