Happy Horse premia la estructura por encima de la verbosidad. El modelo tiene lo que su guía de prompts llama "prompt budget" — pasadas las 60 palabras aproximadas, las caras se vuelven genéricas, el movimiento se pone blando y el lip-sync deriva. La solución es la fórmula en seis partes, el mismo esqueleto sobre el que el equipo ATH de Alibaba construyó el modelo.
Esta guía adapta esa fórmula para vídeo UGC de influencers de IA específicamente: Reels talking-head, anuncios patrocinados con lip-sync, variantes multilingües, mini-historias multi-toma y mood pieces atmosféricas. Cada plantilla está lista para copiar y pegar y construida para encajar en el pipeline de OmniGems AI junto a las anclas de persona de GPT-Image-2.
Para contexto sobre qué es Happy Horse y por qué lo corremos como modelo de vídeo por defecto, mira la guía pilar de Happy Horse.
La fórmula en seis partes
Cada prompt de Happy Horse tiene seis bloques. El orden importa. Bloque a bloque:
- Subject — quién o qué está en pantalla, con las invariantes de la persona repetidas.
- Action — qué hace, como una sola frase de movimiento fluido.
- Environment — escenario, iluminación, hora del día.
- Style/Composition — aspect ratio, encuadre, tono visual.
- Camera Motion — movimiento explícito o encuadre estático.
- Audio — guion de voz en off, idioma, lecho ambiente.
Sáltate un bloque y el modelo lo rellena con un default genérico. Provee siempre los seis, aunque la respuesta sea "static, no camera motion" o "no voiceover, ambient only".
Por qué importa el orden de los bloques
El modelo parsea los prompts de izquierda a derecha y pondera más los bloques tempranos. Subject y Action se llevan la mayor parte del presupuesto de calidad. Si entierras las invariantes de la persona bajo descripción decorativa de entorno, la persona deriva. Lidera con quién y qué; deja que entorno, estilo y cámara caigan en su sitio después.
El prompt budget
Apunta a 40–60 palabras totales en los seis bloques. Veinte es muy delgado (el modelo rellena los huecos de forma impredecible). Ochenta es muy denso (la calidad se diluye entre bloques). Cuarenta a sesenta es el punto dulce.
La disciplina que te lleva ahí: un sustantivo específico y un adjetivo específico por bloque. No "una hermosa joven con rasgos sorprendentes en un atuendo precioso" — eso son seis adjetivos haciendo el trabajo de un sustantivo. Prueba "26-year-old, olive skin, cream turtleneck". Tres sustantivos, tres modificadores, listo.
Plantilla 1: Reel talking-head
El pan de cada día. Persona habla a cámara, 9:16, 8–12 segundos, una toma, tono conversacional.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 palabras. Dentro del budget. Cada bloque tiene un sustantivo específico y un modificador específico. Pasa el ancla de persona de GPT-Image-2 como imagen de referencia y el modelo mantiene la cara.
Qué variar
- Guion de audio — cambia la línea, mantén todo lo demás.
- Entorno — cambia "Brooklyn café" por "Tokyo subway platform" o "Seoul rooftop at night".
- Hora del día — cambia "golden hour" por "blue hour" o "harsh midday".
- Vestuario — repite el vestuario en Subject si lo cambias; el modelo necesita la pista.
Plantilla 2: anuncio UGC patrocinado con lip-sync
El formato por el que las marcas realmente pagan. Persona a cámara, sosteniendo el producto, soltando la línea de marca.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 palabras. Pasa dos imágenes de referencia (ancla de persona + still del producto). El modelo maneja entrada multi-imagen limpiamente.
Tips de lip-sync
- Cita el guion verbatim en el bloque Audio — parafrasear el guion en el prompt produce lip-sync derivado.
- Especifica el idioma explícitamente aunque sea inglés — el modelo lo usa para seleccionar patrones de labios a nivel de fonema.
- Para nombres de marca con pronunciación inusual, escríbelos fonéticamente en un paréntesis:
"Try our new Nuance (NEW-AHNS) cream".
Plantilla 3: variante localizada multilingüe
Misma persona, misma escena, idioma distinto. Aquí es donde Happy Horse compone — genera cuatro variantes lingüísticas de un anuncio desde un mismo esqueleto de prompt.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
Los únicos bloques que cambian entre variantes lingüísticas son el guion dentro de Audio y la etiqueta de idioma. Subject, Action, Environment, Style, Camera se quedan idénticos. Por eso una generación de Happy Horse por idioma reemplaza un rodaje entero.
Idiomas soportados con lip-sync fuerte
Inglés, chino mandarín, chino cantonés, japonés, coreano, alemán, francés. En otros idiomas el modelo sigue generando audio pero la calidad del lip-sync se degrada — mira el desglose de Happy Horse vs Sora 2 vs Veo 3.
Plantilla 4: mini-historia multi-toma
Beat de 15 segundos con setup → acción → payoff. Comprime la secuencia en una única frase de movimiento fluido en el bloque Action — la prosa multi-paso rompe los cortes.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 palabras — un poco por encima del budget, pero el multi-toma necesita más por naturaleza. El truco: enumera las tomas dentro de Camera, no en Action. Action describe el movimiento continuo de la persona; Camera describe cómo lo observa la cámara.
Por qué funciona
Happy Horse entrena en secuencias multi-toma pero parsea el movimiento de la persona como una sola trayectoria. Si partes la trayectoria en varias frases dentro de Action, el modelo trata cada frase como una petición de generación independiente y la continuidad se rompe. Una frase en Action, un movimiento de persona, un beat continuo — incluso cuando la cámara corta.
Plantilla 5: mood piece atmosférica
Más lenta, cinematográfica, sin diálogo. Se usa para posts de establecimiento de marca y anuncios de lanzamiento de influencer.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 palabras. Este formato se apoya en las fortalezas de Happy Horse — atmósferas, dinámica de tejidos, consistencia geométrica en reflejos, color grading de cine.
Cuándo usarla
- Posts de lanzamiento de influencer (presentar la persona al feed).
- Clips de apertura de campaña (fijar el mood antes de que aterrice el anuncio talking-head).
- Brand films patrocinados donde la persona es el sujeto de la cinematografía, no el speaker.
Errores comunes de prompt
- Bloques Subject hinchados — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" se come la mitad del budget. Comprime: "26-year-old, auburn hair, cream turtleneck".
- Prosa multi-paso en Action — "She opens the door, walks to the table, sits down, picks up a book, then opens it" produce cortes rotos. Comprime: "Opens door, sits at table reading".
- Cinematografía decorativa — "stunning, breathtaking, professional film look" es ruido. El modelo quiere vocabulario concreto de cinematografía: "locked-off medium close-up, eye level, slight handheld drift".
- Saltarse Audio — si no especificas, te da ambiente aleatorio. Describe siempre al menos el lecho de audio, incluso en clips sin diálogo: "ambient café sound, no voiceover".
- Etiquetas de idioma vagas — "speaking the brand line" sin un bloque Audio produce lip-sync de calidad TTS. Cita siempre el guion verbatim y etiqueta el idioma explícitamente.
- Repetir la descripción del ancla de persona en texto — pasa el ancla como imagen de referencia; en Subject, escribe simplemente "Same persona as reference, same face, same hair". La imagen carga el peso.
Workflow de iteración de prompts
La disciplina de un cambio por pasada que funciona en generación de imagen funciona también en vídeo:
- Genera el clip base con el prompt completo de seis bloques.
- Bloquea cinco bloques; varía uno.
- Compara el output con el base; quédate con lo que funciona.
- Pasa al siguiente bloque; varía ese.
- Para de iterar cuando tengas un clip que se pueda mandar.
Así es como el contenido en serie se mantiene coherente a lo largo de 30+ Reels diarios. Mismo ancla de persona, mismo esqueleto de prompt, una variable a la vez. Intentar variar tres bloques a la vez produce output impredecible y una carpeta de tomas inservibles.
Cómo usa esta fórmula OmniGems AI
Dentro del OmniGems AI Studio, el brief de persona del influencer auto-genera el bloque Subject. La agenda de contenido del creador define los bloques Action y Audio. Los defaults de Style y Camera se fijan por plataforma (9:16 para Reels/TikTok/Shorts, 16:9 para YouTube long-form). El creador solo escribe la variación de Action y Audio — el resto está plantillado.
Esto es lo que convierte a Happy Horse de un modelo de vídeo potente en un componente del pipeline de contenido. La disciplina a nivel de prompt escala la disciplina a nivel de persona.
Próximos pasos
- Para entender por qué elegimos Happy Horse frente a Sora 2 y Veo 3, mira Happy Horse vs Sora 2 vs Veo 3.
- Para el workflow de ancla de persona que alimenta el image-to-video, mira GPT-Image-2 para influencers de IA.
- Para aspect ratios y formatos por plataforma, mira Mejores aspect ratios para plataformas sociales.
- Para la estructura de prompts del lado imagen, mira Cómo escribir prompts para contenido de influencers de IA.
Empieza a generar
Prueba la fórmula en seis partes dentro del OmniGems AI Studio. Ancla de persona resuelta, pipeline de vídeo integrado, enrutado de modelo por clip disponible, agente de publicación y lanzamiento de token en el mismo flujo.