O Happy Horse premia estrutura em vez de verbosidade. O modelo tem o que o guia de prompts dele chama de "prompt budget" — passou de mais ou menos 60 palavras, rostos viram genéricos, o movimento fica empapado e o lip-sync escorrega. A correção é a fórmula em seis partes, o mesmo esqueleto em torno do qual o time ATH da Alibaba construiu o modelo.
Este guia adapta essa fórmula para vídeo UGC de influenciador de IA especificamente: Reels talking-head, anúncios patrocinados em lip-sync, variantes multilíngues, mini-histórias multi-shot e peças atmosféricas de mood. Todo template é copy-paste e foi feito para encaixar no pipeline da OmniGems AI ao lado dos persona anchors do GPT-Image-2.
Para o pano de fundo do que é o Happy Horse e por que rodamos ele como modelo de vídeo padrão, veja o guia pilar do Happy Horse.
A fórmula em seis partes
Todo prompt no Happy Horse tem seis blocos. A ordem importa. Bloco a bloco:
- Subject — quem ou o que está em tela, com as invariantes de persona reafirmadas
- Action — o que faz, como uma única frase fluida de movimento
- Environment — cenário, iluminação, hora do dia
- Style/Composition — aspect ratio, enquadramento, tom visual
- Camera Motion — movimento explícito ou enquadramento estático
- Audio — script de voiceover, idioma, leito ambiente
Pule um bloco e o modelo preenche com um default genérico. Sempre forneça os seis, mesmo que a resposta seja "static, no camera motion" ou "no voiceover, ambient only".
Por que a ordem dos blocos importa
O modelo parseia prompts da esquerda para a direita e dá peso maior aos blocos iniciais. Subject e Action carregam o maior orçamento de qualidade. Se você enterrar as invariantes de persona embaixo de descrição decorativa de ambiente, a persona oscila. Lidere com quem e o quê; deixe ambiente, estilo e câmera caírem nos lugares depois.
O prompt budget
Mire em 40–60 palavras totais entre os seis blocos. Vinte é fino demais (o modelo preenche lacunas de forma imprevisível). Oitenta é denso demais (a qualidade dilui entre os blocos). Quarenta a sessenta é o sweet spot.
A disciplina que te leva lá: um substantivo específico e um adjetivo específico por bloco. Não "a beautiful young woman with stunning features in a lovely outfit" — isso é seis adjetivos fazendo o trabalho de um substantivo. Tente "26-year-old, olive skin, cream turtleneck". Três substantivos, três modificadores, pronto.
Template 1: Reel talking-head
O arroz com feijão. Persona fala para a câmera, 9:16, 8–12 segundos, single-shot, tom conversacional.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 palavras. Dentro do budget. Todo bloco tem um substantivo específico e um modificador específico. Passe o persona anchor do GPT-Image-2 como imagem de referência e o modelo segura o rosto.
O que variar
- Script de áudio — troque a linha, mantenha tudo o mais
- Environment — troque "Brooklyn café" por "Tokyo subway platform" ou "Seoul rooftop at night"
- Hora do dia — troque "golden hour" por "blue hour" ou "harsh midday"
- Roupa — reafirme a roupa em Subject se estiver trocando; o modelo precisa do cue
Template 2: anúncio UGC patrocinado com lip-sync
O formato pelo qual marcas de fato pagam. Persona na câmera, segurando o produto, entregando a linha da marca.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 palavras. Passe duas imagens de referência (persona anchor + still do produto). O modelo lida com input multi-image de forma limpa.
Dicas de lip-sync
- Cite o script verbatim no bloco Audio — parafrasear o script no prompt produz lip-sync escorregado
- Especifique o idioma explicitamente mesmo se for inglês — o modelo usa para selecionar padrões de lábio em nível de fonema
- Para nomes de marca com pronúncia incomum, escreva foneticamente entre parênteses:
"Try our new Nuance (NEW-AHNS) cream"
Template 3: variante localizada multilíngue
Mesma persona, mesma cena, idioma diferente. É aqui que o Happy Horse compõe — gere quatro variantes de idioma de um anúncio a partir de um único esqueleto de prompt.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
Os únicos blocos que mudam entre variantes de idioma são o script dentro de Audio e o rótulo do idioma. Subject, Action, Environment, Style, Camera ficam idênticos. É por isso que uma geração no Happy Horse por idioma substitui um reshoot inteiro.
Idiomas suportados com lip-sync forte
Inglês, mandarim, cantonês, japonês, coreano, alemão, francês. Para outros idiomas o modelo ainda gera áudio mas a qualidade do lip-sync degrada — veja o comparativo Happy Horse vs Sora 2 vs Veo 3.
Template 4: mini-história multi-shot
Batida de 15 segundos com setup → ação → payoff. Comprima a sequência em uma única frase fluida de movimento no bloco Action — prosa multi-step quebra os cortes.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 palavras — um pouco acima do budget mas multi-shot inerentemente precisa de mais. O truque: enumere os shots dentro de Camera, não em Action. Action descreve o movimento contínuo da persona; Camera descreve como a câmera observa.
Por que isso funciona
O Happy Horse treina em sequências multi-shot mas parseia o movimento da persona como uma única trajetória. Se você divide a trajetória em múltiplas frases em Action, o modelo trata cada frase como um pedido de geração independente e a continuidade quebra. Uma frase em Action, um movimento de persona, uma batida contínua — mesmo quando a câmera corta.
Template 5: peça atmosférica de mood
Mais lenta, cinematográfica, sem fala. Usado para posts de brand-establishing e anúncios de lançamento de influenciador.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 palavras. Esse formato se apoia nos pontos fortes do Happy Horse — atmosférica, dinâmica de tecido, consistência geométrica em reflexos, color grading nível cinema.
Quando usar
- Posts de lançamento de influenciador (apresentando a persona ao feed)
- Clipes de abertura de campanha (estabelecem o mood antes do anúncio talking-head aterrissar)
- Brand films patrocinados em que a persona é o sujeito da cinematografia, não o speaker
Erros comuns de prompt
- Blocos Subject inchados — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" come metade do budget. Comprima: "26-year-old, auburn hair, cream turtleneck."
- Action multi-step em prosa — "She opens the door, walks to the table, sits down, picks up a book, then opens it" produz cortes quebrados. Comprima: "Opens door, sits at table reading."
- Cinematografia decorativa — "stunning, breathtaking, professional film look" é ruído. O modelo quer vocabulário concreto de cinematografia: "locked-off medium close-up, eye level, slight handheld drift."
- Pular o Audio — se você não especifica, recebe ambiente aleatório. Sempre descreva pelo menos o leito de áudio, mesmo em clipes sem fala: "ambient café sound, no voiceover."
- Tags de idioma vagas — "speaking the brand line" sem um bloco Audio produz lip-sync de qualidade TTS. Sempre cite o script verbatim e rotule o idioma explicitamente.
- Reafirmar a descrição do persona anchor em texto — passe o anchor como imagem de referência; em Subject, basta escrever "Same persona as reference, same face, same hair." A imagem carrega o peso.
Workflow de iteração de prompt
A disciplina de uma mudança por passe que funciona para geração de imagem funciona para vídeo também:
- Gere o clipe base com o prompt completo de seis blocos
- Trave cinco blocos; varie um
- Compare o output com o base; mantenha o que funciona
- Vá para o próximo bloco; varie aquele
- Pare de iterar quando tiver um clipe que entrega
É assim que conteúdo em série se mantém coerente em 30+ Reels diários. Mesmo persona anchor, mesmo esqueleto de prompt, uma variável por vez. Tentar variar três blocos de uma vez produz output imprevisível e uma pasta de takes inutilizáveis.
Como a OmniGems AI usa essa fórmula
Dentro do OmniGems AI Studio, o briefing de persona do influenciador auto-gera o bloco Subject. O cronograma de conteúdo do criador define os blocos Action e Audio. Defaults de Style e Camera são definidos por plataforma (9:16 para Reels/TikTok/Shorts, 16:9 para YouTube long-form). O criador só escreve a variação de Action e Audio — o resto é templated.
É o que transforma o Happy Horse de modelo de vídeo poderoso em componente de pipeline de conteúdo. Disciplina no nível do prompt escala a disciplina no nível da persona.
Próximos passos
- Para entender por que escolhemos o Happy Horse no lugar do Sora 2 e do Veo 3, veja Happy Horse vs Sora 2 vs Veo 3
- Para o workflow de persona anchor que alimenta o image-to-video, veja GPT-Image-2 para influenciadores de IA
- Para aspect ratios e formatos por plataforma, veja Melhores aspect ratios para plataformas sociais
- Para a estrutura de prompt do lado da imagem, veja Como escrever prompts para conteúdo de influenciador de IA
Comece a gerar
Teste a fórmula em seis partes dentro do OmniGems AI Studio. Persona anchor resolvido, pipeline de vídeo integrado, roteamento de modelo por clipe disponível, agente de publicação e lançamento de token no mesmo fluxo.