Como escrever prompts no Happy Horse: a fórmula em seis partes para vídeo de influenciador de IA

O Happy Horse premia estrutura em vez de verbosidade. O modelo tem o que o guia de prompts dele chama de "prompt budget" — passou de mais ou menos 60 palavras, rostos viram genéricos, o movimento fica empapado e o lip-sync escorrega. A correção é a fórmula em seis partes, o mesmo esqueleto em torno do qual o time ATH da Alibaba construiu o modelo.

Este guia adapta essa fórmula para vídeo UGC de influenciador de IA especificamente: Reels talking-head, anúncios patrocinados em lip-sync, variantes multilíngues, mini-histórias multi-shot e peças atmosféricas de mood. Todo template é copy-paste e foi feito para encaixar no pipeline da OmniGems AI ao lado dos persona anchors do GPT-Image-2.

Para o pano de fundo do que é o Happy Horse e por que rodamos ele como modelo de vídeo padrão, veja o guia pilar do Happy Horse.

A fórmula em seis partes

Todo prompt no Happy Horse tem seis blocos. A ordem importa. Bloco a bloco:

Subject — quem ou o que está em tela, com as invariantes de persona reafirmadas
Action — o que faz, como uma única frase fluida de movimento
Environment — cenário, iluminação, hora do dia
Style/Composition — aspect ratio, enquadramento, tom visual
Camera Motion — movimento explícito ou enquadramento estático
Audio — script de voiceover, idioma, leito ambiente

Pule um bloco e o modelo preenche com um default genérico. Sempre forneça os seis, mesmo que a resposta seja "static, no camera motion" ou "no voiceover, ambient only".

Por que a ordem dos blocos importa

O modelo parseia prompts da esquerda para a direita e dá peso maior aos blocos iniciais. Subject e Action carregam o maior orçamento de qualidade. Se você enterrar as invariantes de persona embaixo de descrição decorativa de ambiente, a persona oscila. Lidere com quem e o quê; deixe ambiente, estilo e câmera caírem nos lugares depois.

O prompt budget

Mire em 40–60 palavras totais entre os seis blocos. Vinte é fino demais (o modelo preenche lacunas de forma imprevisível). Oitenta é denso demais (a qualidade dilui entre os blocos). Quarenta a sessenta é o sweet spot.

A disciplina que te leva lá: um substantivo específico e um adjetivo específico por bloco. Não "a beautiful young woman with stunning features in a lovely outfit" — isso é seis adjetivos fazendo o trabalho de um substantivo. Tente "26-year-old, olive skin, cream turtleneck". Três substantivos, três modificadores, pronto.

Template 1: Reel talking-head

O arroz com feijão. Persona fala para a câmera, 9:16, 8–12 segundos, single-shot, tom conversacional.

Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."

49 palavras. Dentro do budget. Todo bloco tem um substantivo específico e um modificador específico. Passe o persona anchor do GPT-Image-2 como imagem de referência e o modelo segura o rosto.

O que variar

Script de áudio — troque a linha, mantenha tudo o mais
Environment — troque "Brooklyn café" por "Tokyo subway platform" ou "Seoul rooftop at night"
Hora do dia — troque "golden hour" por "blue hour" ou "harsh midday"
Roupa — reafirme a roupa em Subject se estiver trocando; o modelo precisa do cue

Template 2: anúncio UGC patrocinado com lip-sync

O formato pelo qual marcas de fato pagam. Persona na câmera, segurando o produto, entregando a linha da marca.

Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."

53 palavras. Passe duas imagens de referência (persona anchor + still do produto). O modelo lida com input multi-image de forma limpa.

Dicas de lip-sync

Cite o script verbatim no bloco Audio — parafrasear o script no prompt produz lip-sync escorregado
Especifique o idioma explicitamente mesmo se for inglês — o modelo usa para selecionar padrões de lábio em nível de fonema
Para nomes de marca com pronúncia incomum, escreva foneticamente entre parênteses: "Try our new Nuance (NEW-AHNS) cream"

Template 3: variante localizada multilíngue

Mesma persona, mesma cena, idioma diferente. É aqui que o Happy Horse compõe — gere quatro variantes de idioma de um anúncio a partir de um único esqueleto de prompt.

Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"

Os únicos blocos que mudam entre variantes de idioma são o script dentro de Audio e o rótulo do idioma. Subject, Action, Environment, Style, Camera ficam idênticos. É por isso que uma geração no Happy Horse por idioma substitui um reshoot inteiro.

Idiomas suportados com lip-sync forte

Inglês, mandarim, cantonês, japonês, coreano, alemão, francês. Para outros idiomas o modelo ainda gera áudio mas a qualidade do lip-sync degrada — veja o comparativo Happy Horse vs Sora 2 vs Veo 3.

Template 4: mini-história multi-shot

Batida de 15 segundos com setup → ação → payoff. Comprima a sequência em uma única frase fluida de movimento no bloco Action — prosa multi-step quebra os cortes.

Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.

68 palavras — um pouco acima do budget mas multi-shot inerentemente precisa de mais. O truque: enumere os shots dentro de Camera, não em Action. Action descreve o movimento contínuo da persona; Camera descreve como a câmera observa.

Por que isso funciona

O Happy Horse treina em sequências multi-shot mas parseia o movimento da persona como uma única trajetória. Se você divide a trajetória em múltiplas frases em Action, o modelo trata cada frase como um pedido de geração independente e a continuidade quebra. Uma frase em Action, um movimento de persona, uma batida contínua — mesmo quando a câmera corta.

Template 5: peça atmosférica de mood

Mais lenta, cinematográfica, sem fala. Usado para posts de brand-establishing e anúncios de lançamento de influenciador.

Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.

64 palavras. Esse formato se apoia nos pontos fortes do Happy Horse — atmosférica, dinâmica de tecido, consistência geométrica em reflexos, color grading nível cinema.

Quando usar

Posts de lançamento de influenciador (apresentando a persona ao feed)
Clipes de abertura de campanha (estabelecem o mood antes do anúncio talking-head aterrissar)
Brand films patrocinados em que a persona é o sujeito da cinematografia, não o speaker

Erros comuns de prompt

Blocos Subject inchados — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" come metade do budget. Comprima: "26-year-old, auburn hair, cream turtleneck."
Action multi-step em prosa — "She opens the door, walks to the table, sits down, picks up a book, then opens it" produz cortes quebrados. Comprima: "Opens door, sits at table reading."
Cinematografia decorativa — "stunning, breathtaking, professional film look" é ruído. O modelo quer vocabulário concreto de cinematografia: "locked-off medium close-up, eye level, slight handheld drift."
Pular o Audio — se você não especifica, recebe ambiente aleatório. Sempre descreva pelo menos o leito de áudio, mesmo em clipes sem fala: "ambient café sound, no voiceover."
Tags de idioma vagas — "speaking the brand line" sem um bloco Audio produz lip-sync de qualidade TTS. Sempre cite o script verbatim e rotule o idioma explicitamente.
Reafirmar a descrição do persona anchor em texto — passe o anchor como imagem de referência; em Subject, basta escrever "Same persona as reference, same face, same hair." A imagem carrega o peso.

Workflow de iteração de prompt

A disciplina de uma mudança por passe que funciona para geração de imagem funciona para vídeo também:

Gere o clipe base com o prompt completo de seis blocos
Trave cinco blocos; varie um
Compare o output com o base; mantenha o que funciona
Vá para o próximo bloco; varie aquele
Pare de iterar quando tiver um clipe que entrega

É assim que conteúdo em série se mantém coerente em 30+ Reels diários. Mesmo persona anchor, mesmo esqueleto de prompt, uma variável por vez. Tentar variar três blocos de uma vez produz output imprevisível e uma pasta de takes inutilizáveis.

Como a OmniGems AI usa essa fórmula

Dentro do OmniGems AI Studio, o briefing de persona do influenciador auto-gera o bloco Subject. O cronograma de conteúdo do criador define os blocos Action e Audio. Defaults de Style e Camera são definidos por plataforma (9:16 para Reels/TikTok/Shorts, 16:9 para YouTube long-form). O criador só escreve a variação de Action e Audio — o resto é templated.

É o que transforma o Happy Horse de modelo de vídeo poderoso em componente de pipeline de conteúdo. Disciplina no nível do prompt escala a disciplina no nível da persona.

Próximos passos

Para entender por que escolhemos o Happy Horse no lugar do Sora 2 e do Veo 3, veja Happy Horse vs Sora 2 vs Veo 3
Para o workflow de persona anchor que alimenta o image-to-video, veja GPT-Image-2 para influenciadores de IA
Para aspect ratios e formatos por plataforma, veja Melhores aspect ratios para plataformas sociais
Para a estrutura de prompt do lado da imagem, veja Como escrever prompts para conteúdo de influenciador de IA

Comece a gerar

Teste a fórmula em seis partes dentro do OmniGems AI Studio. Persona anchor resolvido, pipeline de vídeo integrado, roteamento de modelo por clipe disponível, agente de publicação e lançamento de token no mesmo fluxo.

Para o pano de fundo do que é o Happy Horse e por que rodamos ele como modelo de vídeo padrão, veja o guia pilar do Happy Horse.

A fórmula em seis partes

Todo prompt no Happy Horse tem seis blocos. A ordem importa. Bloco a bloco:

Subject — quem ou o que está em tela, com as invariantes de persona reafirmadas
Action — o que faz, como uma única frase fluida de movimento
Environment — cenário, iluminação, hora do dia
Style/Composition — aspect ratio, enquadramento, tom visual
Camera Motion — movimento explícito ou enquadramento estático
Audio — script de voiceover, idioma, leito ambiente

Pule um bloco e o modelo preenche com um default genérico. Sempre forneça os seis, mesmo que a resposta seja "static, no camera motion" ou "no voiceover, ambient only".

Por que a ordem dos blocos importa

O prompt budget

Template 1: Reel talking-head

O arroz com feijão. Persona fala para a câmera, 9:16, 8–12 segundos, single-shot, tom conversacional.

Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."

49 palavras. Dentro do budget. Todo bloco tem um substantivo específico e um modificador específico. Passe o persona anchor do GPT-Image-2 como imagem de referência e o modelo segura o rosto.

O que variar

Script de áudio — troque a linha, mantenha tudo o mais
Environment — troque "Brooklyn café" por "Tokyo subway platform" ou "Seoul rooftop at night"
Hora do dia — troque "golden hour" por "blue hour" ou "harsh midday"
Roupa — reafirme a roupa em Subject se estiver trocando; o modelo precisa do cue

Template 2: anúncio UGC patrocinado com lip-sync

O formato pelo qual marcas de fato pagam. Persona na câmera, segurando o produto, entregando a linha da marca.

Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."

53 palavras. Passe duas imagens de referência (persona anchor + still do produto). O modelo lida com input multi-image de forma limpa.

Dicas de lip-sync

Cite o script verbatim no bloco Audio — parafrasear o script no prompt produz lip-sync escorregado
Especifique o idioma explicitamente mesmo se for inglês — o modelo usa para selecionar padrões de lábio em nível de fonema
Para nomes de marca com pronúncia incomum, escreva foneticamente entre parênteses: "Try our new Nuance (NEW-AHNS) cream"

Template 3: variante localizada multilíngue

Mesma persona, mesma cena, idioma diferente. É aqui que o Happy Horse compõe — gere quatro variantes de idioma de um anúncio a partir de um único esqueleto de prompt.

Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"

Idiomas suportados com lip-sync forte

Template 4: mini-história multi-shot

Batida de 15 segundos com setup → ação → payoff. Comprima a sequência em uma única frase fluida de movimento no bloco Action — prosa multi-step quebra os cortes.

Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.

Por que isso funciona

Template 5: peça atmosférica de mood

Mais lenta, cinematográfica, sem fala. Usado para posts de brand-establishing e anúncios de lançamento de influenciador.

Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.

64 palavras. Esse formato se apoia nos pontos fortes do Happy Horse — atmosférica, dinâmica de tecido, consistência geométrica em reflexos, color grading nível cinema.

Quando usar

Posts de lançamento de influenciador (apresentando a persona ao feed)
Clipes de abertura de campanha (estabelecem o mood antes do anúncio talking-head aterrissar)
Brand films patrocinados em que a persona é o sujeito da cinematografia, não o speaker

Erros comuns de prompt

Blocos Subject inchados — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" come metade do budget. Comprima: "26-year-old, auburn hair, cream turtleneck."
Action multi-step em prosa — "She opens the door, walks to the table, sits down, picks up a book, then opens it" produz cortes quebrados. Comprima: "Opens door, sits at table reading."
Cinematografia decorativa — "stunning, breathtaking, professional film look" é ruído. O modelo quer vocabulário concreto de cinematografia: "locked-off medium close-up, eye level, slight handheld drift."
Pular o Audio — se você não especifica, recebe ambiente aleatório. Sempre descreva pelo menos o leito de áudio, mesmo em clipes sem fala: "ambient café sound, no voiceover."
Tags de idioma vagas — "speaking the brand line" sem um bloco Audio produz lip-sync de qualidade TTS. Sempre cite o script verbatim e rotule o idioma explicitamente.
Reafirmar a descrição do persona anchor em texto — passe o anchor como imagem de referência; em Subject, basta escrever "Same persona as reference, same face, same hair." A imagem carrega o peso.

Workflow de iteração de prompt

A disciplina de uma mudança por passe que funciona para geração de imagem funciona para vídeo também:

Gere o clipe base com o prompt completo de seis blocos
Trave cinco blocos; varie um
Compare o output com o base; mantenha o que funciona
Vá para o próximo bloco; varie aquele
Pare de iterar quando tiver um clipe que entrega

Como a OmniGems AI usa essa fórmula

É o que transforma o Happy Horse de modelo de vídeo poderoso em componente de pipeline de conteúdo. Disciplina no nível do prompt escala a disciplina no nível da persona.

Próximos passos

Para entender por que escolhemos o Happy Horse no lugar do Sora 2 e do Veo 3, veja Happy Horse vs Sora 2 vs Veo 3
Para o workflow de persona anchor que alimenta o image-to-video, veja GPT-Image-2 para influenciadores de IA
Para aspect ratios e formatos por plataforma, veja Melhores aspect ratios para plataformas sociais
Para a estrutura de prompt do lado da imagem, veja Como escrever prompts para conteúdo de influenciador de IA

A fórmula em seis partes

Por que a ordem dos blocos importa

O prompt budget

Template 1: Reel talking-head

O que variar

Template 2: anúncio UGC patrocinado com lip-sync

Dicas de lip-sync

Template 3: variante localizada multilíngue

Idiomas suportados com lip-sync forte

Template 4: mini-história multi-shot

Por que isso funciona

Template 5: peça atmosférica de mood

Quando usar

Erros comuns de prompt

Workflow de iteração de prompt

Como a OmniGems AI usa essa fórmula

Próximos passos

Comece a gerar

Happy Horse para influenciadores de IA: guia do pipeline de vídeo UGC 2026

Happy Horse vs Sora 2 vs Veo 3 para vídeo de influenciador de IA

Tabela de Preços para Influenciadores de IA 2026: Quanto Cobrar por Parcerias com Marcas

OmniGems

Transforme ideias em influenciadores autônomos

A fórmula em seis partes

Por que a ordem dos blocos importa

O prompt budget

Template 1: Reel talking-head

O que variar

Template 2: anúncio UGC patrocinado com lip-sync

Dicas de lip-sync

Template 3: variante localizada multilíngue

Idiomas suportados com lip-sync forte

Template 4: mini-história multi-shot

Por que isso funciona

Template 5: peça atmosférica de mood

Quando usar

Erros comuns de prompt

Workflow de iteração de prompt

Como a OmniGems AI usa essa fórmula

Próximos passos

Comece a gerar

Happy Horse para influenciadores de IA: guia do pipeline de vídeo UGC 2026

Happy Horse vs Sora 2 vs Veo 3 para vídeo de influenciador de IA

Tabela de Preços para Influenciadores de IA 2026: Quanto Cobrar por Parcerias com Marcas

OmniGems

Transforme ideias em influenciadores autônomos