Happy Horse récompense la structure plus que la verbosité. Le modèle a ce que son guide de prompts appelle un « budget de prompt » — au-delà d'environ 60 mots, les visages deviennent génériques, le mouvement vire à la bouillie et le lip-sync dérive. La parade : la formule en six parties, le squelette même autour duquel l'équipe ATH d'Alibaba a construit le modèle.
Ce guide adapte cette formule spécifiquement à la vidéo UGC d'influenceurs IA : Reels en talking-head, pubs lip-sync sponsorisées, variantes multilingues, mini-récits multi-plans et pièces d'ambiance atmosphériques. Chaque modèle est prêt à coller et conçu pour s'insérer dans le pipeline OmniGems AI aux côtés des personas d'ancrage GPT-Image-2.
Pour le contexte sur ce qu'est Happy Horse et pourquoi nous l'utilisons comme modèle vidéo par défaut, voir le guide pilier Happy Horse.
La formule en six parties
Chaque prompt Happy Horse a six blocs. L'ordre compte. Bloc par bloc :
- Subject — qui ou quoi est à l'écran, avec les invariants du persona réaffirmés
- Action — ce qu'il fait, sous forme d'une seule phrase de mouvement fluide
- Environment — décor, lumière, moment de la journée
- Style/Composition — aspect ratio, cadrage, ton visuel
- Camera Motion — mouvement explicite ou cadrage statique
- Audio — script de voix off, langue, lit ambiant
Sautez un bloc et le modèle le remplit avec un défaut générique. Fournissez toujours les six, même si la réponse est « statique, pas de mouvement de caméra » ou « pas de voix off, ambiance seule ».
Pourquoi l'ordre des blocs compte
Le modèle parse les prompts de gauche à droite et pondère plus fort les premiers blocs. Subject et Action portent l'essentiel du budget qualité. Si vous enfouissez les invariants du persona sous une description décorative de l'environnement, le persona dérive. Commencez par qui et quoi ; laissez environnement, style et caméra prendre place ensuite.
Le budget de prompt
Visez 40 à 60 mots au total sur les six blocs. Vingt, c'est trop maigre (le modèle comble les trous de manière imprévisible). Quatre-vingts, c'est trop dense (la qualité se dilue d'un bloc à l'autre). Quarante à soixante, c'est le sweet spot.
La discipline qui vous y mène : un nom spécifique et un adjectif spécifique par bloc. Pas « a beautiful young woman with stunning features in a lovely outfit » — c'est six adjectifs qui font le travail d'un seul nom. Essayez « 26-year-old, olive skin, cream turtleneck ». Trois noms, trois modificateurs, point.
Modèle 1 : Reel en talking-head
Le pain quotidien. Le persona parle face caméra, 9:16, 8 à 12 secondes, plan unique, ton conversationnel.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 mots. Dans le budget. Chaque bloc a un nom spécifique et un modificateur spécifique. Passez le persona d'ancrage GPT-Image-2 en image de référence et le modèle tient le visage.
Ce qu'on fait varier
- Script audio — changez la phrase, gardez le reste
- Environment — remplacez « Brooklyn café » par « Tokyo subway platform » ou « Seoul rooftop at night »
- Moment de la journée — remplacez « golden hour » par « blue hour » ou « harsh midday »
- Garde-robe — réaffirmez la garde-robe dans Subject si vous la changez ; le modèle a besoin du signal
Modèle 2 : pub UGC sponsorisée avec lip-sync
Le format que les marques paient réellement. Le persona à l'écran, tenant le produit, livrant la phrase de marque.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 mots. Passez deux images de référence (persona d'ancrage + image du produit). Le modèle gère proprement l'entrée multi-image.
Astuces lip-sync
- Citez le script verbatim dans le bloc Audio — paraphraser le script dans le prompt produit un lip-sync décalé
- Précisez explicitement la langue même s'il s'agit de l'anglais — le modèle s'en sert pour sélectionner les schémas labiaux au niveau du phonème
- Pour les noms de marque à la prononciation inhabituelle, écrivez-les phonétiquement entre parenthèses :
"Try our new Nuance (NEW-AHNS) cream"
Modèle 3 : variante localisée multilingue
Même persona, même scène, langue différente. C'est ici que Happy Horse compose — générez quatre variantes linguistiques d'une pub à partir d'un seul squelette de prompt.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
Les seuls blocs qui changent entre variantes linguistiques sont le script à l'intérieur d'Audio et l'étiquette de langue. Subject, Action, Environment, Style, Camera restent identiques. C'est pour cela qu'une génération Happy Horse par langue remplace tout un retournage.
Langues prises en charge avec un lip-sync solide
Anglais, mandarin, cantonais, japonais, coréen, allemand, français. Pour les autres langues, le modèle génère toujours l'audio mais la qualité du lip-sync se dégrade — voir le décryptage Happy Horse vs Sora 2 vs Veo 3.
Modèle 4 : mini-récit multi-plans
Battement de 15 secondes avec setup → action → chute. Compressez la séquence dans une seule phrase de mouvement fluide dans le bloc Action — la prose multi-étapes casse les coupes.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 mots — légèrement au-dessus du budget mais le multi-plans en demande intrinsèquement plus. L'astuce : énumérez les plans dans Camera, pas dans Action. Action décrit le mouvement continu du persona ; Camera décrit comment la caméra l'observe.
Pourquoi ça marche
Happy Horse s'entraîne sur des séquences multi-plans mais parse le mouvement du persona comme une trajectoire unique. Si vous fragmentez la trajectoire en plusieurs phrases dans Action, le modèle traite chaque phrase comme une demande de génération indépendante et la continuité se brise. Une phrase Action, un mouvement de persona, un battement continu — même quand la caméra coupe.
Modèle 5 : pièce d'ambiance atmosphérique
Plus lente, cinématographique, sans parole. Utilisée pour les posts de mise en place de marque et les annonces de lancement d'influenceur.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 mots. Ce format mise sur les forces de Happy Horse — atmosphères, dynamique des tissus, cohérence géométrique dans les reflets, étalonnage de qualité cinéma.
Quand l'utiliser
- Posts de lancement d'influenceur (présenter le persona au feed)
- Clips d'ouverture de campagne (poser l'ambiance avant que la pub talking-head ne tombe)
- Films de marque sponsorisés où le persona est le sujet de la cinématographie, pas l'orateur
Erreurs fréquentes de prompt
- Blocs Subject gonflés — « a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck » mange la moitié du budget. Compressez : « 26-year-old, auburn hair, cream turtleneck. »
- Prose Action multi-étapes — « She opens the door, walks to the table, sits down, picks up a book, then opens it » produit des coupes cassées. Compressez : « Opens door, sits at table reading. »
- Cinématographie décorative — « stunning, breathtaking, professional film look » est du bruit. Le modèle veut un vocabulaire cinématographique concret : « locked-off medium close-up, eye level, slight handheld drift. »
- Sauter Audio — sans spécification, vous récupérez de l'ambiance aléatoire. Décrivez toujours au moins le lit audio, même sur les clips sans parole : « ambient café sound, no voiceover. »
- Étiquettes de langue vagues — « speaking the brand line » sans bloc Audio produit un lip-sync de qualité TTS. Citez toujours le script verbatim et étiquetez la langue explicitement.
- Réinscrire la description de l'ancrage en texte — passez l'ancrage en image de référence ; dans Subject, écrivez juste « Same persona as reference, same face, same hair. » L'image porte le gros du travail.
Workflow d'itération de prompt
La discipline d'un seul changement par passage qui marche pour la génération d'images marche aussi pour la vidéo :
- Générez le clip de base avec le prompt complet à six blocs
- Verrouillez cinq blocs ; faites varier un seul
- Comparez le résultat à la base ; gardez ce qui marche
- Passez au bloc suivant ; faites-le varier
- Arrêtez d'itérer quand vous avez un clip livrable
C'est ainsi que le contenu en série reste cohérent sur 30+ Reels quotidiens. Même persona d'ancrage, même squelette de prompt, une variable à la fois. Tenter de faire varier trois blocs à la fois produit des sorties imprévisibles et un dossier de prises inutilisables.
Comment OmniGems AI utilise cette formule
À l'intérieur du Studio OmniGems AI, le brief de persona de l'influenceur génère automatiquement le bloc Subject. Le calendrier de contenu du créateur définit les blocs Action et Audio. Les défauts Style et Camera sont fixés par plateforme (9:16 pour Reels/TikTok/Shorts, 16:9 pour le format long YouTube). Le créateur n'écrit que la variation Action et Audio — le reste est templaté.
C'est ce qui transforme Happy Horse, de modèle vidéo puissant, en composant de pipeline de contenu. La discipline au niveau du prompt fait passer à l'échelle la discipline au niveau du persona.
Pour aller plus loin
- Pour comprendre pourquoi nous avons retenu Happy Horse face à Sora 2 et Veo 3, voir Happy Horse vs Sora 2 vs Veo 3
- Pour le workflow du persona d'ancrage qui alimente l'image-to-video, voir GPT-Image-2 pour les influenceurs IA
- Pour les aspect ratios et formats par plateforme, voir Meilleurs aspect ratios pour les plateformes sociales
- Pour la structure de prompts côté image, voir Comment écrire des prompts pour le contenu d'influenceurs IA
Lancez la production
Essayez la formule en six parties dans le Studio OmniGems AI. Persona d'ancrage géré, pipeline vidéo intégré, routage par modèle disponible au clip, agent de publication et lancement du token dans le même flux.