Happy Horse verbosity से ज़्यादा structure को reward करता है। Model का जिसे उसकी prompt guide "prompt budget" कहती है — लगभग 60 शब्दों के बाद चेहरे generic हो जाते हैं, motion गंदला हो जाती है, और lip-sync drift करने लगती है। इसका fix है छह-part फ़ॉर्मूला, वही skeleton जिसके चारों ओर Alibaba की ATH team ने model बनाया।
यह गाइड उस फ़ॉर्मूले को ख़ासकर AI इन्फ्लुएंसर UGC video के लिए adapt करती है: talking-head Reels, sponsored lip-sync ads, multilingual variants, multi-shot mini-stories, और atmospheric mood pieces। हर template copy-paste ready है और GPT-Image-2 persona anchors के साथ OmniGems AI pipeline में slot होने के लिए बना है।
Happy Horse क्या है और हम इसे default video model क्यों चलाते हैं — इसके background के लिए देखिए Happy Horse pillar guide।
छह-part फ़ॉर्मूला
हर Happy Horse prompt के छह blocks होते हैं। Order मायने रखता है। Block-by-block:
- Subject — स्क्रीन पर कौन या क्या है, persona invariants restate करते हुए
- Action — वे क्या करते हैं, एक single fluid motion phrase के रूप में
- Environment — setting, lighting, time of day
- Style/Composition — aspect ratio, framing, visual tone
- Camera Motion — explicit move या static framing
- Audio — voiceover script, language, ambient bed
कोई block छोड़िए और model उसे एक generic default से भर देगा। हमेशा छहों दीजिए, भले जवाब "static, no camera motion" हो या "no voiceover, ambient only।"
Block order क्यों मायने रखता है
Model prompts को left-to-right parse करता है और शुरुआती blocks को ज़्यादा weight देता है। Subject और Action सबसे ज़्यादा quality budget carry करते हैं। अगर आप persona invariants को decorative environment description के नीचे दबा देंगे, persona drift हो जाएगी। पहले कौन और क्या रखिए; environment, style और camera को बाद में अपनी जगह आने दीजिए।
Prompt Budget
सभी छह blocks पर मिलाकर 40–60 शब्दों का target रखिए। बीस बहुत पतला है (model gaps को unpredictably भरता है)। अस्सी बहुत dense है (quality blocks पर dilute हो जाती है)। चालीस से साठ sweet spot है।
वहाँ पहुँचने का अनुशासन: हर block में एक specific noun और एक specific adjective। "a beautiful young woman with stunning features in a lovely outfit" नहीं — वो एक noun का काम छह adjectives से करवा रहा है। "26-year-old, olive skin, cream turtleneck" try कीजिए। तीन nouns, तीन modifiers, हो गया।
Template 1: Talking-Head Reel
रोटी-पानी। Persona कैमरे से बात करती है, 9:16, 8–12 seconds, single shot, conversational tone।
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 शब्द। Budget के अंदर। हर block में एक specific noun और एक specific modifier। Reference image के तौर पर GPT-Image-2 persona anchor पास कीजिए और model चेहरा hold कर लेता है।
क्या vary करें
- Audio script — line बदलिए, बाक़ी सब वैसा ही रखिए
- Environment — "Brooklyn café" को "Tokyo subway platform" या "Seoul rooftop at night" से swap कीजिए
- Time of day — "golden hour" को "blue hour" या "harsh midday" से swap कीजिए
- Wardrobe — wardrobe बदल रहे हैं तो Subject में restate कीजिए; model को cue चाहिए
Template 2: Lip-Sync के साथ Sponsored UGC Ad
वो format जिसके लिए brands असल में पैसे देते हैं। Persona कैमरे पर, product hold कर रही है, brand line deliver कर रही है।
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 शब्द। दो reference images पास कीजिए (persona anchor + product still)। Model multi-image input को साफ़ handle करता है।
Lip-Sync Tips
- Audio block में script verbatim quote कीजिए — prompt में script को paraphrase करना drifted lip-sync produce करता है
- Language explicitly specify कीजिए, चाहे English ही हो — model इसका इस्तेमाल phoneme-level lip patterns चुनने में करता है
- अनोखी pronunciation वाले brand names के लिए, उन्हें phonetically एक parenthetical में लिखिए:
"Try our new Nuance (NEW-AHNS) cream"
Template 3: Multilingual Localized Variant
वही persona, वही scene, अलग language। यहीं Happy Horse compound होता है — एक prompt skeleton से एक ad के चार language variants generate कीजिए।
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
Language variants के बीच जो blocks बदलते हैं वो हैं Audio के अंदर का script और language label। Subject, Action, Environment, Style, Camera identical रहते हैं। इसीलिए हर language के लिए एक Happy Horse generation पूरे reshoot की जगह ले लेती है।
मज़बूत Lip-Sync वाली supported languages
English, Mandarin Chinese, Cantonese Chinese, Japanese, Korean, German, French। बाक़ी languages के लिए model audio तो generate करता है पर lip-sync quality घटती है — देखिए Happy Horse vs Sora 2 vs Veo 3 breakdown।
Template 4: Multi-Shot Mini-Story
Setup → action → payoff के साथ 15-second beat। Sequence को Action block के अंदर एक single fluid motion phrase में compress कीजिए — multi-step prose cuts तोड़ देता है।
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 शब्द — budget से थोड़ा ज़्यादा पर multi-shot inherently ज़्यादा माँगता है। Trick: shots को Camera के अंदर enumerate कीजिए, Action में नहीं। Action persona की continuous motion describe करता है; Camera describe करता है कि camera उसे कैसे observe करती है।
यह क्यों काम करता है
Happy Horse multi-shot sequences पर train होता है पर persona की motion को एक trajectory के रूप में parse करता है। अगर आप Action में trajectory को कई sentences में split करेंगे, model हर sentence को एक independent generation request मानेगा और continuity टूट जाएगी। एक Action sentence, एक persona motion, एक continuous beat — चाहे camera cut करे।
Template 5: Atmospheric Mood Piece
धीमे, cinematic, non-speaking। Brand-establishing posts और इन्फ्लुएंसर-launch announcements के लिए।
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 शब्द। यह format Happy Horse की ताक़तों पर खेलता है — atmospherics, fabric dynamics, reflections में geometric consistency, cinema-grade color grading।
कब use करें
- इन्फ्लुएंसर launch posts (feed पर persona का परिचय)
- Campaign opening clips (talking-head ad आने से पहले mood set करना)
- Sponsored brand films जहाँ persona cinematography का subject है, speaker नहीं
आम Prompt Mistakes
- Bloated Subject blocks — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" आधा budget खा जाता है। Compress: "26-year-old, auburn hair, cream turtleneck।"
- Multi-step Action prose — "She opens the door, walks to the table, sits down, picks up a book, then opens it" टूटे cuts produce करता है। Compress: "Opens door, sits at table reading।"
- Decorative cinematography — "stunning, breathtaking, professional film look" शोर है। Model concrete cinematography vocabulary चाहता है: "locked-off medium close-up, eye level, slight handheld drift।"
- Audio skip करना — specify नहीं किया तो random ambient मिलेगा। Non-speaking clips पर भी कम-से-कम audio bed describe कीजिए: "ambient café sound, no voiceover।"
- Vague language tags — Audio block के बिना "speaking the brand line" TTS-quality lip-sync produce करता है। Script हमेशा verbatim quote कीजिए और language explicitly label कीजिए।
- Persona anchor description text में restate करना — anchor को reference image के तौर पर पास कीजिए; Subject में बस लिखिए "Same persona as reference, same face, same hair।" Heavy load image carry करती है।
Prompt Iteration Workflow
Image generation के लिए जो single-change-per-pass अनुशासन काम करता है, वो video के लिए भी काम करता है:
- पूरे छह-block prompt से base clip generate कीजिए
- पाँच blocks lock कीजिए; एक vary कीजिए
- Output को base से compare कीजिए; जो काम करे वो रखिए
- अगले block पर जाइए; उसे vary कीजिए
- जब ship करने लायक clip मिल जाए, iterate करना बंद कीजिए
इसी तरह 30+ daily Reels पर series content coherent रहता है। वही persona anchor, वही prompt skeleton, एक बार में एक variable। एक साथ तीन blocks vary करने की कोशिश unpredictable output और unusable takes का folder देती है।
OmniGems AI इस फ़ॉर्मूले का इस्तेमाल कैसे करता है
OmniGems AI Studio के अंदर इन्फ्लुएंसर का persona brief Subject block को auto-generate करता है। Creator का content schedule Action और Audio blocks define करता है। Style और Camera defaults हर platform के हिसाब से सेट होते हैं (Reels/TikTok/Shorts के लिए 9:16, YouTube long-form के लिए 16:9)। Creator सिर्फ़ Action और Audio variation लिखता है — बाक़ी templated है।
यही चीज़ Happy Horse को एक powerful video model से बदलकर content-pipeline component बनाती है। Prompt level पर अनुशासन persona level पर अनुशासन को scale करता है।
अगले कदम
- हमने Sora 2 और Veo 3 के बजाय Happy Horse क्यों चुना — देखिए Happy Horse vs Sora 2 vs Veo 3
- Image-to-video को feed करने वाले persona anchor workflow के लिए देखिए GPT-Image-2 for AI Influencers
- Aspect ratios और platform formats के लिए देखिए Best Aspect Ratios for Social Platforms
- Image-side prompt structure के लिए देखिए How to Write Prompts for AI Influencer Content
Generate करना शुरू कीजिए
OmniGems AI Studio के अंदर छह-part फ़ॉर्मूला try कीजिए। Persona anchor handled, video pipeline integrated, per-clip model routing available, posting agent और token launch उसी flow में।