Happy Horse ให้รางวัลกับโครงสร้างมากกว่าความยืดยาว โมเดลมีสิ่งที่คู่มือ prompt เรียกว่า "prompt budget" — เกินราว 60 คำ หน้าจะ generic, motion เละ และ lip-sync drift ทางออกคือ สูตรหกส่วน โครงเดียวกับที่ทีม ATH ของ Alibaba สร้างโมเดลนี้ขึ้นรอบ ๆ
คู่มือนี้ปรับสูตรนั้นให้กับวิดีโอ UGC ของ AI Influencer โดยเฉพาะ: Reels talking-head, โฆษณา lip-sync สปอนเซอร์, เวอร์ชันหลายภาษา, มินิสตอรี่หลายช็อต และคลิปอารมณ์บรรยากาศ ทุกเทมเพลตพร้อม copy-paste และสร้างมาให้เสียบเข้าไปป์ไลน์ของ OmniGems AI เคียงข้าง persona anchor ของ GPT-Image-2
สำหรับพื้นฐานเรื่อง Happy Horse คืออะไรและทำไมเรารันมันเป็นโมเดลวิดีโอดีฟอลต์ ดู Happy Horse pillar guide
สูตรหกส่วน
ทุก prompt ของ Happy Horse มีหกบล็อก ลำดับสำคัญ บล็อกต่อบล็อก:
- Subject — ใครหรืออะไรอยู่บนจอ พร้อมทวน persona invariants
- Action — พวกเขาทำอะไร เป็น motion phrase ลื่นไหลเดียว
- Environment — สถานที่ แสง เวลาในวัน
- Style/Composition — aspect ratio, framing, โทนภาพ
- Camera Motion — การเคลื่อนกล้องชัดเจน หรือ framing คงที่
- Audio — สคริปต์ voiceover ภาษา ambient bed
ข้ามบล็อกไหน โมเดลจะเติมด้วย default ที่ generic ใส่ทั้งหกเสมอ แม้คำตอบคือ "static, no camera motion" หรือ "no voiceover, ambient only"
ทำไมลำดับบล็อกสำคัญ
โมเดลพาร์ส prompt จากซ้ายไปขวาและให้น้ำหนักบล็อกแรก ๆ สูงกว่า Subject และ Action รับ quality budget มากที่สุด ถ้าฝัง persona invariants ใต้คำบรรยายสภาพแวดล้อมเชิงประดับ เพอร์โซน่าจะ drift นำด้วย who และ what; ปล่อยให้ environment, style และ camera ตามลงตัว
Prompt Budget
เล็งที่ 40–60 คำรวมทั้งหกบล็อก ยี่สิบบางเกินไป (โมเดลเติมช่องว่างไม่อาจคาด) แปดสิบหนาแน่นเกินไป (คุณภาพเจือจางข้ามบล็อก) สี่สิบถึงหกสิบคือจุดหวาน
วินัยที่พาคุณไปถึง: noun เฉพาะหนึ่งคำและ adjective เฉพาะหนึ่งคำต่อบล็อก ไม่ใช่ "a beautiful young woman with stunning features in a lovely outfit" — นั่นคือ adjective หกตัวทำงานของ noun หนึ่งตัว ลอง "26-year-old, olive skin, cream turtleneck" สาม noun สาม modifier จบ
เทมเพลต 1: Talking-Head Reel
ขนมปังกับเนย เพอร์โซน่าพูดเข้ากล้อง 9:16, 8–12 วิ ช็อตเดียว โทนคุย ๆ
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 คำ อยู่ในงบ ทุกบล็อกมี noun เฉพาะหนึ่งและ modifier เฉพาะหนึ่ง ส่ง persona anchor ของ GPT-Image-2 เป็นรูปอ้างอิง โมเดลจะคงหน้าไว้
อะไรที่ควรเปลี่ยน
- สคริปต์ Audio — สลับบท คงที่เหลือ
- Environment — สลับ "Brooklyn café" เป็น "Tokyo subway platform" หรือ "Seoul rooftop at night"
- เวลาในวัน — สลับ "golden hour" เป็น "blue hour" หรือ "harsh midday"
- Wardrobe — ทวน wardrobe ใน Subject ถ้าคุณกำลังสลับ; โมเดลต้องการสัญญาณ
เทมเพลต 2: โฆษณา UGC สปอนเซอร์พร้อม Lip-Sync
ฟอร์แมตที่แบรนด์จ่ายเงินซื้อจริง เพอร์โซน่าหน้ากล้อง ถือสินค้า พูดบทแบรนด์
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 คำ ส่งรูปอ้างอิงสองรูป (persona anchor + ภาพสินค้า) โมเดลจัดการ multi-image input ได้สะอาด
เคล็ดลับ Lip-Sync
- อ้างสคริปต์เป๊ะตามตัวในบล็อก Audio — paraphrase สคริปต์ใน prompt ทำให้ lip-sync drift
- ระบุภาษาชัดเจนแม้เป็นภาษาอังกฤษ — โมเดลใช้มันเลือก lip pattern ระดับ phoneme
- สำหรับชื่อแบรนด์ที่ออกเสียงไม่คุ้น เขียนแบบ phonetic ในวงเล็บ:
"Try our new Nuance (NEW-AHNS) cream"
เทมเพลต 3: เวอร์ชัน Localize หลายภาษา
เพอร์โซน่าเดียว ฉากเดียว ภาษาต่าง นี่คือจุดที่ Happy Horse ทบทวี — generate 4 เวอร์ชันภาษาของโฆษณาเดียวจากโครง prompt เดียว
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
บล็อกเดียวที่เปลี่ยนระหว่างเวอร์ชันภาษาคือสคริปต์ใน Audio และ label ภาษา Subject, Action, Environment, Style, Camera คงเหมือนกัน นี่คือเหตุผลที่ generation ของ Happy Horse หนึ่งครั้งต่อภาษาแทน reshoot ทั้งกอง
ภาษาที่รองรับ Lip-Sync แข็งแรง
อังกฤษ จีนกลาง กวางตุ้ง ญี่ปุ่น เกาหลี เยอรมัน ฝรั่งเศส สำหรับภาษาอื่นโมเดลยัง generate audio แต่คุณภาพ lip-sync ลดลง — ดู Happy Horse vs Sora 2 vs Veo 3
เทมเพลต 4: มินิสตอรี่หลายช็อต
15 วินาทีโครง setup → action → payoff อัดซีเควนซ์ลงใน motion phrase ลื่นไหลเดียวในบล็อก Action — prose หลายขั้นทำตัดขาด
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 คำ — เกินงบนิด แต่หลายช็อตในตัวเองต้องการมากกว่า เคล็ด: enumerate ช็อตใน Camera ไม่ใช่ Action Action บรรยาย motion ต่อเนื่องของเพอร์โซน่า; Camera บรรยายว่ากล้องสังเกตอย่างไร
ทำไมแบบนี้ work
Happy Horse เทรนบนซีเควนซ์หลายช็อตแต่พาร์ส motion ของเพอร์โซน่าเป็น trajectory เดียว ถ้าคุณแยก trajectory ข้ามหลายประโยคใน Action โมเดลถือว่าแต่ละประโยคคือคำขอ generation อิสระ และ continuity แตก หนึ่งประโยค Action หนึ่ง persona motion หนึ่งจังหวะต่อเนื่อง — แม้กล้องจะตัด
เทมเพลต 5: คลิปอารมณ์บรรยากาศ
ช้ากว่า ภาพยนตร์ ไม่พูด ใช้สำหรับโพสต์เปิดตัวแบรนด์และประกาศเปิดตัวอินฟลูเอนเซอร์
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 คำ ฟอร์แมตนี้เอนเข้าหาจุดแข็งของ Happy Horse — บรรยากาศ fabric dynamics ความสอดคล้องเชิงเรขาคณิตในการสะท้อน color grading ระดับภาพยนตร์
เมื่อไหร่ใช้
- โพสต์เปิดตัวอินฟลูเอนเซอร์ (แนะนำเพอร์โซน่ากับฟีด)
- คลิปเปิดแคมเปญ (ตั้งอารมณ์ก่อนโฆษณา talking-head ลง)
- หนังแบรนด์สปอนเซอร์ที่เพอร์โซน่าคือ subject ของ cinematography ไม่ใช่ผู้พูด
ข้อผิดพลาด Prompt ที่พบบ่อย
- Subject blocks อ้วน — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" กินงบครึ่ง อัด: "26-year-old, auburn hair, cream turtleneck"
- Prose Action หลายขั้น — "She opens the door, walks to the table, sits down, picks up a book, then opens it" ทำตัดขาด อัด: "Opens door, sits at table reading"
- Cinematography ประดับ — "stunning, breathtaking, professional film look" คือ noise โมเดลต้องการคำศัพท์ cinematography เป็นรูปธรรม: "locked-off medium close-up, eye level, slight handheld drift"
- ข้าม Audio — ถ้าไม่ระบุ ได้แอมเบียนต์มั่ว ๆ ระบุอย่างน้อย ambient bed เสมอ แม้บนคลิปไม่พูด: "ambient café sound, no voiceover"
- แท็กภาษาคลุมเครือ — "speaking the brand line" โดยไม่มีบล็อก Audio ทำ lip-sync คุณภาพ TTS อ้างสคริปต์เป๊ะตามตัวและ label ภาษาให้ชัดเสมอ
- ทวนคำบรรยาย persona anchor เป็นข้อความ — ส่ง anchor เป็นรูปอ้างอิง; ใน Subject แค่เขียน "Same persona as reference, same face, same hair" รูปแบกน้ำหนักหลัก
เวิร์กโฟลว์การวน Prompt
วินัยเปลี่ยนทีละอย่างต่อรอบที่ทำงานกับ image generation ทำงานกับวิดีโอด้วย:
- generate คลิปเริ่มต้นด้วย prompt หกบล็อกเต็ม
- ล็อกห้าบล็อก เปลี่ยนหนึ่ง
- เทียบเอาต์พุตกับเริ่มต้น เก็บที่ใช้ได้
- ขยับไปบล็อกถัดไป เปลี่ยนตัวนั้น
- หยุดวนเมื่อมีคลิปที่พร้อมส่ง
นี่คือวิธีคอนเทนต์ซีรีส์อยู่อย่างเป็นเอกภาพข้าม Reel รายวัน 30+ คลิป Persona anchor เดียวกัน โครง prompt เดียวกัน ทีละตัวแปร พยายามเปลี่ยนสามบล็อกพร้อมกันทำเอาต์พุตที่คาดเดาไม่ได้และโฟลเดอร์ของ take ที่ใช้ไม่ได้
OmniGems AI ใช้สูตรนี้อย่างไร
ภายใน OmniGems AI Studio persona brief ของอินฟลูเอนเซอร์ auto-generate บล็อก Subject ตารางคอนเทนต์ของผู้สร้างกำหนดบล็อก Action และ Audio ดีฟอลต์ Style และ Camera ถูกตั้งต่อแพลตฟอร์ม (9:16 สำหรับ Reels/TikTok/Shorts, 16:9 สำหรับ YouTube long-form) ผู้สร้างเขียนแค่ variation ของ Action และ Audio — ที่เหลือเป็นเทมเพลต
นี่คือสิ่งที่เปลี่ยน Happy Horse จากโมเดลวิดีโอที่ทรงพลังเป็นส่วนประกอบ content-pipeline วินัยในระดับ prompt ขยายวินัยในระดับเพอร์โซน่า
ขั้นตอนถัดไป
- ทำไมเราเลือก Happy Horse ทับ Sora 2 และ Veo 3 ดู Happy Horse vs Sora 2 vs Veo 3
- เวิร์กโฟลว์ persona anchor ที่ป้อนเข้า image-to-video ดู GPT-Image-2 สำหรับ AI Influencer
- Aspect ratios และฟอร์แมตแพลตฟอร์ม ดู Best Aspect Ratios for Social Platforms
- โครงสร้าง prompt ฝั่งภาพ ดู How to Write Prompts for AI Influencer Content
เริ่ม generate
ลองสูตรหกส่วนใน OmniGems AI Studio จัดการ persona anchor ให้ ผสานไปป์ไลน์วิดีโอ model routing ต่อคลิปพร้อมใช้ posting agent และเปิดตัวโทเคนใน flow เดียวกัน