Happy Horse menghargai struktur lebih dari panjang. Model ini punya yang oleh panduan prompt-nya disebut "prompt budget" โ di luar sekitar 60 kata, wajah jadi generik, motion jadi lembek, dan lip-sync melenceng. Solusinya adalah formula enam-bagian, kerangka yang sama yang dipakai tim ATH Alibaba untuk membangun model.
Panduan ini mengadaptasi formula tersebut untuk video UGC AI influencer secara spesifik: Reels talking-head, iklan lip-sync sponsor, varian multibahasa, mini-story multi-shot, dan mood piece atmosferik. Setiap template siap copy-paste dan dibuat untuk masuk ke pipeline OmniGems AI berdampingan dengan persona anchor GPT-Image-2.
Untuk latar belakang tentang apa itu Happy Horse dan kenapa kami menjalankannya sebagai model video default, lihat panduan pilar Happy Horse.
Formula Enam-Bagian
Setiap prompt Happy Horse punya enam blok. Urutan penting. Blok demi blok:
- Subject โ siapa atau apa yang ada di layar, dengan invarian persona dinyatakan ulang
- Action โ apa yang mereka lakukan, sebagai satu frasa motion mengalir
- Environment โ setting, pencahayaan, waktu hari
- Style/Composition โ aspect ratio, framing, tone visual
- Camera Motion โ gerak eksplisit atau framing statis
- Audio โ script voiceover, bahasa, ambient bed
Lewatkan satu blok dan model akan mengisinya dengan default generik. Selalu sediakan keenamnya, bahkan kalau jawabannya "static, no camera motion" atau "no voiceover, ambient only."
Kenapa Urutan Blok Penting
Model mem-parse prompt kiri-ke-kanan dan memberi bobot lebih tinggi pada blok awal. Subject dan Action membawa budget kualitas terbesar. Kalau Anda mengubur invarian persona di bawah deskripsi environment dekoratif, persona akan melenceng. Mulai dengan siapa dan apa; biarkan environment, style, dan camera jatuh ke tempatnya setelah itu.
Prompt Budget
Targetkan 40โ60 kata total di keenam blok. Dua puluh terlalu tipis (model mengisi celah secara tidak terprediksi). Delapan puluh terlalu padat (kualitas mengencer di antar blok). Empat puluh sampai enam puluh adalah sweet spot.
Disiplin yang membawa Anda ke sana: satu noun spesifik dan satu adjective spesifik per blok. Bukan "a beautiful young woman with stunning features in a lovely outfit" โ itu enam adjective melakukan pekerjaan satu noun. Coba "26-year-old, olive skin, cream turtleneck." Tiga noun, tiga modifier, selesai.
Template 1: Reel Talking-Head
Roti dan menteganya. Persona berbicara ke kamera, 9:16, 8โ12 detik, single shot, tone obrolan.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn cafรฉ window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone โ "Honestly? This one product changed my whole morning routine."
49 kata. Dalam budget. Setiap blok punya satu noun spesifik dan satu modifier spesifik. Operkan persona anchor GPT-Image-2 sebagai gambar referensi dan model menahan wajah.
Yang Perlu Divariasikan
- Script audio โ tukar baris, biarkan yang lain
- Environment โ tukar "Brooklyn cafรฉ" dengan "Tokyo subway platform" atau "Seoul rooftop at night"
- Waktu hari โ tukar "golden hour" dengan "blue hour" atau "harsh midday"
- Wardrobe โ nyatakan ulang wardrobe di Subject kalau Anda menukarnya; model butuh cue-nya
Template 2: Iklan UGC Sponsor dengan Lip-Sync
Format yang benar-benar dibayar brand. Persona di kamera, memegang produk, mengucapkan baris brand.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident โ "Three weeks in and I'm not going back."
53 kata. Operkan dua gambar referensi (anchor persona + still produk). Model menangani input multi-image dengan rapi.
Tips Lip-Sync
- Kutip script verbatim di blok Audio โ memparafrasekan script di prompt menghasilkan lip-sync yang melenceng
- Tentukan bahasa secara eksplisit bahkan kalau itu Inggris โ model memakainya untuk memilih pola bibir level-fonem
- Untuk nama brand dengan pelafalan tidak biasa, tulis secara fonetik dalam tanda kurung:
"Try our new Nuance (NEW-AHNS) cream"
Template 3: Varian Lokal Multibahasa
Persona sama, adegan sama, bahasa berbeda. Di sinilah Happy Horse berlipat ganda โ generate empat varian bahasa dari satu iklan dari satu kerangka prompt.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident โ "ไธ้ฑ้ไฝฟใฃใฆใใใๆปใใชใใ"
Satu-satunya blok yang berubah antara varian bahasa adalah script di dalam Audio dan label bahasa. Subject, Action, Environment, Style, Camera tetap identik. Inilah kenapa satu generasi Happy Horse per bahasa menggantikan satu reshoot penuh.
Bahasa yang Didukung dengan Lip-Sync Kuat
Inggris, Mandarin, Kanton, Jepang, Korea, Jerman, Prancis. Untuk bahasa lain model tetap menghasilkan audio tapi kualitas lip-sync menurun โ lihat breakdown di Happy Horse vs Sora 2 vs Veo 3.
Template 4: Mini-Story Multi-Shot
Beat 15 detik dengan setup โ action โ payoff. Mampatkan sekuens ke satu frasa motion mengalir di blok Action โ prosa multi-langkah memecah cut.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 kata โ sedikit di atas budget tapi multi-shot inheren butuh lebih. Triknya: enumerasi shot di dalam Camera, bukan Action. Action mendeskripsikan motion kontinu persona; Camera mendeskripsikan bagaimana kamera mengamatinya.
Kenapa Ini Bekerja
Happy Horse dilatih pada sekuens multi-shot tapi mem-parse motion persona sebagai satu trayektori. Kalau Anda memecah trayektori di banyak kalimat di Action, model memperlakukan setiap kalimat sebagai permintaan generasi independen dan kontinuitas pecah. Satu kalimat Action, satu motion persona, satu beat kontinu โ bahkan saat kamera memotong.
Template 5: Mood Piece Atmosferik
Lebih lambat, sinematik, non-bicara. Dipakai untuk postingan brand-establishing dan pengumuman peluncuran influencer.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient cafรฉ sound, distant rain, lo-fi instrumental โ no voiceover.
64 kata. Format ini bersandar pada kekuatan Happy Horse โ atmosferik, dinamika kain, konsistensi geometris di refleksi, color grading kualitas sinema.
Kapan Dipakai
- Postingan peluncuran influencer (memperkenalkan persona ke feed)
- Klip pembuka kampanye (set mood sebelum iklan talking-head mendarat)
- Brand film sponsor di mana persona adalah subjek sinematografi, bukan pembicara
Kesalahan Prompt Umum
- Blok Subject yang membengkak โ "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" memakan separuh budget. Mampatkan: "26-year-old, auburn hair, cream turtleneck."
- Prosa Action multi-langkah โ "She opens the door, walks to the table, sits down, picks up a book, then opens it" menghasilkan cut yang patah. Mampatkan: "Opens door, sits at table reading."
- Sinematografi dekoratif โ "stunning, breathtaking, professional film look" itu noise. Model mau kosakata sinematografi konkret: "locked-off medium close-up, eye level, slight handheld drift."
- Melewatkan Audio โ kalau Anda tidak menentukan, Anda dapat ambient acak. Selalu deskripsikan setidaknya audio bed-nya, bahkan di klip non-bicara: "ambient cafรฉ sound, no voiceover."
- Tag bahasa yang vague โ "speaking the brand line" tanpa blok Audio menghasilkan lip-sync kualitas TTS. Selalu kutip script verbatim dan label bahasa secara eksplisit.
- Menyatakan ulang deskripsi persona anchor di teks โ operkan anchor sebagai gambar referensi; di Subject, cukup tulis "Same persona as reference, same face, same hair." Gambarnya yang membawa beban berat.
Workflow Iterasi Prompt
Disiplin satu-perubahan-per-pass yang bekerja untuk generasi gambar bekerja juga untuk video:
- Generate klip dasar dengan prompt enam-blok lengkap
- Kunci lima blok; variasikan satu
- Bandingkan output dengan dasar; pertahankan yang berfungsi
- Pindah ke blok berikutnya; variasikan itu
- Berhenti iterasi saat Anda punya klip yang siap kirim
Inilah cara konten serial tetap koheren di 30+ Reels harian. Persona anchor sama, kerangka prompt sama, satu variabel pada satu waktu. Mencoba memvariasikan tiga blok sekaligus menghasilkan output tidak terprediksi dan folder berisi take yang tidak bisa dipakai.
Cara OmniGems AI Memakai Formula Ini
Di dalam OmniGems AI Studio, brief persona influencer otomatis menghasilkan blok Subject. Jadwal konten kreator mendefinisikan blok Action dan Audio. Default Style dan Camera diset per platform (9:16 untuk Reels/TikTok/Shorts, 16:9 untuk YouTube long-form). Kreator hanya menulis variasi Action dan Audio โ sisanya ter-template.
Inilah yang mengubah Happy Horse dari model video kuat menjadi komponen pipeline konten. Disiplin di level prompt menskalakan disiplin di level persona.
Langkah Berikutnya
- Untuk alasan kami memilih Happy Horse di atas Sora 2 dan Veo 3, lihat Happy Horse vs Sora 2 vs Veo 3
- Untuk workflow persona anchor yang memberi makan image-to-video, lihat GPT-Image-2 untuk AI Influencer
- Untuk aspect ratio dan format platform, lihat Aspect Ratio Terbaik untuk Platform Sosial
- Untuk struktur prompt sisi gambar, lihat Cara Menulis Prompt untuk Konten AI Influencer
Mulai Generate
Coba formula enam-bagian di dalam OmniGems AI Studio. Persona anchor ditangani, pipeline video terintegrasi, routing model per klip tersedia, posting agent dan peluncuran token dalam alur yang sama.