Happy Horse thưởng cho cấu trúc hơn là sự dài dòng. Mô hình có thứ mà hướng dẫn prompt của nó gọi là "ngân sách prompt" — vượt quá khoảng 60 từ, khuôn mặt thành chung chung, chuyển động bị nhão và lip-sync drift. Lời giải là công thức sáu phần, cùng bộ khung mà đội ATH của Alibaba đã xây mô hình quanh nó.
Hướng dẫn này tinh chỉnh công thức đó cho video UGC AI influencer cụ thể: Reels talking-head, quảng cáo lip-sync tài trợ, biến thể đa ngôn ngữ, mini-story nhiều cảnh và clip mood không khí. Mọi template đều sẵn sàng copy-paste và được xây để khớp vào pipeline OmniGems AI bên cạnh persona anchor GPT-Image-2.
Để biết Happy Horse là gì và tại sao chúng tôi chạy nó như mô hình video mặc định, xem hướng dẫn pillar Happy Horse.
Công thức sáu phần
Mỗi prompt Happy Horse có sáu khối. Thứ tự quan trọng. Block-by-block:
- Subject — ai hoặc cái gì trên màn hình, kèm các bất biến persona được lặp lại
- Action — họ làm gì, dưới dạng một cụm chuyển động trôi chảy duy nhất
- Environment — bối cảnh, ánh sáng, thời gian trong ngày
- Style/Composition — tỷ lệ khung hình, framing, sắc thái hình ảnh
- Camera Motion — chuyển động rõ ràng hoặc framing tĩnh
- Audio — kịch bản voiceover, ngôn ngữ, lớp ambient
Bỏ một khối và mô hình sẽ điền nó bằng mặc định chung. Luôn cung cấp đủ sáu, kể cả khi câu trả lời là "static, no camera motion" hoặc "no voiceover, ambient only."
Tại sao thứ tự khối quan trọng
Mô hình parse prompt từ trái sang phải và đặt trọng số cao hơn cho các khối đầu. Subject và Action mang phần lớn ngân sách chất lượng. Nếu bạn chôn các bất biến persona dưới mô tả môi trường trang trí, persona sẽ drift. Hãy mở đầu bằng ai và làm gì; để environment, style và camera vào đúng chỗ sau đó.
Ngân sách prompt
Nhắm tới 40–60 từ tổng qua cả sáu khối. Hai mươi là quá mỏng (mô hình điền chỗ trống không đoán được). Tám mươi là quá đặc (chất lượng loãng qua các khối). Bốn mươi tới sáu mươi là điểm ngọt.
Kỷ luật đưa bạn tới đó: một danh từ cụ thể và một tính từ cụ thể mỗi khối. Không phải "a beautiful young woman with stunning features in a lovely outfit" — đó là sáu tính từ làm việc của một danh từ. Hãy thử "26-year-old, olive skin, cream turtleneck." Ba danh từ, ba modifier, xong.
Template 1: Reel talking-head
Cơm áo gạo tiền. Persona nói trước camera, 9:16, 8–12 giây, một cảnh, giọng đối thoại.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 từ. Trong ngân sách. Mỗi khối có một danh từ cụ thể và một modifier cụ thể. Truyền persona anchor GPT-Image-2 làm ảnh tham chiếu và mô hình giữ được khuôn mặt.
Cái gì cần đổi
- Kịch bản audio — đổi câu thoại, giữ mọi thứ khác
- Environment — đổi "Brooklyn café" thành "Tokyo subway platform" hoặc "Seoul rooftop at night"
- Thời gian trong ngày — đổi "golden hour" thành "blue hour" hoặc "harsh midday"
- Trang phục — lặp lại trang phục trong Subject nếu bạn đổi nó; mô hình cần tín hiệu
Template 2: Quảng cáo UGC tài trợ với Lip-Sync
Định dạng mà các thương hiệu thực sự trả tiền. Persona trước camera, cầm sản phẩm, đọc câu thoại thương hiệu.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 từ. Truyền hai ảnh tham chiếu (persona anchor + ảnh tĩnh sản phẩm). Mô hình xử lý đầu vào nhiều ảnh sạch sẽ.
Mẹo Lip-Sync
- Trích dẫn kịch bản verbatim trong khối Audio — paraphrase kịch bản trong prompt tạo ra lip-sync drift
- Chỉ định ngôn ngữ rõ ràng kể cả khi đó là tiếng Anh — mô hình dùng nó để chọn pattern môi cấp phoneme
- Với tên thương hiệu phát âm bất thường, viết phiên âm trong ngoặc đơn:
"Try our new Nuance (NEW-AHNS) cream"
Template 3: Biến thể bản địa hoá đa ngôn ngữ
Cùng persona, cùng cảnh, ngôn ngữ khác. Đây là nơi Happy Horse cộng dồn lợi thế — tạo bốn biến thể ngôn ngữ của một quảng cáo từ một bộ khung prompt.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
Các khối duy nhất thay đổi giữa các biến thể ngôn ngữ là kịch bản bên trong Audio và nhãn ngôn ngữ. Subject, Action, Environment, Style, Camera giữ nguyên. Đây là lý do một lần tạo Happy Horse mỗi ngôn ngữ thay thế cả một lần quay lại.
Các ngôn ngữ được hỗ trợ với lip-sync mạnh
Anh, Quan thoại, Quảng Đông, Nhật, Hàn, Đức, Pháp. Với các ngôn ngữ khác, mô hình vẫn tạo audio nhưng chất lượng lip-sync giảm — xem phân tích Happy Horse vs Sora 2 vs Veo 3.
Template 4: Mini-Story nhiều cảnh
Nhịp 15 giây với setup → action → payoff. Nén chuỗi vào một cụm chuyển động trôi chảy duy nhất trong khối Action — văn xuôi nhiều bước phá vỡ các cắt cảnh.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 từ — hơi vượt ngân sách nhưng nhiều cảnh vốn cần nhiều hơn. Mẹo: liệt kê các shot bên trong Camera, không phải Action. Action mô tả chuyển động liên tục của persona; Camera mô tả cách camera quan sát nó.
Tại sao điều này hoạt động
Happy Horse huấn luyện trên chuỗi nhiều cảnh nhưng parse chuyển động của persona như một quỹ đạo. Nếu bạn tách quỹ đạo qua nhiều câu trong Action, mô hình xử lý mỗi câu như một yêu cầu tạo độc lập và liên tục bị phá vỡ. Một câu Action, một chuyển động persona, một nhịp liên tục — kể cả khi camera cắt.
Template 5: Clip mood không khí
Chậm hơn, điện ảnh, không lời. Dùng cho bài định vị thương hiệu và thông báo ra mắt influencer.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 từ. Định dạng này nghiêng vào điểm mạnh của Happy Horse — không khí, động lực vải, tính nhất quán hình học trong phản chiếu, color grading cấp điện ảnh.
Khi nào dùng
- Bài ra mắt influencer (giới thiệu persona vào feed)
- Clip mở chiến dịch (tạo mood trước khi quảng cáo talking-head xuất hiện)
- Phim thương hiệu tài trợ nơi persona là chủ thể của quay phim, không phải người nói
Lỗi prompt thường gặp
- Khối Subject phình to — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" ngốn nửa ngân sách. Nén: "26-year-old, auburn hair, cream turtleneck."
- Văn xuôi Action nhiều bước — "She opens the door, walks to the table, sits down, picks up a book, then opens it" tạo cắt cảnh hỏng. Nén: "Opens door, sits at table reading."
- Quay phim trang trí — "stunning, breathtaking, professional film look" là nhiễu. Mô hình muốn từ vựng quay phim cụ thể: "locked-off medium close-up, eye level, slight handheld drift."
- Bỏ qua Audio — nếu không chỉ định, bạn nhận được ambient ngẫu nhiên. Luôn mô tả ít nhất lớp audio, kể cả trên clip không lời: "ambient café sound, no voiceover."
- Nhãn ngôn ngữ mơ hồ — "speaking the brand line" mà không có khối Audio tạo lip-sync chất lượng TTS. Luôn trích dẫn kịch bản verbatim và gắn nhãn ngôn ngữ rõ ràng.
- Lặp lại mô tả persona anchor bằng văn bản — truyền anchor làm ảnh tham chiếu; trong Subject chỉ viết "Same persona as reference, same face, same hair." Ảnh gánh phần nặng.
Quy trình lặp prompt
Kỷ luật một-thay-đổi-mỗi-lượt hoạt động cho tạo ảnh cũng hoạt động cho video:
- Tạo clip cơ sở với prompt sáu khối đầy đủ
- Khoá năm khối; đổi một
- So sánh đầu ra với cơ sở; giữ cái hoạt động
- Chuyển sang khối tiếp theo; đổi cái đó
- Dừng lặp khi bạn có một clip ship được
Đây là cách nội dung dạng chuỗi giữ mạch lạc qua hơn 30 Reels hàng ngày. Cùng persona anchor, cùng bộ khung prompt, một biến mỗi lần. Cố gắng đổi ba khối cùng lúc tạo ra đầu ra không đoán được và một thư mục các take không dùng được.
OmniGems AI dùng công thức này như thế nào
Bên trong OmniGems AI Studio, brief persona của influencer tự động tạo khối Subject. Lịch nội dung của người sáng tạo định nghĩa các khối Action và Audio. Mặc định Style và Camera được set theo nền tảng (9:16 cho Reels/TikTok/Shorts, 16:9 cho YouTube long-form). Người sáng tạo chỉ viết biến đổi Action và Audio — phần còn lại được template hoá.
Đây là cái biến Happy Horse từ một mô hình video mạnh thành một thành phần pipeline nội dung. Kỷ luật ở cấp prompt scale kỷ luật ở cấp persona.
Bước tiếp theo
- Để biết tại sao chúng tôi chọn Happy Horse hơn Sora 2 và Veo 3, xem Happy Horse vs Sora 2 vs Veo 3
- Để biết quy trình persona anchor làm đầu vào image-to-video, xem GPT-Image-2 cho AI influencer
- Để biết tỷ lệ khung hình và định dạng nền tảng, xem Tỷ lệ khung hình tốt nhất cho mạng xã hội
- Để biết cấu trúc prompt phía ảnh, xem Cách viết prompt cho nội dung AI influencer
Bắt đầu tạo
Hãy thử công thức sáu phần bên trong OmniGems AI Studio. Persona anchor được lo, pipeline video tích hợp, định tuyến mô hình theo clip có sẵn, posting agent và ra mắt token trong cùng một luồng.