Happy Horseは冗長さよりも構造に報います。モデルにはプロンプトガイドが「プロンプト予算」と呼ぶものがあり、概ね60ワードを超えると顔は汎用化し、モーションは曖昧になり、リップシンクはドリフトします。解決策は六部構成の公式で、AlibabaのATHチームがモデルを構築する際に基にしたのと同じ骨格です。
本ガイドは、その公式をAIインフルエンサーのUGC動画専用に調整します。トーキングヘッドReels、スポンサーリップシンク広告、多言語バリアント、マルチショットのミニストーリー、アトモスフェリックなムードピース。すべてのテンプレートはコピペで使えるように作られており、GPT-Image-2のペルソナアンカーと並んでOmniGems AIのパイプラインに組み込めます。
Happy Horseが何で、なぜ私たちがデフォルトの動画モデルとして使っているかの背景は、Happy Horseのピラーガイドを参照してください。
六部構成の公式
Happy Horseのプロンプトはどれも六つのブロックを持ちます。順序が重要です。ブロックごとに見ていきます。
- Subject — 画面に映るのは誰か何か、ペルソナの不変要素を再宣言
- Action — 何をするか、単一の流麗なモーションフレーズとして
- Environment — 設定、ライティング、時間帯
- Style/Composition — アスペクト比、フレーミング、ビジュアルトーン
- Camera Motion — 明示的な動き、または静的なフレーミング
- Audio — ボイスオーバー台本、言語、環境音ベッド
ブロックを飛ばすとモデルは汎用のデフォルトで埋めます。答えが「static, no camera motion」や「no voiceover, ambient only」だとしても、常に六つすべてを指定してください。
なぜブロックの順序が重要か
モデルはプロンプトを左から右に解析し、初期のブロックに高い重みを置きます。SubjectとActionが最大の品質予算を持ちます。装飾的な環境記述の下にペルソナの不変要素を埋めると、ペルソナはドリフトします。誰と何かを先に出し、環境、スタイル、カメラはその後に並べてください。
プロンプト予算
六ブロック合計で40〜60ワードを狙います。20では薄すぎます(モデルが予測不能に隙間を埋めます)。80では密度が高すぎます(品質がブロック間で薄まります)。40〜60がスイートスポットです。
そこに到達する規律:ブロックごとに具体的な名詞一つと具体的な形容詞一つ。「a beautiful young woman with stunning features in a lovely outfit」ではありません。これは形容詞六つで名詞一つ分の仕事をしています。「26-year-old, olive skin, cream turtleneck」を試してください。名詞三つ、修飾語三つ、これで完成です。
テンプレート1:トーキングヘッドのReel
主食です。ペルソナがカメラに向かって話す、9:16、8〜12秒、シングルショット、会話調。
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49ワード。予算内です。各ブロックには具体的な名詞一つと具体的な修飾語一つがあります。GPT-Image-2のペルソナアンカーをリファレンス画像として渡せば、モデルは顔を保持します。
何を変えるか
- Audioの台本 — セリフを入れ替え、他はすべて維持
- Environment — 「Brooklyn café」を「Tokyo subway platform」や「Seoul rooftop at night」に入れ替える
- 時間帯 — 「golden hour」を「blue hour」や「harsh midday」に入れ替える
- 衣装 — 衣装を入れ替えるならSubjectで再宣言する。モデルにはその合図が必要
テンプレート2:リップシンク付きスポンサーUGC広告
ブランドが実際にお金を払う形式です。ペルソナがカメラの前で商品を持ち、ブランドのセリフを伝えます。
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53ワード。リファレンス画像を二つ渡します(ペルソナアンカー+商品の静止画)。モデルは複数画像入力をきれいに扱います。
リップシンクのコツ
- Audioブロックには台本をそのまま引用する。プロンプト内で台本を言い換えるとリップシンクがドリフトする
- 英語であっても言語を明示する。モデルはそれを音素レベルの口の形のパターン選択に使う
- 発音が珍しいブランド名は括弧書きで音声表記する:
"Try our new Nuance (NEW-AHNS) cream"
テンプレート3:多言語ローカライズバリアント
同じペルソナ、同じシーン、違う言語。ここでHappy Horseは累乗的に効きます。一つのプロンプト骨格から一つの広告の四言語バリアントを生成できます。
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
言語バリアント間で変わるのはAudio内の台本と言語ラベルだけです。Subject、Action、Environment、Style、Cameraは同一のままです。だからこそ、言語ごとにHappy Horseで一回生成すれば撮り直し全体を置き換えられるのです。
強いリップシンクが効く対応言語
英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語。それ以外の言語でもモデルは音声を生成しますが、リップシンク品質は劣化します。詳細はHappy Horse vs Sora 2 vs Veo 3の比較を参照してください。
テンプレート4:マルチショットのミニストーリー
セットアップ → アクション → ペイオフの15秒のビート。シーケンスをActionブロックの単一の流麗なモーションフレーズに圧縮してください。多段の散文はカットを壊します。
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68ワード — 予算をやや超えますが、マルチショットは本質的にもっと必要です。コツ:ショットの列挙はActionではなくCameraに入れる。Actionはペルソナの連続したモーションを記述し、Cameraはカメラがそれをどう観察するかを記述します。
なぜこれが機能するか
Happy Horseはマルチショットシーケンスで学習していますが、ペルソナのモーションを一つの軌跡として解析します。Actionで軌跡を複数の文に分割すると、モデルは各文を独立した生成リクエストとして扱い連続性が壊れます。Action一文、ペルソナのモーション一つ、連続したビート一つ — カメラがカットしてもです。
テンプレート5:アトモスフェリックなムードピース
よりゆっくりした、シネマティックで非発話の形式。ブランド確立投稿やインフルエンサーローンチのお知らせに使います。
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64ワード。この形式はHappy Horseの強み — 大気感、布のダイナミクス、反射の幾何学的整合性、シネマグレードのカラーグレーディング — に乗ります。
いつ使うか
- インフルエンサーローンチ投稿(フィードへのペルソナの導入)
- キャンペーンのオープニングクリップ(トーキングヘッド広告が出る前にムードを作る)
- ペルソナがシネマトグラフィの被写体であって話し手ではないスポンサーブランドフィルム
よくあるプロンプトのミス
- 肥大化したSubjectブロック — 「a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck」は予算の半分を食う。圧縮:「26-year-old, auburn hair, cream turtleneck.」
- 多段のActionの散文 — 「She opens the door, walks to the table, sits down, picks up a book, then opens it」は壊れたカットを生成する。圧縮:「Opens door, sits at table reading.」
- 装飾的なシネマトグラフィ — 「stunning, breathtaking, professional film look」はノイズ。モデルは具体的なシネマトグラフィ語彙を求める:「locked-off medium close-up, eye level, slight handheld drift.」
- Audioを飛ばす — 指定しないとランダムな環境音が出る。非発話クリップでも常に少なくとも音響ベッドを記述する:「ambient café sound, no voiceover.」
- 曖昧な言語タグ — Audioブロックなしで「speaking the brand line」とするとTTS品質のリップシンクになる。常に台本をそのまま引用し、言語を明示的にラベリングする
- Subjectでペルソナアンカーの記述をテキストで再現する — アンカーはリファレンス画像として渡す。Subjectには「Same persona as reference, same face, same hair.」とだけ書く。重い仕事は画像が担う
プロンプト反復のワークフロー
画像生成で機能する「一回一変更」の規律は動画でも同じく機能します。
- 完全な六ブロックプロンプトでベースクリップを生成する
- 五ブロックを固定し、一つだけ変える
- 出力をベースと比較し、機能するものを残す
- 次のブロックに進み、それを変える
- 出荷できるクリップが出たら反復を止める
これが30本以上の毎日Reels連作で連作が一貫を保つ方法です。同じペルソナアンカー、同じプロンプト骨格、一回に一変数だけ。三つのブロックを同時に変えようとすると予測不能な出力と使えないテイクのフォルダができます。
OmniGems AIはこの公式をどう使うか
OmniGems AI Studioでは、インフルエンサーのペルソナブリーフがSubjectブロックを自動生成します。クリエイターのコンテンツスケジュールがActionブロックとAudioブロックを定義します。StyleとCameraのデフォルトはプラットフォームごとに設定されます(Reels/TikTok/Shortsには9:16、YouTube長尺には16:9)。クリエイターが書くのはActionとAudioのバリエーションだけ — 残りはテンプレート化されています。
これがHappy Horseを強力な動画モデルからコンテンツパイプラインの構成要素へと変えるものです。プロンプトレベルでの規律が、ペルソナレベルでの規律をスケールさせます。
次のステップ
- なぜSora 2とVeo 3ではなくHappy Horseを選んだのかはHappy Horse vs Sora 2 vs Veo 3を参照
- image-to-videoに供給するペルソナアンカーのワークフローはAIインフルエンサー向けGPT-Image-2を参照
- アスペクト比とプラットフォーム形式はソーシャルプラットフォーム向けの最適なアスペクト比を参照
- 画像側のプロンプト構造はAIインフルエンサーコンテンツ向けプロンプトの書き方を参照
生成を始めましょう
OmniGems AI Studioで六部構成の公式を試してみてください。ペルソナアンカーは内蔵、動画パイプラインは統合済み、クリップ単位のモデルルーティングが利用可能、投稿エージェントとトークンローンチも同じフローで完結します。