Happy Horse는 장황함보다 구조에 보상을 줘요. 모델에는 자체 프롬프트 가이드가 "프롬프트 예산"이라고 부르는 것이 있어요. 대략 60단어를 넘어가면 얼굴이 일반화되고, 모션이 흐물흐물해지고, lip-sync가 어긋나기 시작해요. 해법은 6파트 공식 — 알리바바 ATH 팀이 모델을 둘러싸고 만든 바로 그 골격이에요.
이 가이드는 그 공식을 AI 인플루언서 UGC 영상에 맞춰 적용해요. 토킹 헤드 Reels, 협찬 lip-sync 광고, 다국어 변형, 멀티샷 미니 스토리, 분위기 무드 피스. 모든 템플릿은 복붙 가능하고, GPT-Image-2 페르소나 앵커와 함께 OmniGems AI 파이프라인에 들어맞도록 만들어졌어요.
Happy Horse가 무엇이고 왜 우리가 이걸 기본 영상 모델로 돌리는지에 대한 배경은 Happy Horse 필러 가이드를 보세요.
6파트 공식
모든 Happy Horse 프롬프트엔 여섯 블록이 있어요. 순서가 중요해요. 블록별로요.
- Subject — 화면에 누가/무엇이 있는지, 페르소나 불변 요소를 재명시
- Action — 그들이 무엇을 하는지, 단일한 흐르는 모션 구문으로
- Environment — 배경, 조명, 시간대
- Style/Composition — 비율, 프레이밍, 비주얼 톤
- Camera Motion — 명시적 카메라 워크 또는 정적 프레이밍
- Audio — 보이스오버 스크립트, 언어, 환경 베드
블록을 빼먹으면 모델이 일반적인 기본값으로 채워요. 답이 "정적, 카메라 워크 없음"이거나 "보이스오버 없음, 환경음만"이라도 항상 여섯 블록을 다 제공하세요.
블록 순서가 중요한 이유
모델은 프롬프트를 좌에서 우로 파싱하고 앞 블록에 더 큰 가중치를 둬요. Subject와 Action이 가장 큰 품질 예산을 가져가요. 페르소나 불변 요소를 장식적인 환경 묘사 아래에 묻으면 페르소나가 흔들려요. 누가, 무엇을 먼저 두고, 환경·스타일·카메라는 그 뒤에 자리잡게 하세요.
프롬프트 예산
여섯 블록 합쳐서 40~60단어를 목표로 하세요. 20단어는 너무 얇아요(모델이 빈자리를 예측 불가능하게 채워요). 80단어는 너무 빽빽해요(품질이 블록마다 희석돼요). 40~60이 스위트 스폿이에요.
거기 도달하는 규율은 이거예요. 블록당 구체적인 명사 하나, 구체적인 형용사 하나. "a beautiful young woman with stunning features in a lovely outfit"이 아니에요 — 형용사 여섯 개가 명사 하나의 일을 하고 있어요. "26-year-old, olive skin, cream turtleneck"으로 바꿔보세요. 명사 셋, 수식어 셋, 끝.
템플릿 1: 토킹 헤드 Reel
빵과 버터예요. 페르소나가 카메라에 대고 말해요. 9:16, 8~12초, 단일 샷, 대화 톤.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49단어. 예산 안이에요. 모든 블록에 구체적 명사 하나와 구체적 수식어 하나가 들어 있어요. GPT-Image-2 페르소나 앵커를 레퍼런스 이미지로 넘기면 모델이 얼굴을 잡아요.
무엇을 바꿀까
- 오디오 스크립트 — 라인 교체, 나머지는 유지
- 환경 — "Brooklyn café"를 "Tokyo subway platform"이나 "Seoul rooftop at night"로 교체
- 시간대 — "golden hour"를 "blue hour"나 "harsh midday"로 교체
- 의상 — 의상을 바꾼다면 Subject에서 의상을 재명시해 주세요. 모델에 큐가 필요해요
템플릿 2: lip-sync가 있는 협찬 UGC 광고
브랜드가 실제로 돈을 내는 포맷이에요. 페르소나가 카메라 앞에서 제품을 들고, 브랜드 라인을 전달해요.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53단어. 레퍼런스 이미지 두 장(페르소나 앵커 + 제품 스틸)을 넘기세요. 모델은 다중 이미지 입력을 깔끔하게 처리해요.
lip-sync 팁
- 오디오 블록에 스크립트를 그대로 인용하세요. 프롬프트에서 스크립트를 풀어 쓰면 lip-sync가 어긋나요
- 영어라도 언어를 명시적으로 지정하세요. 모델이 그걸로 음소 단위 입술 패턴을 골라요
- 발음이 특이한 브랜드명은 괄호 안에 음성학적으로 적으세요.
"Try our new Nuance (NEW-AHNS) cream"
템플릿 3: 다국어 현지화 변형
같은 페르소나, 같은 장면, 다른 언어. 여기서 Happy Horse가 복리로 빛나요. 한 프롬프트 골격에서 한 광고의 4개 언어 변형을 생성해요.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
언어 변형 사이에서 바뀌는 블록은 Audio 안의 스크립트와 언어 라벨뿐이에요. Subject, Action, Environment, Style, Camera는 동일하게 유지돼요. 그래서 언어당 Happy Horse 생성 한 번이 재촬영 한 차례를 대체할 수 있는 거예요.
lip-sync가 강한 지원 언어
영어, 만다린 중국어, 광동어 중국어, 일본어, 한국어, 독일어, 프랑스어. 다른 언어는 모델이 여전히 오디오를 만들지만 lip-sync 품질이 떨어져요 — Happy Horse vs Sora 2 vs Veo 3 분석을 참고하세요.
템플릿 4: 멀티샷 미니 스토리
setup → action → payoff의 15초 비트. 시퀀스를 Action 블록 안에 단일한 흐르는 모션 구문으로 압축하세요. 멀티스텝 산문은 컷을 깨버려요.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68단어 — 예산을 약간 넘었지만 멀티샷은 본질적으로 더 필요해요. 트릭은 이거예요. 샷 열거를 Camera에 두지, Action에 두지 마세요. Action은 페르소나의 연속된 모션을 묘사해요. Camera는 카메라가 그걸 어떻게 관찰하는지를 묘사해요.
왜 이게 동작하나요
Happy Horse는 멀티샷 시퀀스 위에서 학습되지만 페르소나의 모션은 하나의 궤적으로 파싱해요. 그 궤적을 Action에서 여러 문장으로 쪼개면, 모델은 각 문장을 독립적인 생성 요청으로 취급하고 연속성이 깨져요. Action 한 문장, 페르소나 모션 하나, 연속된 비트 하나 — 카메라가 컷되더라도요.
템플릿 5: 분위기 무드 피스
더 느리고, 시네마틱하고, 비대화. 브랜드 정립 게시물과 인플루언서 출시 알림에 쓰여요.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64단어. 이 포맷은 Happy Horse의 강점에 기대요 — 분위기, 직물 다이내믹스, 반사면의 기하학적 일관성, 시네마급 컬러 그레이딩.
언제 쓸까
- 인플루언서 출시 게시물 (페르소나를 피드에 소개)
- 캠페인 오프닝 클립 (토킹 헤드 광고가 떨어지기 전 무드 잡기)
- 페르소나가 화자가 아니라 촬영의 주제인 협찬 브랜드 필름
자주 하는 프롬프트 실수
- Subject 블록 비대화 — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck"는 예산의 절반을 잡아먹어요. 압축: "26-year-old, auburn hair, cream turtleneck."
- 멀티스텝 Action 산문 — "She opens the door, walks to the table, sits down, picks up a book, then opens it"는 끊긴 컷을 만들어요. 압축: "Opens door, sits at table reading."
- 장식적 촬영 표현 — "stunning, breathtaking, professional film look"은 노이즈예요. 모델은 구체적인 촬영 어휘를 원해요. "locked-off medium close-up, eye level, slight handheld drift."
- 오디오 빠뜨리기 — 명시하지 않으면 무작위 환경음이 나와요. 비대화 클립이라도 최소한 오디오 베드를 항상 묘사하세요. "ambient café sound, no voiceover."
- 모호한 언어 태그 — Audio 블록 없이 "speaking the brand line"은 TTS급 lip-sync를 만들어요. 항상 스크립트를 그대로 인용하고 언어를 명시적으로 라벨링하세요.
- 페르소나 앵커 묘사를 텍스트로 재진술하기 — 앵커는 레퍼런스 이미지로 넘기세요. Subject엔 그냥 "Same persona as reference, same face, same hair"라고만 쓰세요. 무거운 짐은 이미지가 짊어져요.
프롬프트 반복 워크플로우
이미지 생성에 통하는 한 번에 한 변수 원칙이 영상에도 그대로 통해요.
- 풀 6블록 프롬프트로 베이스 클립 생성
- 다섯 블록은 잠그고 하나만 변경
- 출력을 베이스와 비교, 통하는 걸 유지
- 다음 블록으로 이동, 그 블록만 변경
- 출고 가능한 클립이 나오면 반복 중단
이게 시리즈 콘텐츠가 30개+ 데일리 Reels에 걸쳐 일관성을 유지하는 방법이에요. 같은 페르소나 앵커, 같은 프롬프트 골격, 한 번에 한 변수. 한 번에 세 블록을 바꾸려 들면 예측 불가능한 출력과 못 쓰는 테이크의 폴더가 나와요.
OmniGems AI는 이 공식을 어떻게 활용하나요
OmniGems AI Studio 안에서 인플루언서의 페르소나 브리프가 Subject 블록을 자동 생성해요. 크리에이터의 콘텐츠 일정이 Action과 Audio 블록을 정의해요. Style과 Camera 기본값은 플랫폼별로 설정돼요(Reels/TikTok/Shorts엔 9:16, YouTube 장편엔 16:9). 크리에이터는 Action과 Audio 변형만 작성해요 — 나머지는 템플릿화돼 있어요.
이게 Happy Horse를 강력한 영상 모델에서 콘텐츠 파이프라인 컴포넌트로 바꿔놓는 지점이에요. 프롬프트 단의 규율이 페르소나 단의 규율을 확장해요.
다음 단계
- 우리가 Sora 2와 Veo 3 대신 Happy Horse를 고른 이유는 Happy Horse vs Sora 2 vs Veo 3에서
- image-to-video를 먹이는 페르소나 앵커 워크플로우는 AI 인플루언서를 위한 GPT-Image-2에서
- 비율과 플랫폼 포맷은 소셜 플랫폼별 최적 비율에서
- 이미지 측 프롬프트 구조는 AI 인플루언서 콘텐츠 프롬프트 작성법에서
시작하기
OmniGems AI Studio 안에서 6파트 공식을 직접 써보세요. 페르소나 앵커가 처리되어 있고, 영상 파이프라인이 통합되어 있고, 클립 단위 모델 라우팅이 가능하고, 게시 에이전트와 토큰 출시가 같은 흐름 안에서 끝나요.