Happy Horse поощряет структуру, а не многословность. У модели то, что её гайд называет «бюджетом промпта» — за пределами примерно 60 слов лица становятся обобщёнными, движение рыхлым, а липсинк уплывает. Решение — шестичастная формула, тот же скелет, вокруг которого команда ATH в Alibaba собрала модель.
Этот гайд адаптирует формулу именно под UGC-видео для ИИ-инфлюенсеров: разговорные Reels, спонсорские липсинк-ролики, многоязычные варианты, многоплановые мини-истории и атмосферные настроенческие клипы. Каждый шаблон готов к копированию и собран так, чтобы вставать в пайплайн OmniGems AI рядом с якорями персонажей из GPT-Image-2.
Про то, что такое Happy Horse и почему мы используем его как видео-модель по умолчанию — в пиллар-гайде по Happy Horse.
Шестичастная формула
В каждом промпте Happy Horse — шесть блоков. Порядок имеет значение. По блокам:
- Subject — кто или что в кадре, с повторёнными инвариантами персонажа
- Action — что делает, одной плавной фразой движения
- Environment — сетинг, освещение, время суток
- Style/Composition — соотношение сторон, кадрирование, визуальный тон
- Camera Motion — явное движение или статичная камера
- Audio — скрипт озвучки, язык, фоновый звук
Пропустите блок — модель заполнит его обобщённым дефолтом. Всегда указывайте все шесть, даже если ответ — «статика, без движения камеры» или «без озвучки, только фон».
Почему важен порядок блоков
Модель парсит промпт слева направо и сильнее весит ранние блоки. Subject и Action несут наибольший «бюджет качества». Если зарыть инварианты персонажа под декоративным описанием окружения, персонаж уплывёт. Сначала — кто и что; окружение, стиль и камера встают на места после этого.
Бюджет промпта
Цельтесь в 40–60 слов суммарно на все шесть блоков. Двадцать — слишком жидко (модель заполняет пробелы непредсказуемо). Восемьдесят — слишком плотно (качество размывается между блоками). Сорок–шестьдесят — оптимум.
Дисциплина, которая туда выводит: одно конкретное существительное и одно конкретное прилагательное на блок. Не «красивая молодая женщина с потрясающими чертами в очаровательном наряде» — это шесть прилагательных на работу одного существительного. Попробуйте: «26 лет, оливковая кожа, кремовая водолазка». Три существительных, три определения, всё.
Шаблон 1: разговорный Reel
Хлеб и масло. Персонаж говорит на камеру, 9:16, 8–12 секунд, один план, разговорный тон.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 слов. В пределах бюджета. В каждом блоке — одно конкретное существительное и одно конкретное определение. Передаём якорь персонажа из GPT-Image-2 как референс, и модель удерживает лицо.
Что варьировать
- Скрипт озвучки — меняем реплику, остальное оставляем
- Окружение — меняем «Brooklyn café» на «Tokyo subway platform» или «Seoul rooftop at night»
- Время суток — меняем «golden hour» на «blue hour» или «harsh midday»
- Гардероб — повторите гардероб в Subject, если меняете его; модели нужен сигнал
Шаблон 2: спонсорский UGC с липсинком
Формат, за который реально платят бренды. Персонаж в кадре, держит продукт, произносит брендовую реплику.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 слова. Передаём два референса (якорь персонажа + статичный кадр продукта). Модель аккуратно работает с несколькими входными изображениями.
Советы по липсинку
- Цитируйте скрипт дословно в блоке Audio — пересказ скрипта в промпте даёт уплывший липсинк
- Указывайте язык явно, даже если это английский — модель использует это для подбора фонемных паттернов губ
- Для брендов с непривычным произношением пишите фонетику в скобках:
"Try our new Nuance (NEW-AHNS) cream"
Шаблон 3: многоязычный локализованный вариант
Тот же персонаж, та же сцена, другой язык. Здесь Happy Horse даёт мультипликативный эффект — генерируем четыре языковых варианта одного ролика из одного скелета промпта.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
Между языковыми вариантами меняются только скрипт внутри Audio и метка языка. Subject, Action, Environment, Style, Camera остаются идентичными. Поэтому одна генерация Happy Horse на язык заменяет полную пересъёмку.
Языки с сильным липсинком
Английский, мандарин, кантонский, японский, корейский, немецкий, французский. На остальных языках модель тоже генерирует звук, но качество липсинка ниже — см. разбор в Happy Horse vs Sora 2 vs Veo 3.
Шаблон 4: многоплановая мини-история
15-секундный такт со структурой завязка → действие → развязка. Сожмите последовательность в одну плавную фразу движения в блоке Action — многошаговая проза ломает склейки.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 слов — чуть выше бюджета, но многоплановость по природе требует больше. Хитрость: перечислите шоты в блоке Camera, не в Action. Action описывает непрерывное движение персонажа; Camera описывает, как камера за этим наблюдает.
Почему это работает
Happy Horse учится многоплановым последовательностям, но парсит движение персонажа как одну траекторию. Если разделить траекторию на несколько предложений в Action, модель воспримет каждое предложение как независимый запрос на генерацию, и преемственность сломается. Одно предложение Action, одно движение персонажа, один непрерывный такт — даже когда камера режет.
Шаблон 5: атмосферный настроенческий клип
Медленный, кинематографичный, без речи. Используется для имиджевых постов и анонсов запуска инфлюенсеров.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 слова. Этот формат ложится на сильные стороны Happy Horse — атмосферику, динамику тканей, геометрическую согласованность в отражениях, кинематографический цветокор.
Когда использовать
- Посты запуска инфлюенсера (знакомство персонажа с лентой)
- Открывающие клипы кампаний (задают настроение перед разговорным роликом)
- Спонсорские бренд-фильмы, где персонаж — объект съёмки, а не голос
Типичные ошибки в промптах
- Раздутые блоки Subject — «красивая молодая женщина с каскадными рыжими волосами, пронзительными голубыми глазами, тёплой улыбкой, в потрясающей кремовой водолазке» съедает половину бюджета. Сжимаем: «26 лет, рыжие волосы, кремовая водолазка».
- Многошаговая проза в Action — «Она открывает дверь, идёт к столу, садится, берёт книгу, потом раскрывает её» даёт ломаные склейки. Сжимаем: «Opens door, sits at table reading.»
- Декоративная операторская лексика — «потрясающий, невероятный, профессиональный кинолук» это шум. Модель ждёт конкретной операторской лексики: «locked-off medium close-up, eye level, slight handheld drift».
- Пропускать Audio — если не указать, получите случайный фон. Всегда описывайте хотя бы звуковую подложку, даже на клипах без речи: «ambient café sound, no voiceover».
- Размытые языковые метки — «speaking the brand line» без блока Audio даёт липсинк уровня TTS. Всегда цитируйте скрипт дословно и указывайте язык явно.
- Дублировать описание якоря персонажа в тексте — передавайте якорь как референсное изображение; в Subject пишите просто «Same persona as reference, same face, same hair». Изображение тянет основную нагрузку.
Workflow итерации промпта
Дисциплина «одна переменная за проход», работающая на картинках, работает и на видео:
- Сгенерируйте базовый клип с полным шестиблочным промптом
- Зафиксируйте пять блоков; меняйте один
- Сравните с базой; оставьте то, что работает
- Переходите к следующему блоку; меняйте его
- Останавливайтесь, когда есть клип, который можно отдавать в продакшн
Так серийный контент остаётся связным на 30+ ежедневных Reels. Один и тот же якорь персонажа, один и тот же скелет промпта, одна переменная за раз. Попытка варьировать три блока одновременно даёт непредсказуемый выхлоп и папку непригодных дублей.
Как OmniGems AI использует эту формулу
Внутри Студии OmniGems AI бриф персонажа автоматически генерирует блок Subject. Контент-расписание автора задаёт блоки Action и Audio. Дефолты Style и Camera заданы по платформам (9:16 для Reels/TikTok/Shorts, 16:9 для длинных YouTube-роликов). Автор пишет только вариации Action и Audio — остальное шаблонизировано.
Это и превращает Happy Horse из мощной видео-модели в компонент контент-пайплайна. Дисциплина на уровне промпта масштабирует дисциплину на уровне персонажа.
Дальше
- Почему мы выбрали Happy Horse, а не Sora 2 и Veo 3 — в Happy Horse vs Sora 2 vs Veo 3
- Workflow с якорем персонажа, который кормит image-to-video — в GPT-Image-2 для ИИ-инфлюенсеров
- Соотношения сторон и форматы платформ — в Лучшие соотношения сторон для соцсетей
- Структура промптов для картинок — в Как писать промпты для контента ИИ-инфлюенсеров
Запустить генерацию
Попробуйте шестичастную формулу в Студии OmniGems AI. Якорь персонажа на платформе, видео-пайплайн интегрирован, маршрутизация модели поклипно доступна, агент публикации и запуск токена в одном потоке.